본문 바로가기

부트캠프(LIKELION AIS7)78

[AI스쿨 7기, 5주차] streamlit, git hub 멋쟁이사자처럼 AI스쿨 7기, 박조은 강사님 강의 221018 streamlit 09번 강의 파일 데이터센터나 클라우드 서버를 사용하는 이유? / 왜 대시보드를 서버에 띄우는지 / 대시보드를 왜 만드는지 : 우리가 쓰는 컴퓨터도 메모리를 늘린다거나 새로 사는 경우처럼 24시간 동안 가동이 되어야 한다. 계속 켜두면 발열. 안정적인 전력공급이나 네트워크 유지가 어렵기 때문에 우리는 클라우드 서비스를 깃허브를 사용할 것 리눅스 계열 명령어(cmd 명령어 창) - ls 실행: ls가 안된다면 dir - cd .. 하면 상위 폴더로 이동 / cd (폴더명st_demo)로 입력해서 돌아올 수 있다. - Git Bash는 윈도우 환경에서 리눅스 명령어를 입력할 수 있다. 잔디심기와 습관 만들기 깃(Git) : 작업.. 2023. 4. 21.
[AI스쿨 7기, 5주차] 데이터타입, downcast, parquet, 미니프로젝트리뷰 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의(0307번 파일 복습 sns.barplot과 plotly의 histogram 연산, 범주형데이터와 수치형데이터/ 0308번 파일 : 데이터타입, downcast, 메모리 용량 줄이기 / 0309번 파일 : csv와 parquet / 미니프로젝트리뷰 / streamlit) 221017 0307 실습파일 복습 Q. 가지고 있는 컴퓨터나 노트북을 이용해서도 가능한데, 왜 굳이 클라우드 서비스를 이용하는지? Q. 처방데이터는 대부분 숫자로 되어 있을까? 데이터 용량을 줄이기 위해서, 인코딩 에러를 방지 Q. pd.to_datetime으로 데이터 형식을 변경해 준 이유? 월, 일, 요일 등의 파생변수를 만들기 위해서 Q. df.describe에서 top? 최빈값.. 2023. 4. 21.
221013~221016 TIL(싱크업미팅, 미니프로젝트 등) 221013 의약품 파생변수 만드는 것, 그래프 그리는 것 어려웠다. / 221014 SQL 완료! 복습해야하는데 못했다. 미드 1차 싱크업미팅 / 221015 미니 프로젝트 완료 / 221016 미니프로젝트 모임, 코드 리뷰, 미니프로젝트 제출 완료, 미드 주제 고민 221013 THU. TIL 사실(Fact) : 의약품 처방 정보를 가지고 응용을 해보았다. 느낌(Feeling) : 라면 끓이다가 급 팔보채ㅋㅋㅋ 많이 적응했다 생각했는데 다시 어려워졌다. 교훈(Finding) : 도메인 이해의 필요성을 조금 깨닫는다. 오늘 할 것 미니프로젝트 주제 정하기 싱크업 미팅 전 물어볼 거 정리하기, 미드 프로젝트 방향성 정하기 21시 30분 1차 싱크업 미팅 with 멘토 221014 FRI. TIL SQL .. 2023. 4. 19.
[AI스쿨 7기, 4주차] 의약품 처방정보 샘플링, 전처리, 분석, 시각화 0306번 실습 파일 : 의약품처방정보 샘플링 / 0307번 실습 파일 : 전처리, 분석 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221013 1. 08번 의약품 처방정보 강의자료 5000만명 중 100만 명의 정보를 수집한 것 : 전국민 2% 샘플 Q. 데이터가 잘 되어 있음에도 유료로 구매하는 이유? 공공데이터는 시기성이 떨어진다. 2. 0306번 실습 파일 2.1 샘플링 a는 1-D array, size는 몇개를 샘플링 할 것인지 전수조사는 오류가 날 수 있고, 노트북이 안 돌아갈 수 있기 때문에 표본조사로 샘플링을 먼저 한다. 2.2 넘파이로 샘플링 np.random.seed(42) 최근에는 rng=np.random.default_rng(42) 를 더 권장하고 있다. https://nu.. 2023. 4. 19.
221012 TIL - 기초탄탄 스터디(정규표현식 이용해서 꼭 해결해보자) TIL-시각화를 하면서 익숙해진 것 같다. / 스터디 - 프로그래머스 문제, 정규표현식으로 못 푼 문제 꼭 해결해보자 221012 TIL Fact(사실) : Tidy data로 만들어 분석하고, 시각화를 해보는 연습을 했다. Feeling(느낌) : 시각화에 익숙해졌다고 생각했는데, 코시스의 수입수출 데이터를 시각화하는게 조금 까다롭다. seaborn이랑 용어가 조금 달라서 color, barmode, facet_col 등이 바로 와닿지 않아서 어떤 항목을 넣어서 비교를 해 줄지 감이 안와서 인 것 같다. 연습을 많이 해봐야겠다. Finding(교훈) : 실습할 때 열심히 생각하고 풀어서 쓰레드에 제출하자! 기초탄탄 스터디 프로그래머스 1. 내적 def solution(a, b): answer = 0 f.. 2023. 4. 19.
[AI스쿨 7기, 4주차] 결측치, melt, tidy data, 그룹바이, 피봇테이블, 히트맵, 전처리, 정규표현식, 시각화(seaborn, plotly) 221012 / 0304번 실습파일 : 결측치, melt, 연도월분리, 그룹바이, 피봇테이블, 히트맵, seaborn/ 0305번 실습파일 : 결측치, melt, 전처리, 정규표현식, rename, nlargest, plotly 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221012 1. 0304 실습파일 전국 민간 아파트 분양가격 동향 1.1 glob 내부에서 정규 표현식 사용 가능, 경로 찾을 때 사용 sorted(glob("data/파일명*.csv")해서 순서를 맞춰서 부를 수도 있다. 분양 가격의 결측치는 왜 많을까? 신규 분양이 아예 없었다. 미분양과 다름 : 미분양은 분양했는데 청약이 미달 1.2 결측치 isnull().sum() / isna().sum() 히트맵으로 결측치를 시각화하.. 2023. 4. 19.
221011 TIL - 고민해보는 시간이 있을수록, 수업 때 들리는게 많아진다. 기초탄탄 프로그래머스 스터디 과제의 힘인가. 오늘은 수업 내용을 조금 따라갈 수 있었다. / 기초탄탄 스터디 프로그래머스 문제 221011 Tue. TIL 사실(Fact) 판다스 주요 기능들을 점검하면서 실습해보는 시간을 가졌다.(accessor, 정규화, 조건에 맞는 빈도 구하기, 시각화, loc 등) 느낌(Feeling) 2번째 과제와, 0303번 실습 파일을 미리 풀어보고 고민을 해보고 나니, 데이터프레임의 소괄호, 대괄호와 컬럼들을 다루는 것에 조금 익숙해졌다. loc가 늘 헷갈렸는데, loc를 사용했을 때와 안했을 때가 구별이 간다. 크로스탭, 피봇테이블, 그룹바이의 활용이 다양할 것 같다. 교훈(Finding) 스스로 고민해보는 시간이 있을수록, 수업 때 들리는 것도 많아지는구나. 열심히 듣자! 221011 기초탄탄 스터.. 2023. 4. 19.
[AI스쿨 7기, 4주차] 0303번 서울 코로나 / 0304 민간아파트분양 데이터 전처리 등 0303번 - 전처리, 정규표현식, crosstab, boolean indexing으로 특정 조건 찾기, 피봇테이블, 그룹바이 / 타이타닉 과제 풀이 / 0304번- object 타입 바꾸기, 컬럼 삭제 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221011 1. 0303번 실습 파일 1.1 거주지 df["거주지"].value_counts() 출력 했을 때, 양천구, 용산구, 동작구 등이 위에도 있는데 밑에도 있다. 눈에 보이지 않는 공백 등이 있어서 str.strip()으로 전처리 ㄴ과제로 했을 때, 빈 막대 그래프가 나왔는데, 전처리 한 게 잘 반영이 안되서 그랬구나 원래 value_counts()는 한 개 변수에 대해서만 비교를 할 수 있었는데, 작년부터 데이터프레임에서도 쓸 수 있도록 변.. 2023. 4. 19.
221010 TIL - loc와 iloc 221005 병합하기, Merge, 종가 수집, matplotlib과 pandas 시각화 비교, plotly 게시글 내용 중 퀴즈 부분 5번 문제 : 한국 거래소(KRX)의 데이터프레임 중 "Symbol"과 "Name" 컬럼만 색인한 결과를 df라는 변수에 할당했다고 가정한다. 다음 중 df 변수를 이용하여 데이터 색인을 하는 과정에서 오류가 발생하는 코드는? df.loc[[1,3,5]] / df.loc[0] / df[1] / df["Name"] df[1]과 df.loc[[1,3,5]] 중 헷갈렸는데.. loc는 값 지정이었던 것 같은데 다시 헷갈리네. 다시 보자 ㄴdf.loc[[1,3,5]]하면 1,3,5번째 인덱스 값인 AJ네트웍스, APS홀딩스, AP위성이 나온다. 두 개 이상 변수를 조건으로 줬기.. 2023. 4. 19.