[AI스쿨 7기, 5주차] 데이터타입, downcast, parquet, 미니프로젝트리뷰
멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의(0307번 파일 복습 sns.barplot과 plotly의 histogram 연산, 범주형데이터와 수치형데이터/ 0308번 파일 : 데이터타입, downcast, 메모리 용량 줄이기 / 0309번 파일 : csv와 parquet / 미니프로젝트리뷰 / streamlit) 221017 0307 실습파일 복습 Q. 가지고 있는 컴퓨터나 노트북을 이용해서도 가능한데, 왜 굳이 클라우드 서비스를 이용하는지? Q. 처방데이터는 대부분 숫자로 되어 있을까? 데이터 용량을 줄이기 위해서, 인코딩 에러를 방지 Q. pd.to_datetime으로 데이터 형식을 변경해 준 이유? 월, 일, 요일 등의 파생변수를 만들기 위해서 Q. df.describe에서 top? 최빈값..
2023. 4. 21.
[AI스쿨 7기, 4주차] 결측치, melt, tidy data, 그룹바이, 피봇테이블, 히트맵, 전처리, 정규표현식, 시각화(seaborn, plotly)
221012 / 0304번 실습파일 : 결측치, melt, 연도월분리, 그룹바이, 피봇테이블, 히트맵, seaborn/ 0305번 실습파일 : 결측치, melt, 전처리, 정규표현식, rename, nlargest, plotly 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221012 1. 0304 실습파일 전국 민간 아파트 분양가격 동향 1.1 glob 내부에서 정규 표현식 사용 가능, 경로 찾을 때 사용 sorted(glob("data/파일명*.csv")해서 순서를 맞춰서 부를 수도 있다. 분양 가격의 결측치는 왜 많을까? 신규 분양이 아예 없었다. 미분양과 다름 : 미분양은 분양했는데 청약이 미달 1.2 결측치 isnull().sum() / isna().sum() 히트맵으로 결측치를 시각화하..
2023. 4. 19.
[AI스쿨 7기, 4주차] 0303번 서울 코로나 / 0304 민간아파트분양 데이터 전처리 등
0303번 - 전처리, 정규표현식, crosstab, boolean indexing으로 특정 조건 찾기, 피봇테이블, 그룹바이 / 타이타닉 과제 풀이 / 0304번- object 타입 바꾸기, 컬럼 삭제 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221011 1. 0303번 실습 파일 1.1 거주지 df["거주지"].value_counts() 출력 했을 때, 양천구, 용산구, 동작구 등이 위에도 있는데 밑에도 있다. 눈에 보이지 않는 공백 등이 있어서 str.strip()으로 전처리 ㄴ과제로 했을 때, 빈 막대 그래프가 나왔는데, 전처리 한 게 잘 반영이 안되서 그랬구나 원래 value_counts()는 한 개 변수에 대해서만 비교를 할 수 있었는데, 작년부터 데이터프레임에서도 쓸 수 있도록 변..
2023. 4. 19.
[AI스쿨 7기, 3주차] 통계
범주형, 연속형/ 분석도구/ 기술통계, 추론통계/ 중심 경향치/ 분위수/ range/ 편차, 분산/ 신뢰구간/ 귀무가설, 가설 검정/ 상관분석, 상관계수/ 회귀분석 221007 유재명 강사님 강의 1. 이상한 통계학의 용어 모수 : parameter 회귀분석: 돌아가는 것과는 직접적인 관련이 없음 통계적 가설 검정: 과학에서 검정은 실증주의(하고 싶은 주장을 입증) / 통계는 반증주의(틀린 것을 찾아서 까는 것) 용어를 보고 뜻을 짐작x 2. 변수의 종류 행 row 사례, 열 column 변수 2.1 범주형 : 종류, 이름 숫자로 표시가 되어도 양적인 개념이 아니다. ex) 주민등록번호 뒷번호 첫글자. 1,2,3,4 아빠가 1이고 아들이 3이니까 평균내서 2가나오면 여자가 한명있다?ㅋㅋㅋㅋㅋㅋ 그래서 연..
2023. 4. 14.
[AI스쿨 7기, 3주차] 병합하기, Merge, 종가 수집, matplotlib과 pandas 시각화 비교, plotly
map, apply/ merger, concat, join / 리스트 컴프리헨션 / matplotlib API와 pandas API/ plotly / range slider/ 캔들차트/ OHLC / loc, iloc / 논리연산자, 비트연산자/ Unnamed0 221005 ✅ 0206번 실습 파일 1. map과 apply 1.1 map 함수를 만들어서 일괄적으로 전처리, 세부 페이지 처리 등 Series에서만 사용 가능 1.2 apply BMI 지수를 구하는 등에 사용 Series와 DataFrame에서 모두 사용 가능 2. 병합하기 numpy는 반복문을 사용하지 않고, 벡터 사용. 빠르다. 수집한 view_detail이란 내용을 tolist()를 통해 리스트로 변환 후 concat으로 병합 질문 : p..
2023. 4. 14.
[AI스쿨 7기, 3주차] 서울특별시 다산콜센터의 자주 묻는 질문 데이터 스크래핑
221004 0205, 0206 실습파일 / 06번 강의파일 / 서울특별시 다산콜센터의 주요 민원(자주 묻는 질문) 내용 스크래핑/ 수도코드 / try-except / 반복문으로 여러 페이지 수집/ set_index.T / get_desc함수정의 (Status Code, Fetch/XHR, JS, BeautifulSoup, 파싱, xml, Json, tqdm, 저작권, HTML, 404에러, get_one_page함수, try-except 등) 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 ✅ 0205 실습파일, 06번 강의파일 오늘 데이터 수집의 목표 : 목록만 수집하는 것이 아니라 내용까지 수집 1. 들어가기 전 1.1 Insert-Network GET / POST 방식을 알아볼 수 있다. Pa..
2023. 4. 14.
[AI스쿨 7기, 2주차] 데이터수집(2) - 네이버 금융 국내 증시의 일별 시세 수집 함수, JSON으로 ETF 데이터 수집
220928 0202 실습파일 - 반복문으로 데이터 수집 / 0203 실습파일 - requests, BeautifulSoup, 판다스코드로 데이터 수집, 함수 만들기 / 0204 실습파일 - ETF데이터 JSON으로 수집(tqdm, trange, import time, concat, import requests, GET, POST, HTTP상태코드, BeautifulSoup, 파싱, response문서, html.a, html.find_all, html.select, 일별 시세 수집, user_agent, 파생변수, get_day_list 함수, ETF, JSON, XML 등) 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 ✅ 0202 실습 파일 반복문을 사용해 10페이지까지 수집 tqdm, tra..
2023. 4. 11.
[AI스쿨 7기, 2주차] 데이터수집(1) - FinanceDataReader, web scraping
220927 ( 크롤링, 스크래핑, GET, POST, HTTP, fdr, index=False, time.sleep(), html, F12, charset, concat, dropna, 얕은 복사, 깊은 복사, drop_duplicates(), get_url함수, get_one_page_news 함수 등) 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 ✅ 0201 강의 파일 FinanceDataReader 깃헙 https://github.com/financedata-org/FinanceDataReader 안내서 https://financedata.github.io/posts/finance-data-reader-users-guide.html Pandas-datareader https://pandas..
2023. 4. 11.