[AI스쿨 7기, 5주차] 데이터타입, downcast, parquet, 미니프로젝트리뷰
멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의(0307번 파일 복습 sns.barplot과 plotly의 histogram 연산, 범주형데이터와 수치형데이터/ 0308번 파일 : 데이터타입, downcast, 메모리 용량 줄이기 / 0309번 파일 : csv와 parquet / 미니프로젝트리뷰 / streamlit) 221017 0307 실습파일 복습 Q. 가지고 있는 컴퓨터나 노트북을 이용해서도 가능한데, 왜 굳이 클라우드 서비스를 이용하는지? Q. 처방데이터는 대부분 숫자로 되어 있을까? 데이터 용량을 줄이기 위해서, 인코딩 에러를 방지 Q. pd.to_datetime으로 데이터 형식을 변경해 준 이유? 월, 일, 요일 등의 파생변수를 만들기 위해서 Q. df.describe에서 top? 최빈값..
2023. 4. 21.
[AI스쿨 7기, 4주차] 결측치, melt, tidy data, 그룹바이, 피봇테이블, 히트맵, 전처리, 정규표현식, 시각화(seaborn, plotly)
221012 / 0304번 실습파일 : 결측치, melt, 연도월분리, 그룹바이, 피봇테이블, 히트맵, seaborn/ 0305번 실습파일 : 결측치, melt, 전처리, 정규표현식, rename, nlargest, plotly 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221012 1. 0304 실습파일 전국 민간 아파트 분양가격 동향 1.1 glob 내부에서 정규 표현식 사용 가능, 경로 찾을 때 사용 sorted(glob("data/파일명*.csv")해서 순서를 맞춰서 부를 수도 있다. 분양 가격의 결측치는 왜 많을까? 신규 분양이 아예 없었다. 미분양과 다름 : 미분양은 분양했는데 청약이 미달 1.2 결측치 isnull().sum() / isna().sum() 히트맵으로 결측치를 시각화하..
2023. 4. 19.
221011 TIL - 고민해보는 시간이 있을수록, 수업 때 들리는게 많아진다. 기초탄탄 프로그래머스 스터디
과제의 힘인가. 오늘은 수업 내용을 조금 따라갈 수 있었다. / 기초탄탄 스터디 프로그래머스 문제 221011 Tue. TIL 사실(Fact) 판다스 주요 기능들을 점검하면서 실습해보는 시간을 가졌다.(accessor, 정규화, 조건에 맞는 빈도 구하기, 시각화, loc 등) 느낌(Feeling) 2번째 과제와, 0303번 실습 파일을 미리 풀어보고 고민을 해보고 나니, 데이터프레임의 소괄호, 대괄호와 컬럼들을 다루는 것에 조금 익숙해졌다. loc가 늘 헷갈렸는데, loc를 사용했을 때와 안했을 때가 구별이 간다. 크로스탭, 피봇테이블, 그룹바이의 활용이 다양할 것 같다. 교훈(Finding) 스스로 고민해보는 시간이 있을수록, 수업 때 들리는 것도 많아지는구나. 열심히 듣자! 221011 기초탄탄 스터..
2023. 4. 19.
[AI스쿨 7기, 4주차] 0303번 서울 코로나 / 0304 민간아파트분양 데이터 전처리 등
0303번 - 전처리, 정규표현식, crosstab, boolean indexing으로 특정 조건 찾기, 피봇테이블, 그룹바이 / 타이타닉 과제 풀이 / 0304번- object 타입 바꾸기, 컬럼 삭제 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221011 1. 0303번 실습 파일 1.1 거주지 df["거주지"].value_counts() 출력 했을 때, 양천구, 용산구, 동작구 등이 위에도 있는데 밑에도 있다. 눈에 보이지 않는 공백 등이 있어서 str.strip()으로 전처리 ㄴ과제로 했을 때, 빈 막대 그래프가 나왔는데, 전처리 한 게 잘 반영이 안되서 그랬구나 원래 value_counts()는 한 개 변수에 대해서만 비교를 할 수 있었는데, 작년부터 데이터프레임에서도 쓸 수 있도록 변..
2023. 4. 19.
221010 TIL - loc와 iloc
221005 병합하기, Merge, 종가 수집, matplotlib과 pandas 시각화 비교, plotly 게시글 내용 중 퀴즈 부분 5번 문제 : 한국 거래소(KRX)의 데이터프레임 중 "Symbol"과 "Name" 컬럼만 색인한 결과를 df라는 변수에 할당했다고 가정한다. 다음 중 df 변수를 이용하여 데이터 색인을 하는 과정에서 오류가 발생하는 코드는? df.loc[[1,3,5]] / df.loc[0] / df[1] / df["Name"] df[1]과 df.loc[[1,3,5]] 중 헷갈렸는데.. loc는 값 지정이었던 것 같은데 다시 헷갈리네. 다시 보자 ㄴdf.loc[[1,3,5]]하면 1,3,5번째 인덱스 값인 AJ네트웍스, APS홀딩스, AP위성이 나온다. 두 개 이상 변수를 조건으로 줬기..
2023. 4. 19.