월 소득 : countplot, relplot과 lineplot, lmplot과 regplot, autoviz에서 mpg 의 값은 평균, iloc와 loc!!! 이건 두번째임, value_counts() / 수 소득 : reset_index와 set_index
1. 220926일자 해결과제
1.1 해결 seaborn에서는 히스토그램은 수치형, 카운터플롯으로 범주형 빈도를 그려봤다고 했는데, 카운터플롯은 플롯 표에 안보인다. 언제 봤는지 찾아보기
- 0104 실습 파일. sns.countplot(data=df, x="dataset") 으로 x축과 y축을 바꿔가면서 그려봄.
1.2 해결 앤스컴스콰르텟 데이터에서 correlation값 구한 것 찾아보기
- 0104번 실습파일. 상관계수 부분
- df.groupby("dataset").corr()
1.3 판다스에서 correlation값 구할 때, 피어슨 상관계수를 사용한 건지 보기 - 판다스프로파일링 부분 글이랑 비교
1.4 sweetviz랑 판다스 프로파일링 차이. 다른 동기 TIL 보면서 다시 공부하기
9월 26일 키워드. 못찾음
1.5 해결 x축 오리진, y축 mpg. y축은 mpg의 어떤 값일까? average값을 표현 한다는데 autoviz로 다시 그래프 확인하기
- df해서 파일 데이터 찾아보면 0~397의 rows가 있음.
- autoviz에서 barplot보면 x축이 오리진, y축이 mpg 일때, europe은 28, japan은 30, usa는 20.
1.6 해결 relplot과 lineplot/ regplot과 lmplot 지난주 목요일 발표 자료도 다시 찾아보기
- 4조 Seaborn 주제 발표.
- relplot에 lineplot 속해있고, lmplot안에 regplot
- lmplot은 regplot과 FacetGrid를 결합한 plot.
- lmplot은 regplot과 달리 hue라는 매개변수(parameter)가 존재한다.
1.7 해결 앤스컴스 콰르텟에서 그룹바이 사용했던 것 찾아보기
- 0104번 파일
- desc = df.groupby("dataset")[["x", "y"]].describe()
- desc = df.groupby("dataset").describe()
1.8 해결 eu=desc.loc["europe"]에서 왜 iloc가 아니라 loc를 쓸까
- loc는 명칭 기반, 문자0, 숫자0/ iloc는 위치기반, 문자x, 숫자0 기준으로 인덱싱한다. https://blog.naver.com/hansoo0724/222674708511
- loc는 ""식으로 칼럼명을 적거나 특정 조건식을 써줄 수 있다.
1.9 해결 앤스컴스 콰르텟에서 values로 카운트 한 부분 설명 다른 사람 필기 찾아보기 해결
- 0104번 실습파일에서 .value_counts() 를 통해 dataset의 빈도수를 구해보았다.
- dataset은 I ~ IV인 dataset칼럼, x, y 칼럼이 있는데, df["dataset"].value_counts() 하면 I의 빈도, II의 빈도, III의 빈도, IV의 빈도가 출력된다.
- Name: dataset, dtype: in64라고 타입도 같이 나온다.
- (normalize = True)하면 비율을 알 수 있음.
seaborn 사이트의 Example Gallery의 내용을 정리하면서 TIL해도 좋다.
0104번 실습파일 부분을 복습을 안해서, 이 날 해결과제들은 다 0104번에서 많이 나왔다.
2. 220927일자 해결과제
2.1 해결 데이터프레임을 다시 출력했을 때 새로 생긴 unnamed0이란 칼럼을 없애는 것을 어디서 배웠는지 찾아보기
- 0101~0107까지 훑어봤는데 없다.. unnamed0이란 칼럼 없애는 것 기억하고 있기.
- 실습 파일은 못찾았지만 밑에 set_index랑 reset_index 보기!!!
2.2 cols=df.columns 를 내가 생각해내서 쓸 수 있을까?
2.3 for문의 변수 설정은 늘 너무 어렵다. news.columns = cols 이 부분 코딩은 for문 할 때 매번 틀린다.
3. 220928일자 해결과제
3.1 item_code = df_krx.loc[df_krx["Name"]=="넷마블", "Symbol"].values[0] 이 코드에서 .values[0]가 의미하는 것 까먹었다. 다시 찾아보기
3.2 해결 iloc와 loc 다시 구분 찾아보기
- 220926일자 해결과제 1.8번 찾기
3.3 어느 실습 파일인지는 못 찾았지만 set_index(), reset_index() 비교 해결 df.reset_index(drop=True) 를 어디서 썼는지 실습 파일 찾아보기
- set_index() : 데이터프레임을 불러온 후, 특정 열을 인덱스로 사용
- 인덱스로 설정해 준 후, 다른 열을 인덱스로 설정해주게 되면, 기존에 설정한 열은 사라지게 된다. 그래서 기존 열을 남겨두기 위해 drop=True설정을 사용한다.
- reset_index() : 인덱스를 다시 처음부터 재배열
기존의 인덱스는 첫번째열로 자동으로 삽입된다. 이럴때 drop=True옵션을 주면 기존 인덱스를 버리고 재배열해준다. 또한 새로운 변수에 넣지 않고 inplace=True옵션을 줘서 바로 바꿔버려도 된다. - https://yganalyst.github.io/data_handling/Pd_2/ 에서 가져온 정보
4. API 발표
오늘도 돌아온 목요일 으쌰으쌰 복습 타임.
4-1. 지난주 했던 실수는 하지 않겠어!
- 미리 목차 생각해보기
지난주에 목차부터 짜려니 힘들어서, 어제 미리 어떤 내용을 넣으면 좋을지 스스로 목차도 짜보고, 내용도 조금 검색해보았다. 같이 목차 짜온 팀원분이 있어서 든든했다. - 오늘을 위해 연습했다, 노션 목차 넣기
노션 초반에 목차를 넣고 링크를 탈 수 있으면 보기도 쉬운 것 같아서 하는 방법도 검색하고, 연습도 해봤다. 생각보다 쉬운 기능이었다. - Reference
참고한 사이트는 꼭 자료로 넣기!
4-2. 좋았던 점
- 멋사 시작할 때는 노션 건드릴 줄 몰라서 우당탕탕 했는데, 다들 도와주고 공부해보고 하니까 익숙해졌다. 아직 배워볼 기능은 무궁무진하지만!
- 벨로그 작성하면서 재잘 팀원분이 공유해준 마크다운을 조금 연습해보고 나니까 노션 목록 검정점, 흰색점(hierarchy?) 도 넣어서 으쌰팀원분이 물어봐 준거에 잘 답변할 수 있어서 뿌듯했다.
4-3. 다음 목요일 오전 복습에서 보완할 점
- Reference를 마지막에 추가할 때는, 어떤 내용 부분에서 참고한 것인지 내용을 명시해주는게 좋을 것 같다. 그게 아니라면 본문 내용에 참고 링크가 있는게, 직관적으로 연결되고 찾아보기 좋겠다.
4-4. 아쉬운 점
- API를 활용해서 간단하게 데이터 수집해오는 것도 보여주면 좋았겠지만, 시간도 부족하고 해서 내용이라도 팀원들과 잘 정리해서 전달하고, 발표까지 해볼 수 있었다는 것에 소소한 성취감을 느끼기로 했다.
4-5. 기타
https://aws.amazon.com/ko/what-is/api/ 여기 정보 알찼다.
5. 오늘 하루 보내며
- 유튜브 보고 간단한 연습 해보자!
- 수료생 특강 Q&A 시간 좋았다. JD 열심히 보고, 정리 열심히 해보기
- 팀장 게릴라 미팅 너무 재미있었다. 좋은 재잘팀과 으쌰팀을 만나서 감사하다.
- 이 주의 멋쟁이? 에 추천해준 동기님들한테 너무 감사하다. 나도 추천하고 싶은 사람 많은데 매번 한 사람만 적을 수 있어서 아쉽다. 앞으로도 다같이 열심히 해야지!
댓글