[시각화2] plot 종류 이해하기
시각화 총 목차 1. 라이브러리 소개 2. 코드 한 줄로 만드는 시각화 보고서 3. 사용한 데이터셋 4. 가볍게 시작해보는 범주형 변수, 수치형 변수 시각화 예시 5. plot 종류 이해하기 6. 시각화 시 주의할 점 7. 퀴즈 데이터분석 공부를 시작할 시기에, 시각화에 대해 배웠던 내용을 정리 및 공부한 글입니다. 총 목차 중 파트5, plot 종류에 대해 소개합니다. 5. plot 종류 이해하기 seaborn 라이브러리를 기준으로 각 plot들이 어떻게 분류되는지, 특징은 무엇인지, 시각화 예시까지 알아봅시다. 데이터셋은 mpg 데이터셋을 사용합니다. mpg 데이터셋에서 수치형 변수는 mpg, horsepower, weight, acceleration이고, 범주형 변수는 origin, name입니다...
2024. 2. 18.
[마켓센싱] 추가 스크래핑, 워드 클라우드 불용어 처리 시 소문자 처리, 기사 시각화 결과 비교
230619 월 추가 스크래핑 월, 분기, 년별로 볼 수 있으면 좋을 것 같아, 기존에 6개월치의 스크래핑을 5개년까지 범위를 늘렸다. 워드클라우드 시, 소문자 vs 대문자 nltk 라이브러리를 사용해서 불용어처리를 하려면, nltk의 stop words가 소문자로 구성되어 있기 때문에, 불용어처리할 내용들을 소문자처리 하는 것이 좋다. 하지만 다루고 있는 뉴스 기사들은 대문자인 경우가 많아서, 소문자 처리 했을 경우 기존의 내용과 달라지지 않을까 고민이 되어 비교를 해보았다. 시각화 결과, 소문자나 대문자나 워드 클라우드 시각화 시 출력되는 결과물이 비슷했고, 소문자 처리한 경우가 좀 더 불필요한 단어를 많이 제거해주었기 때문에 앞으로 소문자처리를 해주기로 하였다. 5개년 기사 제목, 요약, 본문 비교..
2023. 6. 20.