[마켓센싱] 추가 스크래핑, 워드 클라우드 불용어 처리 시 소문자 처리, 기사 시각화 결과 비교
230619 월 추가 스크래핑 월, 분기, 년별로 볼 수 있으면 좋을 것 같아, 기존에 6개월치의 스크래핑을 5개년까지 범위를 늘렸다. 워드클라우드 시, 소문자 vs 대문자 nltk 라이브러리를 사용해서 불용어처리를 하려면, nltk의 stop words가 소문자로 구성되어 있기 때문에, 불용어처리할 내용들을 소문자처리 하는 것이 좋다. 하지만 다루고 있는 뉴스 기사들은 대문자인 경우가 많아서, 소문자 처리 했을 경우 기존의 내용과 달라지지 않을까 고민이 되어 비교를 해보았다. 시각화 결과, 소문자나 대문자나 워드 클라우드 시각화 시 출력되는 결과물이 비슷했고, 소문자 처리한 경우가 좀 더 불필요한 단어를 많이 제거해주었기 때문에 앞으로 소문자처리를 해주기로 하였다. 5개년 기사 제목, 요약, 본문 비교..
2023. 6. 20.