230619 월
추가 스크래핑
월, 분기, 년별로 볼 수 있으면 좋을 것 같아, 기존에 6개월치의 스크래핑을 5개년까지 범위를 늘렸다.
워드클라우드 시, 소문자 vs 대문자
nltk 라이브러리를 사용해서 불용어처리를 하려면, nltk의 stop words가 소문자로 구성되어 있기 때문에, 불용어처리할 내용들을 소문자처리 하는 것이 좋다. 하지만 다루고 있는 뉴스 기사들은 대문자인 경우가 많아서, 소문자 처리 했을 경우 기존의 내용과 달라지지 않을까 고민이 되어 비교를 해보았다.
시각화 결과, 소문자나 대문자나 워드 클라우드 시각화 시 출력되는 결과물이 비슷했고, 소문자 처리한 경우가 좀 더 불필요한 단어를 많이 제거해주었기 때문에 앞으로 소문자처리를 해주기로 하였다.
5개년 기사 제목, 요약, 본문 비교
내가 담당한 사이트의 뉴스 기사는 '제목', '본문에 대한 요약', '본문'으로 구성되어 있다. 5개년 전 범위를 대상으로 워드 클라우드화 하였을 때, '제목', '요약', '본문'에 대한 시각화 내용이 엄청나게 차이가 나진 않았다.
결론 : 굳이 셋 중에 하나를 뽑아서 분석을 진행하기 보다는, 태블로에서 세 개를 필터를 걸어서 궁금한 시각화 내용을 볼 수 있게 선택지화해도 좋겠다.
댓글