본문 바로가기

Project17

[시각화2] plot 종류 이해하기 시각화 총 목차 1. 라이브러리 소개 2. 코드 한 줄로 만드는 시각화 보고서 3. 사용한 데이터셋 4. 가볍게 시작해보는 범주형 변수, 수치형 변수 시각화 예시 5. plot 종류 이해하기 6. 시각화 시 주의할 점 7. 퀴즈 데이터분석 공부를 시작할 시기에, 시각화에 대해 배웠던 내용을 정리 및 공부한 글입니다. 총 목차 중 파트5, plot 종류에 대해 소개합니다. 5. plot 종류 이해하기 seaborn 라이브러리를 기준으로 각 plot들이 어떻게 분류되는지, 특징은 무엇인지, 시각화 예시까지 알아봅시다. 데이터셋은 mpg 데이터셋을 사용합니다. mpg 데이터셋에서 수치형 변수는 mpg, horsepower, weight, acceleration이고, 범주형 변수는 origin, name입니다... 2024. 2. 18.
[시각화1] 기초 시각화 개념(라이브러리, 연습데이터셋, 수치형범주형변수 시각화 비교) 시각화 총 목차 1. 라이브러리 소개 2. 코드 한 줄로 만드는 시각화 보고서 3. 사용한 데이터셋 4. 가볍게 시작해보는 범주형 변수, 수치형 변수 시각화 예시 5. plot 종류 6. 시각화 시 주의할 점 7. 퀴즈 데이터분석 공부를 시작할 시기에, 시각화에 대해 배웠던 내용을 정리 및 공부한 글입니다. 총 목차 중 1~4 / 5 / 6~7로 나눠서 작성할 예정입니다. 1. 라이브러리 소개 자주 접하게 되는 시각화 라이브러리는 matplotlib 기반의 '정적 도구', JavaScript 기반의 '동적 도구'로 나뉩니다. 정적 도구는 이미지의 형태로 시각화합니다. 동적 도구는 그래프에 마우스를 올렸을 때 사용자의 목표에 따라 변화하는 데이터 수치를 보여줄 수 있습니다. 따라서, 동적 시각화는 inte.. 2024. 2. 4.
[Ebook] 데이터 분석, 한 권에 입문하기 데이터 분석(AI) 부트캠프를 수료하고, 수료생들과 함께 '우리가 배운 꿀팁들을 Ebook으로 내면 도움이 되지 않을까?'란 아이디어에서 Ebook 집필을 시작했었습니다. 23년 02월 06일부터 시작했던 Ebook이 드디어 검색도 되는 것을 기념해서, 책에 대한 간단한 소개를 써보고자 합니다. '데이터 분석, 한 권에 입문하기' 책 소개 부트 캠프를 수료하고 나서, '내가 부트 캠프를 시작할 때, 이 부분을 알고 시작했다면 조금 더 수월하지 않았을까?'라는 마음을 담아 책의 내용을 구성했습니다. 데이터 분석을 처음 시작하는, 아무 것도 모르는 분들이 '데이터 분석을 공부한다면, 이 개념은 아는게 좋다!'라는 부분만 추리고 정리했습니다. 용어를 모르는 사람도 읽으면 이해할 수 있는 정도를 고민을 많이 했.. 2023. 6. 25.
[마켓센싱] 추가 스크래핑, 워드 클라우드 불용어 처리 시 소문자 처리, 기사 시각화 결과 비교 230619 월 추가 스크래핑 월, 분기, 년별로 볼 수 있으면 좋을 것 같아, 기존에 6개월치의 스크래핑을 5개년까지 범위를 늘렸다. 워드클라우드 시, 소문자 vs 대문자 nltk 라이브러리를 사용해서 불용어처리를 하려면, nltk의 stop words가 소문자로 구성되어 있기 때문에, 불용어처리할 내용들을 소문자처리 하는 것이 좋다. 하지만 다루고 있는 뉴스 기사들은 대문자인 경우가 많아서, 소문자 처리 했을 경우 기존의 내용과 달라지지 않을까 고민이 되어 비교를 해보았다. 시각화 결과, 소문자나 대문자나 워드 클라우드 시각화 시 출력되는 결과물이 비슷했고, 소문자 처리한 경우가 좀 더 불필요한 단어를 많이 제거해주었기 때문에 앞으로 소문자처리를 해주기로 하였다. 5개년 기사 제목, 요약, 본문 비교.. 2023. 6. 20.
[마켓센싱] 스크래핑 내용 EDA 및 피드백 230608 목 스크래핑 한 내용 EDA(워드 클라우드, 빈도 시각화) [뉴스 제목 분석] 1. 불용어 처리를 하지 않은 경우 2. 소문자(nltk+팀원 불용어), 소문자(nltk+팀원 불용+volvo 등 단어 제거) 3. 대문자(nltk+팀원 불용어), 대문자(nltk+팀원 불용+volvo 등 단어 제거) [뉴스 본문 분석] 소문자(nltk+팀원 불용어+volvo 등 단어 제거) 기획 팀원에게 전달한 의문 사항 등장 단어와 빈도수, 워드 클라우드 시각화로 트렌드가 보이는가? 워드 클라우드 시각화를 하는 이유가 새로 등장하는 장비에 대한 것도 눈으로 확인하고 싶은 것 같은데, 그게 맞을까? 그렇다면, 장비명을 눈에 띄게 할 수 있는 방법이 있을까? Q2, Q4, L120H와 같이 새로 등장한 장비는 신기.. 2023. 6. 20.
[CBB 공모전] 입지 추천 방법 고민 과정 TIL 230530 화. 통계와 지도 시각화 비교 통계 상관분석(카이제곱검정, 크레마V)한 것과 지도 시각화 비교 → 일치하지 않는 것이 보여서 다음 스텝이 고민이 됨. 230531 수. 입지 추천 방법 고민 휴리스틱 P-Median 알고리즘, Set Covering, MCLP 등이 자주 등장 → MCLP를 위해서는 Geopandas 등을 다운 받아야 함 → 보통 https://www.lfd.uci.edu/~gohlke/pythonlibs/#shapely 에서 GDAL, Pyproj, Fiona, Shapely, Geopandas를 받아서 설치하더라. → 그런데, 해당 사이트가 당시에는 PageNotFoundError여서(지금은 정상 접속됨) 구글에서 검색을 했다. 각각 다운을 받으려고 보니, whl이 아니고 .. 2023. 6. 20.
[CBB 공모전] 주소와 주소의 상관관계(범주형 변수) 230526 금 1. 필요한 것 흡연구역과 담배꽁초투기지역, 담배꽁초쓰레기통의 상관관계를 볼 수 있는 방법은 없을까 => 주소와 주소의 상관관계를 구하는 방법은 없을까 2. 참고 자료 범주형 변수의 경우 상관관계 구하는 방법들. 데이터 자료 형태에 따른 상관분석 방법 : https://eunhye-zz.tistory.com/29 크래머V 레이블 인코딩 + 히트맵 참고 https://blog.naver.com/kthchunjae/222290570091 카이제곱검정과 크래머V 코드 참고 블로그 3. 진행 위경도를 도로명주소로 변환 → 도로명주소에서 도로명만 추출 ex) 서울특별시 마포구 마포대로 38 에서 마포대로만 추출 → 흡연구역과 투기지역, 쓰레기통의 추출한 도로명 간 상관관계가 있을지 카이제곱검정 및.. 2023. 6. 12.
[CBB 공모전] 카카오맵 API 활용, 위경도 좌표를 주소로 변환 230525 목 💡 영등포구 위경도 좌표를 활용하여 주소 변환 영등포구의 흡연시설은 위도, 경도는 존재하지만 주소컬럼은 존재하지 않는다. 위경도→주소 변환 하고 싶을 때 사용한 코드(역지오코딩) 참고한 블로그 : https://parkgihyeon.github.io/ 카카오맵API를 검색하면, https://apis.map.kakao.com/web/guide/ 해당 사이트가 나오고, 이 사이트는 자바스크립트 API이므로 파이썬 코드를 사용하는 나로서는 이해하기가 쉽지 않다. 파이썬 코드들은 아래 주소의 로컬 > REST API 페이지를 보는게 이해에 도움이 된다. 카카오 developers의 로컬 > REST API 를 사용해서, 주소 검색, 좌표로 주소 변환, 좌표계 변환 등을 할 수 있다.(스크린샷의.. 2023. 6. 7.
[CBB 공모전] 전처리 시 예외 케이스, 데이터셋별 다른 기간에 대한 고민 230524 수 1. 중복 데이터, 또는 제거해야 할 데이터가 삭제가 안됨 drop() 할 때, inplace=True를 해야지 원본에 반영됨 2. 주소의 근사값으로 변경 위경도 매칭 시 오류가 발생하는 주소들이 존재한다. 그러한 주소들은 위치를 확인 후, 근사값으로 변경 ex) [마포구] 석양집의 주소는 ‘토정로 317’, 설치 세부 위치인 띠녹지 앞은 ‘토정로 35길 12’이지만, 해당 주소로는 위경도가 나오지 않아 석양집의 주소로 변경 ex) [영등포구] 로데오거리 → 로데오가 위치한 '문래동3가'로 ex) [영등포구] 49길 3-3 → 49길 2 3. 그럼에도 불구하고, 근사값으로 변경하기 애매한 경우가 발생 폐업 : 데이터 제거 아파트 단지로 변경 : 데이터 제거 메디컬 센터 이름으로만 되어 있.. 2023. 6. 7.