본문 바로가기
Project

[CBB 공모전] 전처리 시 예외 케이스, 데이터셋별 다른 기간에 대한 고민

by aimaimee 2023. 6. 7.

230524 수

 

1. 중복 데이터, 또는 제거해야 할 데이터가 삭제가 안됨

  • drop() 할 때, inplace=True를 해야지 원본에 반영됨

2. 주소의 근사값으로 변경

위경도 매칭 시 오류가 발생하는 주소들이 존재한다. 그러한 주소들은 위치를 확인 후, 근사값으로 변경

ex) [마포구] 석양집의 주소는 ‘토정로 317’, 설치 세부 위치인 띠녹지 앞은 ‘토정로 35길 12’이지만, 해당 주소로는 위경도가 나오지 않아 석양집의 주소로 변경

ex) [영등포구] 로데오거리 → 로데오가 위치한 '문래동3가'로

ex) [영등포구] 49길 3-3 → 49길 2

 

3. 그럼에도 불구하고, 근사값으로 변경하기 애매한 경우가 발생

  • 폐업 : 데이터 제거
  • 아파트 단지로 변경 : 데이터 제거
  • 메디컬 센터 이름으로만 되어 있을 때, 메디컬 센터가 많음

4. 쓰레기통 수량의 오류도 수정 전처리를 해야할까?

ex) [마포구] 석양집 주소에 외1건이라는 것이 입력이 되어 있는데, 그렇다면 수량이 2로 바뀌어야 하는 것은 아닐까?

ex) [영등포구] '동 자체보관'과 '철거 후 동 보관'의 의미에 따라 수량이 달라질 수 있음

ex) [영등포구] 32번에 보면 주소 옆에 (1), (2) 가 있는데 이거는 수량 체크인건가? 그렇다면 13번~15번은 왜 (1), (2), (3)을 안했는가

⇒ 팀원의 조언) 수량은 맵 시각화 시 아직은 중요하지 않아보임.

'외 1건'이라면 수량을 추가해야하는가
동 자체보관과 철거 후 동보관

5. 데이터셋별 다른 기간

데이터셋별 기간이 다르다면, 분석이 제대로 되는지, 해당 경우에는 어떻게 처리하면 좋은지에 대한 정보가 거의 없음.

  • 용산구 흡연구역 2023
  • 일부 2021
  • 상권 데이터는 2023

댓글