본문 바로가기
부트캠프(LIKELION AIS7)/TIL

221115 TIL 수치, 범주, X, y, train, test 등에 따른 전처리, 변환 등 너무 헷갈린다. 캐글 medical 필사 발표하면서 정리가 좀 되었다.

by aimaimee 2023. 5. 9.

221115 TUE

사실(Fact) : house prices 실습 파일을 완성하면서 다양한 전처리, 변환, 인코딩을 배웠다.
느낌(Feeling) : 수치, 범주, X, y, train, test. 어떤 전처리를 적용할지, 어떻게 변환해야할지, 너무 헷갈린다.
교훈(Finding) : 다시 한 번 훑어보자..!

실은 오늘은 교훈으로 뭐 적을지 잘 생각이 안났다.


캐글 필사하면서,
비슷한 듯 보이는 jointplot 시각화를 왜이렇게 많이 했을까,
+마크가 출력이 왜 안될까,
다항식 부분은 왜 하는 걸까, ->일차방정식보다 변수끼리 결합해 flexible한 예측이 가능하게 한다. 이 데이터셋에서 smoking과 sex, age 등을 같이 비교했을 때 더 좋은 인사이트를 얻을 수 있었다. 그렇기 때문에 다항식으로 변수들을 결합해서 예측률을 높인다고 생각하니 이해가 되었다.
성별 smoking 시각화랑 설명이 왜 안맞는걸까, -> women은 0, men은 1이 맞았다.


발표하면서도 내용이 조금 정리가 되었고, 다른 분들의 발표를 통해 깨닫게 되는 부분도 있었다. 다만 발표하면서 알맹이만 전달하지 못하고, 조금 늘어지게 전달한 것 같아서 어떻게 하면 조금 더 알차게, 짧게 전달할 수 있을까 고민이 된다.

댓글