[으쌰복습, 올라잇팀] Ordinal Encoding
오디널 인코딩의 정의, 특징 공부 Ordinal Encoding 인코딩을 하는 이유 : 머신 러닝 모델들의 대부분은, 보통 string type로 이루어진 범주형 변수를 이해하지 못한다. 그렇기 때문에 숫자로 인코딩을 해줘야 하고, 데이터에 따라 적합한 인코딩 방법이 필요하다. 정의 순서가 있는 범주형 변수(Ordinal variables)를 숫자로 변환하는 인코딩 순서가 있는 범주형 변수란 ? 등급(1등급, 2등급, 3등급), 영화평점 별 갯수, 학점 바꾸고자 하는 컬럼을 지정할 때, “cols” 파라미터를 사용해서 지정하면 되지만, 랜덤으로 숫자 변환이 된다. 원하는 숫자로 매칭시키고 싶다면 “mapping” 파라미터를 사용하면 된다. 특징 mathematical value를 가진다. 범주형 데이터를..
2023. 4. 25.
[자기주도학습] 보팅(soft, hard voting), 경사하강법, XGBoost와 LightGBM 비교
앙상블에서 공부했던 내용과 천리길 스터디 내용을 토대로 보팅, 그라디언트 부스트 중 경사하강법, XG부스트와 LightGBM을 더욱 자세하게 공부해봤다. 앙상블은 여러 분류기를 하나로 연결해 개별 분류기보다 좋은 성능을 달성한다고 공부를 했다. 그 중 보팅은 여러 분류 알고리즘을 사용하고, 배깅과 부스팅은 하나의 분류 알고리즘을 사용한다. Voting 각 결정나무의 예측값이 0.7, 0.8, 0.6의 결과가 나왔다고 가정했을 때, soft voting은 평균값인 0.7을, hard voting은 0.8을 출력하게 된다. (이 예시만 보면 하드보팅은 최고의 점수를 출력하는 것 같다. 하드보팅을 다수결의 원칙이라고 하는 것에 헷갈렸는데, https://blog.naver.com/fbfbf1/222484365..
2023. 4. 25.
221109 TIL - 피처스케일링, 인코딩을 배운 날, 인코딩에서 한 번 흔들렸나..천리길 스터디 너무 재미있었다.
피처스케일링, 인코딩을 배운 날. 천리길 스터디 부스팅 배깅 설명에서 이마 탁! TIL 221109 WED 사실(Fact) : 피처스케일링과 인코딩을 배웠다. 느낌(Feeling) : houseprice가 컬럼명들도 헷갈리는데, 새로운 개념들도 배우니까 따라가느라 정신이 없었다. 교훈(Finding) 나만의 언어로 이해하고 정리해보는 것 어렵지만 다음 수업 시간부터는 적어도 한개라도 내가 고민해서 이해한대로 써보자. 오디널, 원핫 / 판다스, 사이킷런 / std, mm, rs/ pd.cut, pd.qcut 등 큰 틀 안에서 세부 개념들이 헷갈리지 않게 공부해보자! 천리길 스터디 공유해주신 자료 혼자 보고 나서, 쪽집게 수업 들으니 얻어 가는 것이 많아서 좋았다. 다음주도 열심히 공부해서 많이 가져가야지!..
2023. 4. 25.