[AI스쿨, 9주차] house prices 전처리, 왜도, 첨도, 희소값, 스케일링, 로그변환, 이산화, RFM, LableEncoder, OrdinalEncoder, X, y, 원핫인코딩, polynomial, 로그변환, JD(AB테스트, SQL 등)
221116 0801번 : 선형회귀 / 0802번, 13번 강의 파일 : 그라디언트 부스팅 트리 모델, 경사하강법, 엑스트라 트리 모델 / 0803번 : 접착어, XGBoost, lightgbm, GOSS, EFB, CatBoost 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221114 ✅0701 실습파일 기술통계 결측치가 있는지 이상치가 있는지 표준편차는 어떤지 단순 기술통계 값을 확인하는게 아니라 특이점이 없는지 수치 범위의 개수가 작다면 범주형 데이터에 가깝기 때문에 nunique로 추가 확인 히스토그램 수치 데이터의 분포 확인 왜도, 첨도를 통해 너무 뾰족하지 않은지 -> 한쪽에 데이터가 몰려 있는지 확인 너무 한쪽에 치우쳐 있지 않은지 확인 정규 분포 형태인지 확인 막대가 떨어져 있다면..
2023. 5. 9.
[으쌰복습, 올라잇팀] Ordinal Encoding
오디널 인코딩의 정의, 특징 공부 Ordinal Encoding 인코딩을 하는 이유 : 머신 러닝 모델들의 대부분은, 보통 string type로 이루어진 범주형 변수를 이해하지 못한다. 그렇기 때문에 숫자로 인코딩을 해줘야 하고, 데이터에 따라 적합한 인코딩 방법이 필요하다. 정의 순서가 있는 범주형 변수(Ordinal variables)를 숫자로 변환하는 인코딩 순서가 있는 범주형 변수란 ? 등급(1등급, 2등급, 3등급), 영화평점 별 갯수, 학점 바꾸고자 하는 컬럼을 지정할 때, “cols” 파라미터를 사용해서 지정하면 되지만, 랜덤으로 숫자 변환이 된다. 원하는 숫자로 매칭시키고 싶다면 “mapping” 파라미터를 사용하면 된다. 특징 mathematical value를 가진다. 범주형 데이터를..
2023. 4. 25.
[자기주도학습] 보팅(soft, hard voting), 경사하강법, XGBoost와 LightGBM 비교
앙상블에서 공부했던 내용과 천리길 스터디 내용을 토대로 보팅, 그라디언트 부스트 중 경사하강법, XG부스트와 LightGBM을 더욱 자세하게 공부해봤다. 앙상블은 여러 분류기를 하나로 연결해 개별 분류기보다 좋은 성능을 달성한다고 공부를 했다. 그 중 보팅은 여러 분류 알고리즘을 사용하고, 배깅과 부스팅은 하나의 분류 알고리즘을 사용한다. Voting 각 결정나무의 예측값이 0.7, 0.8, 0.6의 결과가 나왔다고 가정했을 때, soft voting은 평균값인 0.7을, hard voting은 0.8을 출력하게 된다. (이 예시만 보면 하드보팅은 최고의 점수를 출력하는 것 같다. 하드보팅을 다수결의 원칙이라고 하는 것에 헷갈렸는데, https://blog.naver.com/fbfbf1/222484365..
2023. 4. 25.
221109 TIL - 피처스케일링, 인코딩을 배운 날, 인코딩에서 한 번 흔들렸나..천리길 스터디 너무 재미있었다.
피처스케일링, 인코딩을 배운 날. 천리길 스터디 부스팅 배깅 설명에서 이마 탁! TIL 221109 WED 사실(Fact) : 피처스케일링과 인코딩을 배웠다. 느낌(Feeling) : houseprice가 컬럼명들도 헷갈리는데, 새로운 개념들도 배우니까 따라가느라 정신이 없었다. 교훈(Finding) 나만의 언어로 이해하고 정리해보는 것 어렵지만 다음 수업 시간부터는 적어도 한개라도 내가 고민해서 이해한대로 써보자. 오디널, 원핫 / 판다스, 사이킷런 / std, mm, rs/ pd.cut, pd.qcut 등 큰 틀 안에서 세부 개념들이 헷갈리지 않게 공부해보자! 천리길 스터디 공유해주신 자료 혼자 보고 나서, 쪽집게 수업 들으니 얻어 가는 것이 많아서 좋았다. 다음주도 열심히 공부해서 많이 가져가야지!..
2023. 4. 25.
[AI스쿨 7기, 8주차] 피처스케일링, 스케일링기법(std,mm,rs), transformation, 이산화, binning, pd.cut, 오디널인코딩, 원핫인코딩, polynomial, 다항식, 판다스 인코딩 단점
221109 12번 강의파일, 0701 실습파일 : 피처스케일링, 표준화(Z-score), Min-Max, Robust, transformation, binning, 이산화(discretisation), 부스팅3대장, 오디널인코딩, 원핫인코딩, polynomial 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221109 ✅12번 강의파일, 0701 실습파일 Feature scaling 트리기반 모델은 정보 균일도 기반으로 되어 있어 피처 스케일링이 필요 없다. 변수 스케일링(feature scaling) : 피처의 범위를 조정하여 정규화 하는 것 분산과 표준편차를 조정한다. 피처 스케일링이 잘 되어 있으면, 변수끼리 비교하는 것이 편리하다. 이상치에 강점이 있다. Robust scaling : 사..
2023. 4. 25.