[AI스쿨, 9주차] house prices 전처리, 왜도, 첨도, 희소값, 스케일링, 로그변환, 이산화, RFM, LableEncoder, OrdinalEncoder, X, y, 원핫인코딩, polynomial, 로그변환, JD(AB테스트, SQL 등)
221116 0801번 : 선형회귀 / 0802번, 13번 강의 파일 : 그라디언트 부스팅 트리 모델, 경사하강법, 엑스트라 트리 모델 / 0803번 : 접착어, XGBoost, lightgbm, GOSS, EFB, CatBoost 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221114 ✅0701 실습파일 기술통계 결측치가 있는지 이상치가 있는지 표준편차는 어떤지 단순 기술통계 값을 확인하는게 아니라 특이점이 없는지 수치 범위의 개수가 작다면 범주형 데이터에 가깝기 때문에 nunique로 추가 확인 히스토그램 수치 데이터의 분포 확인 왜도, 첨도를 통해 너무 뾰족하지 않은지 -> 한쪽에 데이터가 몰려 있는지 확인 너무 한쪽에 치우쳐 있지 않은지 확인 정규 분포 형태인지 확인 막대가 떨어져 있다면..
2023. 5. 9.
[AI스쿨 7기, 8주차] 피처스케일링, 스케일링기법(std,mm,rs), transformation, 이산화, binning, pd.cut, 오디널인코딩, 원핫인코딩, polynomial, 다항식, 판다스 인코딩 단점
221109 12번 강의파일, 0701 실습파일 : 피처스케일링, 표준화(Z-score), Min-Max, Robust, transformation, binning, 이산화(discretisation), 부스팅3대장, 오디널인코딩, 원핫인코딩, polynomial 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221109 ✅12번 강의파일, 0701 실습파일 Feature scaling 트리기반 모델은 정보 균일도 기반으로 되어 있어 피처 스케일링이 필요 없다. 변수 스케일링(feature scaling) : 피처의 범위를 조정하여 정규화 하는 것 분산과 표준편차를 조정한다. 피처 스케일링이 잘 되어 있으면, 변수끼리 비교하는 것이 편리하다. 이상치에 강점이 있다. Robust scaling : 사..
2023. 4. 25.
[AI스쿨 7기, 8주차] cat.codes, dayofweek, log1p, np.expm1, neg_root_mean_squared_error, 피처엔지니어링, 희소값, plt.axhline
221108, 0601번 실습파일 : cat.codes / 0602실습파일 : dayofweek, log취하기, expm1으로 복원, DAU, neg_root_mean_squared_error/ 피처엔지니어링 강의파일 / 0701번 실습파일 : 이상치, 희소값 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221108 ✅0601 실습 파일 day day는 train과 test를 나누는 기준. train은 19일까지만 있고 test는 20일 이후 데이터가 있다. 1~19일까지 학습한 것을 바탕으로 20일 이후의 데이터를 예측하면 예측에 도움이 안될 수 있다. month 월 그래프에서는 월을 넣어주는게 나아보이지만 연도에서는 2배까지 차이가 날 때도 있어서 예측하는데 혼란이 생길 수 있다. season..
2023. 4. 25.
[AI스쿨 7기, 8주차] 랜덤서치, hold-out-validation, Bike Sharing Demand Data, 랜덤포레스트Regressor, RMSLE, Data Leakage
멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 / 221107 0504 실습파일 : 랜덤서치, 홀드아웃 validation / 0601 실습파일 : Bike Sharing Demand, RMSLE, logloss, data leakage, NDCG 221107 ✅ 0504 실습파일 GridSearchCV 지정된 조합만 보기 때문에 해당 그리드를 벗어나는 곳에 좋은 성능을 내는 하이퍼 파라미터가 있다면 찾지 못하는 단점이 있다. RandomSearchCV 랜덤한 값을 넣고 하이퍼파라미터를 찾는다. 처음에는 범위를 넓게 지정하고, max_depth : The maximum depth of the tree : max_depth를 랜덤값으로 지정하기 위해 특정 범위를 지정하는 것 max_features :..
2023. 4. 25.
[AI스쿨, 7주차] 캐글 타이타닉 데이터로 점수 올리기(원핫인코딩, 결측치 대체, cross_val, interpolate, 그리드서치 등)
[221102] 0503 실습파일 : index_col, ESC+F, 원핫인코딩, ordinal-encoding, 결측치 대체, cross_val, 캐글 / 0504 실습파일 : method, interpolate, 결정트리, 랜덤포레스트, GridSearchCV / 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221102 스포카 행동강령 https://spoqa.github.io/2018/06/28/code-of-conduct.html 파이썬 행동강령 https://www.python.org/psf/conduct/ ✅ 0503 실습 파일 index_col 설정 이유 : PassengerId는 유니크한 값, 피처로 사용하지 않을 것 호칭 두번째 split은 split() 하면 앞 뒤 공백이 제거된..
2023. 4. 22.
[AI스쿨 7기, 7주차] 캐글 타이타닉,
[221101] 0501번 실습파일 : 캐글 submit predictions, subplots, 정규화 / 0502번 실습파일 : 지도학습 모델, binary encoding, 성별 피처 엔지니어링, 지니 불순도, 로그, 엔트로피 / JD : 그로스해킹 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221101 📌캐글 filter - getting started, playground house price 회귀 bag of word 자연어 ✅ 0501번 실습 파일 index_col은 PassengerId를 인덱스로 삼고 싶을 때 Q. train.csv 와 test.csv 파일의 차이점은 무엇일까요? survivied 컬럼 유무 test는 passengerId가 892번부터 시작한다. train데이터..
2023. 4. 22.
[AI스쿨 7기, 7주차] MAE, MAPE, MSE, RMSE, train_test_split, 하이퍼파라미터튜닝, GridSearchCV, RandomizedSearchCV
멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221031 ✅ 0403번 실습파일 n_jobs : 사용하고 있는 장비에서 CPU 코어를 몇 개 사용할 것인지. -1은 전부 다 사용하겠다. regplot : 실제값과 예측값의 차이가 잘 맞는다면, 회귀선에 맞춰서 점들이 그려질 것. residplot : 회귀선을 일자로 그려준 것 r2_score : 1에 가까울 수록 좋은 점수 Q. MAE(Mean Absolute Error) 값을 error. describe()에서 찾는다면? mean Q. 왜 오차에 절대값을 적용해줄까? 음수까지 포함되었을 때, 음수 양수를 동일하게 비교하기 위해서 MAE : error.describe()의 mean 값과 같다. abs(실제값-예측값).mean() 부동산 가격의 예시..
2023. 4. 22.