본문 바로가기

부트캠프(LIKELION AIS7)78

221108 TIL - 로그를 적용하고, 값을 복원하는 것을 배운 날. 천리길 함수의 늪에 빠진 날. TIL 221108 TUE 사실(Fact) : log1p와 expm1를 배웠다. 느낌(Feeling) : log를 취해서 정규분포화로 바꿔주고, 다시 submit에서는 값을 되돌려줘서 적용하는 것이 흥미로웠다. 교훈(Finding) : 캐글 점수 내리는 것이 재밌다. 다양하게 파라미터나 변수를 조정해보는 연습을 많이 해보자. 데이터리안 AB테스트를 보고 싶었는데, 어제인 줄 알고 캐굴캐굴 스터디랑 겹쳐서 포기했었다. 그런데 알고보니 어제까지 신청이라서 스케쥴에 어제라고 써놓은 거였고, 오늘 AB테스트 하는 날이었던 것... 으쌰팀원이 오늘이라고 고맙게 알려줬는데, 너무 늦게 봐서 슬펐다. 천리길 과제 미니프로젝트3 끝나고 미리 시작했는데, 함수의 늪에 빠져서 결국 새벽2시가 다되간다. 함수가 너무 어렵다.. 2023. 4. 25.
[AI스쿨 7기, 8주차] cat.codes, dayofweek, log1p, np.expm1, neg_root_mean_squared_error, 피처엔지니어링, 희소값, plt.axhline 221108, 0601번 실습파일 : cat.codes / 0602실습파일 : dayofweek, log취하기, expm1으로 복원, DAU, neg_root_mean_squared_error/ 피처엔지니어링 강의파일 / 0701번 실습파일 : 이상치, 희소값 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221108 ✅0601 실습 파일 day day는 train과 test를 나누는 기준. train은 19일까지만 있고 test는 20일 이후 데이터가 있다. 1~19일까지 학습한 것을 바탕으로 20일 이후의 데이터를 예측하면 예측에 도움이 안될 수 있다. month 월 그래프에서는 월을 넣어주는게 나아보이지만 연도에서는 2배까지 차이가 날 때도 있어서 예측하는데 혼란이 생길 수 있다. season.. 2023. 4. 25.
[천리길스터디] 앙상블 Ensemble 유튜브(허민석) 앙상블-하드보팅, 소프트보팅 에서 가져온 사진. 앙상블의 이름을 잘 설명해주는 사진 같다. 1. 목적 여러 분류기를 하나의 분류기로 연결하여, 개별 분류기보다 더 좋은 성능을 달성 일반화(generalizability), 강건성(robustness)를 향상시키기 위해 여러 모델의 예측값을 결합 2. 방법 여러 분류 알고리즘 사용 : 다수결 투표(Voting) 하나의 분류 알고리즘 사용 : 배깅(Bagging), 부스팅(Boosting) 3. 종류 3-1. Voting (Soft Voting, Hard Voting) 동일한 훈련세트 같은 훈련세트를 여러 모델에 넣어서 돌린다. 3-2. 배깅(bootstrap aggregating) 하나의 모델 훈련세트를 여러 개로 쪼개서 돌.. 2023. 4. 25.
221107 TIL - 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation 221107 MON /캐글의 bike sharing demand 데이터, RMSLE, 오차 , 점수가 낮아야 좋은 것 / 미니프로젝트3 그리드서치 성공 221107 MON 사실(Fact) : 캐글의 bike sharing demand 데이터를 사용하여 EDA 부터 평가까지 배웠다. 특히 RMSLE를 새롭게 배웠다. 느낌(Feeling) : 이 데이터는 오차로 보기 때문에 점수가 낮아야 좋은 것이라는 것! 그런데 빼야 하는 컬럼을 고르는게 아직 헷갈린다. 교훈(Finding) 다른 데이터를 시작할 때도 데이터셋을 살펴보면서 호기심을 갖고 시작하자! 미니프로젝트 Evaluation을 확인하지 못한 것이 허를 찔린 기분이었다. 점수를 내는 것에만 집중했는데, 결과를 어떻게 내야할지 고민의 시간이 필요하다고 느.. 2023. 4. 25.
[AI스쿨 7기, 8주차] 랜덤서치, hold-out-validation, Bike Sharing Demand Data, 랜덤포레스트Regressor, RMSLE, Data Leakage 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 / 221107 0504 실습파일 : 랜덤서치, 홀드아웃 validation / 0601 실습파일 : Bike Sharing Demand, RMSLE, logloss, data leakage, NDCG 221107 ✅ 0504 실습파일 GridSearchCV 지정된 조합만 보기 때문에 해당 그리드를 벗어나는 곳에 좋은 성능을 내는 하이퍼 파라미터가 있다면 찾지 못하는 단점이 있다. RandomSearchCV 랜덤한 값을 넣고 하이퍼파라미터를 찾는다. 처음에는 범위를 넓게 지정하고, max_depth : The maximum depth of the tree : max_depth를 랜덤값으로 지정하기 위해 특정 범위를 지정하는 것 max_features :.. 2023. 4. 25.
221105, 221106 TIL - ML 재실행이 두렵다. 221105 머신러닝 알고리즘 재실행이 두렵다. / 221106 랜덤서치, 그리드서치를 조금 알 것 같은 느낌 / 예측은 X_test로!! 221105 SAT 머신러닝 알고리즘 재실행이 두렵다. 미니프로젝트3를 했다. Airbnb New User Bookings 였다. 원래 추천 노트북을 보면 따라하기만 해도 될 줄 알았는데, 남이 한 코드를 필사하는 것도 만만치 않다고 느꼈다. 결국 내가 생각해서 어떤 식으로 진행할 지 결정해야 했다. 아직 어떤 알고리즘을 사용해야 할지, 피쳐엔지니어링이 뭔지, 하이퍼파라미터 튜닝을 어떻게 해야할지 어렵다. 또 위에서 하나를 고치고 머신러닝 알고리즘을 다시 재실행하는 것이 두렵다. 너무 오래 걸린다... 221106 SUN 알고리즘 선택 후, 그리드서치, 랜덤서치! 미.. 2023. 4. 22.
221104 Diary - 태블로 두 번째, 마우스, 깃허브 어렵다. 221104 강승일 강사님 태블로 수업 2번째 시간. JD을 보면 대시보드 만드는 업무도 많이 보여서 잘 배워두면 좋을 것 같은데, 혼자 하라고 하면 전혀 감이 오질 않는다. 오늘도 20분 정도 실습시간을 줬는데, 마지막 대시보드 구현을 위해 데이터를 어떻게 처리해야 할 지 어려웠다. 강사님이 올려주는 영상으로 복습을 많이 해보고, 스스로 생각을 많이 해봐야 할 것 같다. 마우스를 샀다. 파이썬 수업 할 때는 키보드를 더 많이 써서 그런가 손목이 아프다는 생각을 안하는데, 태블로는 마우스를 많이 써서 손목이 부서질 것 같다. 마침 지원금도 들어와서 로지텍 lift 사려고 했는데, 가성비로 TG삼보꺼부터 써보려고 주문했다. 깃허브 블로그 손대고 싶은데,,,언제 하지 대체 2023. 4. 22.
221031~221103 Diary 221031~221103 Diary. TIL인지 Diary인지 늘 고민이 된다. 221031 Mon TIL JD 발표날 스터디 복습 노션도 정리해서 잘 올렸다. 221101 Tue TIL 모각공에 모두 모여서 천리길 스터디 막힌 부분 풀어보는 중. 다들 열쩡! 어렵고 남들보다 시간은 많이 걸리지만(주말 내내~ 화요일밤까지) 그래도 이렇게 풀어두니 수업 내용도 본 내용이라 집중을 잘 할 수 있어서 좋았다. 221102 Wed TIL 1. 천리길 스터디가 어찌어찌 끝났다. 2. 저녁에 conda update -c conda-forge seaborn를 했다. seaborn 그릴 때, ci=None 이 아니라 errorbar=None 입력하려고 했는데, 당연히 업그레이드 잘 될 줄 알았다. 쥬피터 노트북에서 갑.. 2023. 4. 22.
sklearn.model_selection : cross_validate, cross_val_predict, cross_val_score 공부 사이킷런 공식 문서의 sklearn.model_selection 부분에서 cross_validate, cross_val_predict, corss_val_score를 비교해보는 공부 model_selection 에서 cross_validate, cross_val_predict, cross_val_score 출력 결과가 헷갈려서 다시금 공부하고자 했다. 사이킷런 공식 문서의 sklearn.model_selection 부분을 들어가보면, Splitter Classes에 KFold Splitter Functions에 train_test_split Hyper_parameter optimizers에 그리드서치와 랜덤서치 기능 Model validation에 cross_validate, cross_val_predi.. 2023. 4. 22.