본문 바로가기

til61

[자기주도학습] 보팅(soft, hard voting), 경사하강법, XGBoost와 LightGBM 비교 앙상블에서 공부했던 내용과 천리길 스터디 내용을 토대로 보팅, 그라디언트 부스트 중 경사하강법, XG부스트와 LightGBM을 더욱 자세하게 공부해봤다. 앙상블은 여러 분류기를 하나로 연결해 개별 분류기보다 좋은 성능을 달성한다고 공부를 했다. 그 중 보팅은 여러 분류 알고리즘을 사용하고, 배깅과 부스팅은 하나의 분류 알고리즘을 사용한다. Voting 각 결정나무의 예측값이 0.7, 0.8, 0.6의 결과가 나왔다고 가정했을 때, soft voting은 평균값인 0.7을, hard voting은 0.8을 출력하게 된다. (이 예시만 보면 하드보팅은 최고의 점수를 출력하는 것 같다. 하드보팅을 다수결의 원칙이라고 하는 것에 헷갈렸는데, https://blog.naver.com/fbfbf1/222484365.. 2023. 4. 25.
221109 TIL - 피처스케일링, 인코딩을 배운 날, 인코딩에서 한 번 흔들렸나..천리길 스터디 너무 재미있었다. 피처스케일링, 인코딩을 배운 날. 천리길 스터디 부스팅 배깅 설명에서 이마 탁! TIL 221109 WED 사실(Fact) : 피처스케일링과 인코딩을 배웠다. 느낌(Feeling) : houseprice가 컬럼명들도 헷갈리는데, 새로운 개념들도 배우니까 따라가느라 정신이 없었다. 교훈(Finding) 나만의 언어로 이해하고 정리해보는 것 어렵지만 다음 수업 시간부터는 적어도 한개라도 내가 고민해서 이해한대로 써보자. 오디널, 원핫 / 판다스, 사이킷런 / std, mm, rs/ pd.cut, pd.qcut 등 큰 틀 안에서 세부 개념들이 헷갈리지 않게 공부해보자! 천리길 스터디 공유해주신 자료 혼자 보고 나서, 쪽집게 수업 들으니 얻어 가는 것이 많아서 좋았다. 다음주도 열심히 공부해서 많이 가져가야지!.. 2023. 4. 25.
221108 TIL - 로그를 적용하고, 값을 복원하는 것을 배운 날. 천리길 함수의 늪에 빠진 날. TIL 221108 TUE 사실(Fact) : log1p와 expm1를 배웠다. 느낌(Feeling) : log를 취해서 정규분포화로 바꿔주고, 다시 submit에서는 값을 되돌려줘서 적용하는 것이 흥미로웠다. 교훈(Finding) : 캐글 점수 내리는 것이 재밌다. 다양하게 파라미터나 변수를 조정해보는 연습을 많이 해보자. 데이터리안 AB테스트를 보고 싶었는데, 어제인 줄 알고 캐굴캐굴 스터디랑 겹쳐서 포기했었다. 그런데 알고보니 어제까지 신청이라서 스케쥴에 어제라고 써놓은 거였고, 오늘 AB테스트 하는 날이었던 것... 으쌰팀원이 오늘이라고 고맙게 알려줬는데, 너무 늦게 봐서 슬펐다. 천리길 과제 미니프로젝트3 끝나고 미리 시작했는데, 함수의 늪에 빠져서 결국 새벽2시가 다되간다. 함수가 너무 어렵다.. 2023. 4. 25.
[천리길스터디] 앙상블 Ensemble 유튜브(허민석) 앙상블-하드보팅, 소프트보팅 에서 가져온 사진. 앙상블의 이름을 잘 설명해주는 사진 같다. 1. 목적 여러 분류기를 하나의 분류기로 연결하여, 개별 분류기보다 더 좋은 성능을 달성 일반화(generalizability), 강건성(robustness)를 향상시키기 위해 여러 모델의 예측값을 결합 2. 방법 여러 분류 알고리즘 사용 : 다수결 투표(Voting) 하나의 분류 알고리즘 사용 : 배깅(Bagging), 부스팅(Boosting) 3. 종류 3-1. Voting (Soft Voting, Hard Voting) 동일한 훈련세트 같은 훈련세트를 여러 모델에 넣어서 돌린다. 3-2. 배깅(bootstrap aggregating) 하나의 모델 훈련세트를 여러 개로 쪼개서 돌.. 2023. 4. 25.
221107 TIL - 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation 221107 MON /캐글의 bike sharing demand 데이터, RMSLE, 오차 , 점수가 낮아야 좋은 것 / 미니프로젝트3 그리드서치 성공 221107 MON 사실(Fact) : 캐글의 bike sharing demand 데이터를 사용하여 EDA 부터 평가까지 배웠다. 특히 RMSLE를 새롭게 배웠다. 느낌(Feeling) : 이 데이터는 오차로 보기 때문에 점수가 낮아야 좋은 것이라는 것! 그런데 빼야 하는 컬럼을 고르는게 아직 헷갈린다. 교훈(Finding) 다른 데이터를 시작할 때도 데이터셋을 살펴보면서 호기심을 갖고 시작하자! 미니프로젝트 Evaluation을 확인하지 못한 것이 허를 찔린 기분이었다. 점수를 내는 것에만 집중했는데, 결과를 어떻게 내야할지 고민의 시간이 필요하다고 느.. 2023. 4. 25.
230423~230424 TIL - 데이터 시각화 전, 그 시각화를 위한 데이터를 먼저 뽑아보자. 230423 역류성식도염 프로젝트 데이터 시각화 전, 그 시각화를 위한 데이터를 먼저 뽑아보자. 온전히 개인 프로젝트로, 코드를 처음부터 끝까지 작성해야했다. 팀프로젝트를 포트폴리오로 정리하면서 팀원들이 한 코드를 정리하거나 발전시키는 건 재밌었는데 나만의 온전한 코드는 아직 내공이 부족함을 느꼈다. 예를 들어, 나는 '과식여부'에 따른 음식 섭취를 시각화하고 싶다. 이것을 다른 사람들은 10분만에 툭툭 뽑아낼 수 있다면, 나는 저 데이터를 데이터프레임화해서 뽑아내기 위해 어떤 과정을 거쳐야 하는지 30분~1시간을 고민한다. 이렇게 혼자 해봐야 는다는 것을 실감했다. 대신, 결국 저 데이터 시각화를 뽑아냈는데, 시각화 그래프로 변경 전 데이터프레임화를 하거나 시리즈로 만들어서 데이터를 먼저.. 2023. 4. 25.
230423 TIL - 문제가 막막할 때, 예시답이 어떻게 나온건지 원리를 찾아보자. 230423 프로그래머스 문제 순서쌍의 개수 n = 20 일 때, 순서쌍은 (1, 20), (2, 10), (4, 5), (5, 4), (10, 2), (20, 1)이다. i가 1~21까지 돌면서 반복문을 수행할 때, i로 20을 나눴는데 딱 떨어진다면( n % i == 0), answer에 +1씩 해준다. answer = []처럼 리스트로 만든다면, if문 안에서 answer.append(i)를 해주고, return 값은 len(answer)이 될 것이다. 순서쌍을 어떻게 구할지 원리를 찾는 것이 중요한 문제라서 조금 어려웠다. def solution(n): answer = 0 for i in range(1, n+1): if n % i == 0: answer += 1 return answer 2023. 4. 23.
230422 TIL - 파이썬 not in / 티스토리 HTML, CSS 고쳐야 할 것 230422 프로그래머스 문제 - 모음(aeiou)가 들어가면 제외하고 출력하는 문제 - for문을 세 네번 겹쳐야 할까 고민했는데, 간단하게 'if 변수 not in 모음리스트'로 해결 가능한 문제였다. - 정규표현식 re.sub() 방법도 있었다. 티스토리 고쳐야 할 것 - 왼쪽 카테고리 bar 나눔선이 인터넷 창 크기에 따라 튀어나올 때가 있다. - TOC 문제 : 글 하단 '카테고리의 다른 글' 부분 TOC 추가. 내 생각에 HTML에서 임시저장글, 본문들 중 어디 파트가 TOC가 출력되게 해주는지 헷갈려서 가 보이면 전부 TOC를 추가했는데, 그 중에 밑에걸 제거하면 되지 않을까 의심 중. 2023. 4. 22.
221105, 221106 TIL - ML 재실행이 두렵다. 221105 머신러닝 알고리즘 재실행이 두렵다. / 221106 랜덤서치, 그리드서치를 조금 알 것 같은 느낌 / 예측은 X_test로!! 221105 SAT 머신러닝 알고리즘 재실행이 두렵다. 미니프로젝트3를 했다. Airbnb New User Bookings 였다. 원래 추천 노트북을 보면 따라하기만 해도 될 줄 알았는데, 남이 한 코드를 필사하는 것도 만만치 않다고 느꼈다. 결국 내가 생각해서 어떤 식으로 진행할 지 결정해야 했다. 아직 어떤 알고리즘을 사용해야 할지, 피쳐엔지니어링이 뭔지, 하이퍼파라미터 튜닝을 어떻게 해야할지 어렵다. 또 위에서 하나를 고치고 머신러닝 알고리즘을 다시 재실행하는 것이 두렵다. 너무 오래 걸린다... 221106 SUN 알고리즘 선택 후, 그리드서치, 랜덤서치! 미.. 2023. 4. 22.