본문 바로가기

부트캠프(LIKELION AIS7)/TIL42

221118 TIL 태블로 복습하고 수업 들으니 놓친게 없었다. 221118 FRI 어제 태블로 테킷 강의를 처음부터 다시 듣기 시작했다. 다시 들으니 머리에 들어오는 정보가 많아서 더 좋았다. 매번 수업을 놓치면 포기했는데, 처음으로 수업에서 놓친게 없어서 뿌듯했다. 이번주 안에 태블로 테킷 강의 완성하고, 승일 강사님이 공유해준 유튜브 강의 하나씩 뿌셔나가야겠다. 2023. 5. 10.
221117 TIL 복습 발표, 자기주도학습, 스터디 개인적 아쉬움, 벌써 절반 221117 THU 으쌰 복습 발표 으쌰 10팀이 미니프로젝트를 끝으로 잠시 헤어진다니. 진짜 마음 편한 팀원들이었는데 아쉽다. 하지만 마지막 으쌰 복습을 발표로 마무리하게 되서 좋다. -> 그라디언트 부스팅에서 경사하강을 공부해서 다른 부분을 맡아서 정리했는데, 손실함수와 경사하강법, AdaBoost 모두 모르는 부분이 한가득이었다. 나중에 다시 정리해야겠다. 자기주도학습 솔직히 태블로 강의 보고, 따라해보는 복습을 하고 싶었는데.. 그건 제출할 글을 적을 수가 없다. 아쉽지만 수업 때 적은 노트 훑어보다가 loss랑 lightGBM 동작방법이 뭔지 몰라서 그거 공부했다. loss 부분은 손실함수랑도 연결 되는 것 같고, 정규화 할 때 같이 나오는 용어들도 있고, 통계 개념도 연결되어서 생각보다 시간이.. 2023. 5. 10.
Gradient Boosting, Histogram-based Gradient Boosting 그래디언트 부스팅 다중가산회귀트리(MART, Multiple Additive Regression Trees), 확률적 그라디언트 부스팅, 그라디언트 머신 등 다양한 이름으로 불린다. GRBT(Gradient Boosted Regression Tree), GBT(Gradient Boosted Decision Tree), GBT(Gradient Boosted Tree) 2001년 제롬 프리드만 : 랜덤포레스트, GBDT(Gradient Boosted Decision Tree), GBRT(Gradient Boosted Regression)을 만들었다. 손실함수를 최소화 여러 약한 학습기(weak learner, 얕은 트리)를 합쳐 최종 모델 이전 트리에서 잘못 분류된 데이터 훈련 Gradient Boostin.. 2023. 5. 9.
LightGBM 의 동작 방식 : GOSS, EFB LightGBM 데이터의 크기를 줄인 뒤, AdaBoost의 방법을 차용하는 Gradient Boosting XGBoost는 약한 학습기로서의 Decision Tree를 만들 때, 모든 feature와 모든 sample(residual)에 대해서 계산한다. 학습에 오랜 시간이 필요하기 때문에 LightGBM이 개발되었다. LightGBM 동작 방식 주어진 데이터의 분포(distribution)에 영향을 주지 않으면서 효과적으로 데이터의 크기를 줄이는 방법 1. GOSS(Gradient based One Side Sampling) AdaBoost는 전체 관측치에 sample weight를 매기고, 올바르게 훈련되지 않은(under-trained) 관측치에 더 높은 가중치를 부여하여, 다음 학습에서 더 많은.. 2023. 5. 9.
Loss : quantile loss, huber loss, squared loss, absolute loss 1. Linear Regression이란? x값을 넣었을 때, y 값을 예측하는 모델을 만들기 위해서, 예측하는 여러 가지 선을 그릴 수 있다. 이 중에서 각 점이 예측선에 가깝게 일치할 때, 예측을 잘한다고 할 수 있다. 데이터를 정확하게 예측하는 식을 찾는 과정을 Linear Regression이라고 한다. Linear Regression은 RSS(Residual Sum of Squares)값을 최소로 만드는 w를 찾는 과정이다. RSS = (실제값-예측값)의 제곱의 합 2. 회귀 종류와 손실 2-1. Quantile Regression(분위수 회귀) 회귀 분석은 결과 변수의 평균을 예측한다. Quantile Regression은 결과 변수의 q-분위수를 예측한다. 확률변수 Y가 있고, 0.7 분위수.. 2023. 5. 9.
221116 TIL 메타인지 특강을 듣고 221116 WED 사실(Fact) : 선형회귀로 점수를 내보았고, 배깅 부스팅 차이와 부스팅 3대장을 배웠다. 느낌(Feeling) : 공부했던 부분이 나와서 복습하기가 좋았다. 교훈(Finding) : 역시 예습 복습 최고 메타인지 특강 인트로 질문 개발 실력 엄청 좋은데 소통이 안되는 개발자 vs 개발은 평범한데 소통이 잘되는 개발자 회사의 성장 우선 vs 개인의 성장을 우선 같이 일하고 싶은 동료 vs 일하고 싶지 않은 동료 -> 질문을 들으면서 어떤 동료를 추구하는지, 나는 어떤 동료가 되는지를 고민하게 되었다. 메타인지란? 인지함을 인지하는 것, 알고 있음을 아는 것, 자기 객관화, 자신이 뭘 알고, 뭘 모르는지를 제대로 알고 있는 능력 메타인지 5각형, 6각형 Engineering Ladde.. 2023. 5. 9.
[천리길 스터디] Pycaret house prices, boston 데이터 연습 https://today-1.tistory.com/17 의 캐글 데이터 house prices를 가지고 연습하는 것을 따라했습니다. PyCaret 머신러닝 워크플로우 자동화 데이터탐색 - 전처리 - 모델선택 - 학습+최적화+결과분석 - 배포 1. 설치 pip install pycaret 일단 로컬과 환경설정 충돌이 일어나서 다시 재설치를 피하려고, 코랩에서 연습을 해보았다. 역시나 버전이 맞지 않아서 발생하는 incompatible에러가 나왔다. 그런데 밑에 코드들은 실행이 되어서 해결은 미루고 그냥 코드들 연습했다. ERROR: pip's dependency resolver does not currently take into account all the packages that are installed.. 2023. 5. 9.
221115 TIL 수치, 범주, X, y, train, test 등에 따른 전처리, 변환 등 너무 헷갈린다. 캐글 medical 필사 발표하면서 정리가 좀 되었다. 221115 TUE 사실(Fact) : house prices 실습 파일을 완성하면서 다양한 전처리, 변환, 인코딩을 배웠다. 느낌(Feeling) : 수치, 범주, X, y, train, test. 어떤 전처리를 적용할지, 어떻게 변환해야할지, 너무 헷갈린다. 교훈(Finding) : 다시 한 번 훑어보자..! 실은 오늘은 교훈으로 뭐 적을지 잘 생각이 안났다. 캐글 필사하면서, 비슷한 듯 보이는 jointplot 시각화를 왜이렇게 많이 했을까, +마크가 출력이 왜 안될까, 다항식 부분은 왜 하는 걸까, ->일차방정식보다 변수끼리 결합해 flexible한 예측이 가능하게 한다. 이 데이터셋에서 smoking과 sex, age 등을 같이 비교했을 때 더 좋은 인사이트를 얻을 수 있었다. 그렇기 때문에 다.. 2023. 5. 9.
221114 TIL - house prices 수업을 들으며, medical 캐글 필사 어렵다. 221114 MON 사실(Fact) : house prices 데이터를 가지고 머신러닝에서 사용할 수 있는 전처리 기법을 다양하게 응용해보았다. 느낌(Feeling) : 쓰레드를 열어줄 때마다 익숙한 문제임에도 시간이 오래 걸린다. 빨리 익숙해지면 좋겠다. 교훈(Finding) : 튜토리얼을 필사해보며 공부했던 분석이 오늘 전처리 시간에도 많이 보였다. 필사를 다 해볼 수 있었으면 좋았을텐데 꼭 따라해보자! 캐글 필사 : 100% 완벽하게 코드들을 이해하지 못했다. 안써본 bokeh 같은 것들이나 시각화에서 사용하는 메서드들이 아직 어렵다. 2023. 5. 9.