본문 바로가기

부트캠프(LIKELION AIS7)/TIL42

캐굴캐굴스터디 깃허브 연동하기 목표 : 바탕화면에 캐굴캐굴스터디 폴더 생성 후 깃허브 연동 -> clone하면 캐굴캐굴스터디 폴더 내에 캐굴캐굴스터디 repository가 연동되어 폴더가 하나 더 생성이 되었다. 결국 vscode에서 브랜치 연동이 안되어서 다시 시작 -> 바탕화면에 github 폴더 생성 -> github 폴더 내에서 캐굴캐굴스터디 repository를 연동하기 git bash pwd로 현재 위치 확인 cd Desktop : 나는 바탕화면에 폴더를 만들고 싶었는데, 내 바탕화면 이름은 desktop이 아니고 Desktop이었다. 폴더에 마우스 우클릭해서 Git Bash Here로 열면 경로가 바로 열려서 더 편하다. mkdir github : ~/Desktop에서 'github'란 폴더 생성 cd github(생성한.. 2023. 4. 25.
221111~221113 TIL - 다이아몬드 과제, 캐글 튜토리얼 필사 과제 221111 FRI 태블로 태블로...어렵다... 중간중간 뛰어넘어가면서 강의를 들으니까 헷갈린다. 그리고 오후에 강사님이 해주는 강의는 한 번 놓치면 끝이라서 포기할까말까의 기로에 늘 왔다갔다 한다. 221112 SAT 다이아몬드 과제 조금 풀어보기 221113 SUN [다이아몬드 과제] 6번 문제는 지금까지 풀어온 것에서 조금만 변형이 된 것인데, 응용하기가 어려웠다. 덕분에 loc 개념을 찾아보면서 기본적인 loc[행인덱싱값, 열인덱싱값] 개념을 다시 공부할 수 있었다. plotly가 손에 안 익어서 seaborn을 자주 사용했는데, 그리는 것을 연습해볼 수 있어서 좋았다. [캐글 튜토리얼 필사 과제] 영어로 되어 있어 시간이 오래 걸렸지만, 끝까지 해 본 후, 이런 흐름으로 분석이 진행되었구나 이.. 2023. 4. 25.
[으쌰복습, 올라잇팀] Ordinal Encoding 오디널 인코딩의 정의, 특징 공부 Ordinal Encoding 인코딩을 하는 이유 : 머신 러닝 모델들의 대부분은, 보통 string type로 이루어진 범주형 변수를 이해하지 못한다. 그렇기 때문에 숫자로 인코딩을 해줘야 하고, 데이터에 따라 적합한 인코딩 방법이 필요하다. 정의 순서가 있는 범주형 변수(Ordinal variables)를 숫자로 변환하는 인코딩 순서가 있는 범주형 변수란 ? 등급(1등급, 2등급, 3등급), 영화평점 별 갯수, 학점 바꾸고자 하는 컬럼을 지정할 때, “cols” 파라미터를 사용해서 지정하면 되지만, 랜덤으로 숫자 변환이 된다. 원하는 숫자로 매칭시키고 싶다면 “mapping” 파라미터를 사용하면 된다. 특징 mathematical value를 가진다. 범주형 데이터를.. 2023. 4. 25.
221110 TIL - 다음에 한 번 더 공부해야 할 내용 : 스태킹, 인공신경망 스태킹 앙상블이랑 비슷한 느낌으로 스태킹을 가르쳐 주었는데, 아직 이해가 어렵다. 아래는 배깅, 부스팅, 스태킹이 보기 좋게 정리되어 있는 블로그. https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0 인공신경망(perceptron) - 딥러닝 XOR 논리식은 해결하지 못한다. 퍼셉트론 설명 블로그 : https://blog.naver.com/hihihichoi/222438019338 머신러닝의 역사 : https://post.naver.com/viewer/postView.nhn?volumeNo=2107.. 2023. 4. 25.
[자기주도학습] 보팅(soft, hard voting), 경사하강법, XGBoost와 LightGBM 비교 앙상블에서 공부했던 내용과 천리길 스터디 내용을 토대로 보팅, 그라디언트 부스트 중 경사하강법, XG부스트와 LightGBM을 더욱 자세하게 공부해봤다. 앙상블은 여러 분류기를 하나로 연결해 개별 분류기보다 좋은 성능을 달성한다고 공부를 했다. 그 중 보팅은 여러 분류 알고리즘을 사용하고, 배깅과 부스팅은 하나의 분류 알고리즘을 사용한다. Voting 각 결정나무의 예측값이 0.7, 0.8, 0.6의 결과가 나왔다고 가정했을 때, soft voting은 평균값인 0.7을, hard voting은 0.8을 출력하게 된다. (이 예시만 보면 하드보팅은 최고의 점수를 출력하는 것 같다. 하드보팅을 다수결의 원칙이라고 하는 것에 헷갈렸는데, https://blog.naver.com/fbfbf1/222484365.. 2023. 4. 25.
221109 TIL - 피처스케일링, 인코딩을 배운 날, 인코딩에서 한 번 흔들렸나..천리길 스터디 너무 재미있었다. 피처스케일링, 인코딩을 배운 날. 천리길 스터디 부스팅 배깅 설명에서 이마 탁! TIL 221109 WED 사실(Fact) : 피처스케일링과 인코딩을 배웠다. 느낌(Feeling) : houseprice가 컬럼명들도 헷갈리는데, 새로운 개념들도 배우니까 따라가느라 정신이 없었다. 교훈(Finding) 나만의 언어로 이해하고 정리해보는 것 어렵지만 다음 수업 시간부터는 적어도 한개라도 내가 고민해서 이해한대로 써보자. 오디널, 원핫 / 판다스, 사이킷런 / std, mm, rs/ pd.cut, pd.qcut 등 큰 틀 안에서 세부 개념들이 헷갈리지 않게 공부해보자! 천리길 스터디 공유해주신 자료 혼자 보고 나서, 쪽집게 수업 들으니 얻어 가는 것이 많아서 좋았다. 다음주도 열심히 공부해서 많이 가져가야지!.. 2023. 4. 25.
221108 TIL - 로그를 적용하고, 값을 복원하는 것을 배운 날. 천리길 함수의 늪에 빠진 날. TIL 221108 TUE 사실(Fact) : log1p와 expm1를 배웠다. 느낌(Feeling) : log를 취해서 정규분포화로 바꿔주고, 다시 submit에서는 값을 되돌려줘서 적용하는 것이 흥미로웠다. 교훈(Finding) : 캐글 점수 내리는 것이 재밌다. 다양하게 파라미터나 변수를 조정해보는 연습을 많이 해보자. 데이터리안 AB테스트를 보고 싶었는데, 어제인 줄 알고 캐굴캐굴 스터디랑 겹쳐서 포기했었다. 그런데 알고보니 어제까지 신청이라서 스케쥴에 어제라고 써놓은 거였고, 오늘 AB테스트 하는 날이었던 것... 으쌰팀원이 오늘이라고 고맙게 알려줬는데, 너무 늦게 봐서 슬펐다. 천리길 과제 미니프로젝트3 끝나고 미리 시작했는데, 함수의 늪에 빠져서 결국 새벽2시가 다되간다. 함수가 너무 어렵다.. 2023. 4. 25.
[천리길스터디] 앙상블 Ensemble 유튜브(허민석) 앙상블-하드보팅, 소프트보팅 에서 가져온 사진. 앙상블의 이름을 잘 설명해주는 사진 같다. 1. 목적 여러 분류기를 하나의 분류기로 연결하여, 개별 분류기보다 더 좋은 성능을 달성 일반화(generalizability), 강건성(robustness)를 향상시키기 위해 여러 모델의 예측값을 결합 2. 방법 여러 분류 알고리즘 사용 : 다수결 투표(Voting) 하나의 분류 알고리즘 사용 : 배깅(Bagging), 부스팅(Boosting) 3. 종류 3-1. Voting (Soft Voting, Hard Voting) 동일한 훈련세트 같은 훈련세트를 여러 모델에 넣어서 돌린다. 3-2. 배깅(bootstrap aggregating) 하나의 모델 훈련세트를 여러 개로 쪼개서 돌.. 2023. 4. 25.
221107 TIL - 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation 221107 MON /캐글의 bike sharing demand 데이터, RMSLE, 오차 , 점수가 낮아야 좋은 것 / 미니프로젝트3 그리드서치 성공 221107 MON 사실(Fact) : 캐글의 bike sharing demand 데이터를 사용하여 EDA 부터 평가까지 배웠다. 특히 RMSLE를 새롭게 배웠다. 느낌(Feeling) : 이 데이터는 오차로 보기 때문에 점수가 낮아야 좋은 것이라는 것! 그런데 빼야 하는 컬럼을 고르는게 아직 헷갈린다. 교훈(Finding) 다른 데이터를 시작할 때도 데이터셋을 살펴보면서 호기심을 갖고 시작하자! 미니프로젝트 Evaluation을 확인하지 못한 것이 허를 찔린 기분이었다. 점수를 내는 것에만 집중했는데, 결과를 어떻게 내야할지 고민의 시간이 필요하다고 느.. 2023. 4. 25.