본문 바로가기

부트캠프(LIKELION AIS7)78

221114 TIL - house prices 수업을 들으며, medical 캐글 필사 어렵다. 221114 MON 사실(Fact) : house prices 데이터를 가지고 머신러닝에서 사용할 수 있는 전처리 기법을 다양하게 응용해보았다. 느낌(Feeling) : 쓰레드를 열어줄 때마다 익숙한 문제임에도 시간이 오래 걸린다. 빨리 익숙해지면 좋겠다. 교훈(Finding) : 튜토리얼을 필사해보며 공부했던 분석이 오늘 전처리 시간에도 많이 보였다. 필사를 다 해볼 수 있었으면 좋았을텐데 꼭 따라해보자! 캐글 필사 : 100% 완벽하게 코드들을 이해하지 못했다. 안써본 bokeh 같은 것들이나 시각화에서 사용하는 메서드들이 아직 어렵다. 2023. 5. 9.
[AI스쿨, 9주차] house prices 전처리, 왜도, 첨도, 희소값, 스케일링, 로그변환, 이산화, RFM, LableEncoder, OrdinalEncoder, X, y, 원핫인코딩, polynomial, 로그변환, JD(AB테스트, SQL 등) 221116 0801번 : 선형회귀 / 0802번, 13번 강의 파일 : 그라디언트 부스팅 트리 모델, 경사하강법, 엑스트라 트리 모델 / 0803번 : 접착어, XGBoost, lightgbm, GOSS, EFB, CatBoost 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221114 ✅0701 실습파일 기술통계 결측치가 있는지 이상치가 있는지 표준편차는 어떤지 단순 기술통계 값을 확인하는게 아니라 특이점이 없는지 수치 범위의 개수가 작다면 범주형 데이터에 가깝기 때문에 nunique로 추가 확인 히스토그램 수치 데이터의 분포 확인 왜도, 첨도를 통해 너무 뾰족하지 않은지 -> 한쪽에 데이터가 몰려 있는지 확인 너무 한쪽에 치우쳐 있지 않은지 확인 정규 분포 형태인지 확인 막대가 떨어져 있다면.. 2023. 5. 9.
캐굴캐굴스터디 깃허브 연동하기 목표 : 바탕화면에 캐굴캐굴스터디 폴더 생성 후 깃허브 연동 -> clone하면 캐굴캐굴스터디 폴더 내에 캐굴캐굴스터디 repository가 연동되어 폴더가 하나 더 생성이 되었다. 결국 vscode에서 브랜치 연동이 안되어서 다시 시작 -> 바탕화면에 github 폴더 생성 -> github 폴더 내에서 캐굴캐굴스터디 repository를 연동하기 git bash pwd로 현재 위치 확인 cd Desktop : 나는 바탕화면에 폴더를 만들고 싶었는데, 내 바탕화면 이름은 desktop이 아니고 Desktop이었다. 폴더에 마우스 우클릭해서 Git Bash Here로 열면 경로가 바로 열려서 더 편하다. mkdir github : ~/Desktop에서 'github'란 폴더 생성 cd github(생성한.. 2023. 4. 25.
221111~221113 TIL - 다이아몬드 과제, 캐글 튜토리얼 필사 과제 221111 FRI 태블로 태블로...어렵다... 중간중간 뛰어넘어가면서 강의를 들으니까 헷갈린다. 그리고 오후에 강사님이 해주는 강의는 한 번 놓치면 끝이라서 포기할까말까의 기로에 늘 왔다갔다 한다. 221112 SAT 다이아몬드 과제 조금 풀어보기 221113 SUN [다이아몬드 과제] 6번 문제는 지금까지 풀어온 것에서 조금만 변형이 된 것인데, 응용하기가 어려웠다. 덕분에 loc 개념을 찾아보면서 기본적인 loc[행인덱싱값, 열인덱싱값] 개념을 다시 공부할 수 있었다. plotly가 손에 안 익어서 seaborn을 자주 사용했는데, 그리는 것을 연습해볼 수 있어서 좋았다. [캐글 튜토리얼 필사 과제] 영어로 되어 있어 시간이 오래 걸렸지만, 끝까지 해 본 후, 이런 흐름으로 분석이 진행되었구나 이.. 2023. 4. 25.
[으쌰복습, 올라잇팀] Ordinal Encoding 오디널 인코딩의 정의, 특징 공부 Ordinal Encoding 인코딩을 하는 이유 : 머신 러닝 모델들의 대부분은, 보통 string type로 이루어진 범주형 변수를 이해하지 못한다. 그렇기 때문에 숫자로 인코딩을 해줘야 하고, 데이터에 따라 적합한 인코딩 방법이 필요하다. 정의 순서가 있는 범주형 변수(Ordinal variables)를 숫자로 변환하는 인코딩 순서가 있는 범주형 변수란 ? 등급(1등급, 2등급, 3등급), 영화평점 별 갯수, 학점 바꾸고자 하는 컬럼을 지정할 때, “cols” 파라미터를 사용해서 지정하면 되지만, 랜덤으로 숫자 변환이 된다. 원하는 숫자로 매칭시키고 싶다면 “mapping” 파라미터를 사용하면 된다. 특징 mathematical value를 가진다. 범주형 데이터를.. 2023. 4. 25.
221110 TIL - 다음에 한 번 더 공부해야 할 내용 : 스태킹, 인공신경망 스태킹 앙상블이랑 비슷한 느낌으로 스태킹을 가르쳐 주었는데, 아직 이해가 어렵다. 아래는 배깅, 부스팅, 스태킹이 보기 좋게 정리되어 있는 블로그. https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0 인공신경망(perceptron) - 딥러닝 XOR 논리식은 해결하지 못한다. 퍼셉트론 설명 블로그 : https://blog.naver.com/hihihichoi/222438019338 머신러닝의 역사 : https://post.naver.com/viewer/postView.nhn?volumeNo=2107.. 2023. 4. 25.
[자기주도학습] 보팅(soft, hard voting), 경사하강법, XGBoost와 LightGBM 비교 앙상블에서 공부했던 내용과 천리길 스터디 내용을 토대로 보팅, 그라디언트 부스트 중 경사하강법, XG부스트와 LightGBM을 더욱 자세하게 공부해봤다. 앙상블은 여러 분류기를 하나로 연결해 개별 분류기보다 좋은 성능을 달성한다고 공부를 했다. 그 중 보팅은 여러 분류 알고리즘을 사용하고, 배깅과 부스팅은 하나의 분류 알고리즘을 사용한다. Voting 각 결정나무의 예측값이 0.7, 0.8, 0.6의 결과가 나왔다고 가정했을 때, soft voting은 평균값인 0.7을, hard voting은 0.8을 출력하게 된다. (이 예시만 보면 하드보팅은 최고의 점수를 출력하는 것 같다. 하드보팅을 다수결의 원칙이라고 하는 것에 헷갈렸는데, https://blog.naver.com/fbfbf1/222484365.. 2023. 4. 25.
221109 TIL - 피처스케일링, 인코딩을 배운 날, 인코딩에서 한 번 흔들렸나..천리길 스터디 너무 재미있었다. 피처스케일링, 인코딩을 배운 날. 천리길 스터디 부스팅 배깅 설명에서 이마 탁! TIL 221109 WED 사실(Fact) : 피처스케일링과 인코딩을 배웠다. 느낌(Feeling) : houseprice가 컬럼명들도 헷갈리는데, 새로운 개념들도 배우니까 따라가느라 정신이 없었다. 교훈(Finding) 나만의 언어로 이해하고 정리해보는 것 어렵지만 다음 수업 시간부터는 적어도 한개라도 내가 고민해서 이해한대로 써보자. 오디널, 원핫 / 판다스, 사이킷런 / std, mm, rs/ pd.cut, pd.qcut 등 큰 틀 안에서 세부 개념들이 헷갈리지 않게 공부해보자! 천리길 스터디 공유해주신 자료 혼자 보고 나서, 쪽집게 수업 들으니 얻어 가는 것이 많아서 좋았다. 다음주도 열심히 공부해서 많이 가져가야지!.. 2023. 4. 25.
[AI스쿨 7기, 8주차] 피처스케일링, 스케일링기법(std,mm,rs), transformation, 이산화, binning, pd.cut, 오디널인코딩, 원핫인코딩, polynomial, 다항식, 판다스 인코딩 단점 221109 12번 강의파일, 0701 실습파일 : 피처스케일링, 표준화(Z-score), Min-Max, Robust, transformation, binning, 이산화(discretisation), 부스팅3대장, 오디널인코딩, 원핫인코딩, polynomial 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221109 ✅12번 강의파일, 0701 실습파일 Feature scaling 트리기반 모델은 정보 균일도 기반으로 되어 있어 피처 스케일링이 필요 없다. 변수 스케일링(feature scaling) : 피처의 범위를 조정하여 정규화 하는 것 분산과 표준편차를 조정한다. 피처 스케일링이 잘 되어 있으면, 변수끼리 비교하는 것이 편리하다. 이상치에 강점이 있다. Robust scaling : 사.. 2023. 4. 25.