본문 바로가기

부트캠프(LIKELION AIS7)/TIL42

221105, 221106 TIL - ML 재실행이 두렵다. 221105 머신러닝 알고리즘 재실행이 두렵다. / 221106 랜덤서치, 그리드서치를 조금 알 것 같은 느낌 / 예측은 X_test로!! 221105 SAT 머신러닝 알고리즘 재실행이 두렵다. 미니프로젝트3를 했다. Airbnb New User Bookings 였다. 원래 추천 노트북을 보면 따라하기만 해도 될 줄 알았는데, 남이 한 코드를 필사하는 것도 만만치 않다고 느꼈다. 결국 내가 생각해서 어떤 식으로 진행할 지 결정해야 했다. 아직 어떤 알고리즘을 사용해야 할지, 피쳐엔지니어링이 뭔지, 하이퍼파라미터 튜닝을 어떻게 해야할지 어렵다. 또 위에서 하나를 고치고 머신러닝 알고리즘을 다시 재실행하는 것이 두렵다. 너무 오래 걸린다... 221106 SUN 알고리즘 선택 후, 그리드서치, 랜덤서치! 미.. 2023. 4. 22.
221104 Diary - 태블로 두 번째, 마우스, 깃허브 어렵다. 221104 강승일 강사님 태블로 수업 2번째 시간. JD을 보면 대시보드 만드는 업무도 많이 보여서 잘 배워두면 좋을 것 같은데, 혼자 하라고 하면 전혀 감이 오질 않는다. 오늘도 20분 정도 실습시간을 줬는데, 마지막 대시보드 구현을 위해 데이터를 어떻게 처리해야 할 지 어려웠다. 강사님이 올려주는 영상으로 복습을 많이 해보고, 스스로 생각을 많이 해봐야 할 것 같다. 마우스를 샀다. 파이썬 수업 할 때는 키보드를 더 많이 써서 그런가 손목이 아프다는 생각을 안하는데, 태블로는 마우스를 많이 써서 손목이 부서질 것 같다. 마침 지원금도 들어와서 로지텍 lift 사려고 했는데, 가성비로 TG삼보꺼부터 써보려고 주문했다. 깃허브 블로그 손대고 싶은데,,,언제 하지 대체 2023. 4. 22.
221031~221103 Diary 221031~221103 Diary. TIL인지 Diary인지 늘 고민이 된다. 221031 Mon TIL JD 발표날 스터디 복습 노션도 정리해서 잘 올렸다. 221101 Tue TIL 모각공에 모두 모여서 천리길 스터디 막힌 부분 풀어보는 중. 다들 열쩡! 어렵고 남들보다 시간은 많이 걸리지만(주말 내내~ 화요일밤까지) 그래도 이렇게 풀어두니 수업 내용도 본 내용이라 집중을 잘 할 수 있어서 좋았다. 221102 Wed TIL 1. 천리길 스터디가 어찌어찌 끝났다. 2. 저녁에 conda update -c conda-forge seaborn를 했다. seaborn 그릴 때, ci=None 이 아니라 errorbar=None 입력하려고 했는데, 당연히 업그레이드 잘 될 줄 알았다. 쥬피터 노트북에서 갑.. 2023. 4. 22.
sklearn.model_selection : cross_validate, cross_val_predict, cross_val_score 공부 사이킷런 공식 문서의 sklearn.model_selection 부분에서 cross_validate, cross_val_predict, corss_val_score를 비교해보는 공부 model_selection 에서 cross_validate, cross_val_predict, cross_val_score 출력 결과가 헷갈려서 다시금 공부하고자 했다. 사이킷런 공식 문서의 sklearn.model_selection 부분을 들어가보면, Splitter Classes에 KFold Splitter Functions에 train_test_split Hyper_parameter optimizers에 그리드서치와 랜덤서치 기능 Model validation에 cross_validate, cross_val_predi.. 2023. 4. 22.
[으쌰복습] Decision Tree Decision Tree란? 화이트박스 모델이다. 예/아니오에 대한 질문을 던지면서 정답을 찾는다. 스무고개라고도 많이 한다. 지도분류학습에서 가장 유용하게 사용되는 기법 중 하나이다. 학습된 규칙에 따라 데이터를 분류(classification)하거나 회귀(regression)한다. 화이트박스 : 결정트리, 직관적이고 결정 방식을 이해하기 쉽다. 블랙박스 : 랜덤 포레스트, 신경망, 어떻게 예측이 도출되었는지 파악하기 어렵다. 분류 트리 : 결과 값이 정수(범주형) 회귀 트리 : 결과 값이 실수(수치형, 연속형) 예시를 알아볼까?!!!!!!!!! 이진 분류(Binary Classification) : 이거, 아니면 저거 다중 분류(Multi-label Classification) : A,B,C 중 어디.. 2023. 4. 21.
221030 TIL - Feature Engineering 오류 해결 221030 천리길 스터디 과제 중 피처 엔지니어링 부분에서 Pregnancies_high를 추가했을 때, 다시 학습과 예측을 진행한다. split_count부터 다시 안하고 X_train을 시키려니 계속 index가 없다는 오류가 떴다. 팀원이 같이 에러를 봐줘서 결국 해결! feature_names랑 feature_name 변수명 지정도 헷갈렸는데, 위와 같은 변수명을 쓰면 어차피 아래에서 덮어쓰기 되니 신경 안써도 되겠다고 배웠다. 그렇게 잘 나가다가 이상치 부분에서 다시 막혔다. 수업 시간에 이상치 부분이 헷갈리고 제대로 못 배운 느낌이었는데, 역시 이해를 못하고 있었다. 공부해서 다시 해결해봐야지.. 2023. 4. 21.
221028~221029 TIL 머신러닝, 딥러닝 유튜브 강의 보기 221028 TIL 오늘 한 것 타이타닉 과제 INNOPOLIS AI SPACE-S 인공지능 세미나 - 정형 데이터를 다루는 머신러닝 문제해결 패턴 https://www.youtube.com/watch?v=b98H87BIrbo&t=140s 탐색적 데이터 분석의 중요성과 개요 머신러닝 문제 해결 프로세스 문제 이해 : 문제 이해, 평가 지표 파악 탐색적 데이터 분석 : 데이터 구조 탐색, 데이터 시각화(중요 피처 파악) 데이터 구조 파악, 통계값 구해보기, 시각화로 데이터를 깊게 살펴봄, 어떤 특성(피처)가 중요한지, 피처끼리 조합해서 어떻게 새로운 피처를 만들지, 어떤 점을 주의해서 모델링 할지 info(), shape 왜 할까 조금 건너뛸 때도 있었는데, 앞으로는 자세히 살펴봐야겠다. 베이스라인 모델 .. 2023. 4. 21.
221020 TIL - 미드 221020 드디어 데이터셋 붙잡고 있는거에서 스트림릿으로 넘어간다. 한 거 random.choice해서 뽑아서 구 데이터, 동 데이터에서 시각화를 하자고 정해서, 다시 데이터를 세팅했다. melt해서 만든 Tidy dataset이랑 random.choice해서 뽑아둔 데이터랑 여러가지가 섞여서 결국 깔끔하게 정리한 파일을 하나 더 만들었다. -> 앞으로는 미리미리 정리본을 만들어둬야지 정리하고 나니 시각화도 조금 수월하게 되었다. 근데 지금 또 해보려고 보니 구 데이터, 동 데이터가 바뀌는게 없는 것 같아서 고민이 된다. 못 한 거 깃허브 프로젝트 기능을 잘 써보고 싶은데 쉽지 않다. 팀원들이 한 분야는 공부하기가 어렵다. 할 거 부스트코스 강의 한 번 보기 스트림릿 공부하기 2023. 4. 21.
221019 TIL을 빙자한 일기 221019 WED 미드프로젝트 시작. 어제는 제출해야 하는 프로젝트 개요 노션 페이지 때문에 스트레스를 받았는데, 다같이 채워나가다 보니 해결이 되었다. 왜 그렇게 혼자 고민했나 싶은데, 또 고민의 시간은 필요하니까. 오늘은 담당한 데이터셋을 시작하려고 했는데, 막상 처음부터 끝까지 결과물을 상상하면서 진행하려니 막막해서 데이터 세팅을 어떻게 할까 고민하는데만 시간이 엄청 빠르게 흘러갔다. 다행히 merge를 팀원들이 도와주고 나서는 어떻게 진행하기는 했다. 내일은 조금 더 빠르게 가설 부분 도출하고 시각화 그리고 싶다. 깃헙 프로젝트 해보고 싶어서 팀원들이랑 하는데, fork 해오면 레파지토리는 업데이트도 잘되고 잘 보이는데, projects는 안보인다. 그건 projects 만든 사람 화면에 가야지.. 2023. 4. 21.