본문 바로가기
부트캠프(LIKELION AIS7)/TIL

221028~221029 TIL 머신러닝, 딥러닝 유튜브 강의 보기

by aimaimee 2023. 4. 21.

221028 TIL
오늘 한 것
타이타닉 과제

INNOPOLIS AI SPACE-S 인공지능 세미나 - 정형 데이터를 다루는 머신러닝 문제해결 패턴 https://www.youtube.com/watch?v=b98H87BIrbo&t=140s

탐색적 데이터 분석의 중요성과 개요

머신러닝 문제 해결 프로세스
문제 이해 : 문제 이해, 평가 지표 파악
탐색적 데이터 분석 : 데이터 구조 탐색, 데이터 시각화(중요 피처 파악)

  • 데이터 구조 파악, 통계값 구해보기, 시각화로 데이터를 깊게 살펴봄, 어떤 특성(피처)가 중요한지, 피처끼리 조합해서 어떻게 새로운 피처를 만들지, 어떤 점을 주의해서 모델링 할지
  • info(), shape 왜 할까 조금 건너뛸 때도 있었는데, 앞으로는 자세히 살펴봐야겠다.
    베이스라인 모델 : (선택) 피처 엔지니어링, 모델 훈련 및 성능 검증, 결과 예측 및 제출
  • 피처 엔지니어링이 뭔지 잘 몰랐는데! datetime으로 파생변수 만드는 것 우리가 했었는데 그걸 피처 엔지니어링이라고 했구나.

성능 개선 : 피처 엔지니어링, 하이퍼파라미터 최적화, 성능 검증, 결과 예측 및 제출

피처별 인코딩 전략
레이블 인코딩 : 가까운 숫자끼리 비슷한 데이터로 판단
원-핫 인코딩 : 고윳값별로 독립적인 데이터로 판단
-> 레이블과 원핫인코딩 아직 조금 헷갈린다.

이상치, 결측값 파악


머신러닝 모델은 블랙박스?

--
베이스라인 모델 설계
평가지표 : 대부분의 평가지표는 사이킷런에서 제공, 필요한 경우 커스텀 평가지표 작성

  • 아직 몰라서 그런지 로그 변환한 값, 지니계수 이런게 다 어렵다.
    모델훈련
  • 탐색적 데이터 분석: 예측에 도움이 될 피처를 추리고, 적절한 모델링 방법을 탐색하는 과정
  • 피처 엔지니어링 : 추려진 피처들을 훈련에 적합하도록, 성능 향상에 도움이 되도록 가공하는 과정

[성능 개선]
피처 엔지니어링
파생 피처 생성(기존 피처를 가공해서 분석에 도움이 될 수 있도록 만드는 것) ex) 데이트타임으로 연도, 월, 일 등등
데이터 조합을 생성해 데이터 수 늘려주기
데이터 인코딩
데이터 다운캐스팅
피처 스케일링 : 서로 다른 피처 값의 범위(최대-최소)가 일치하도록 조정하는 작업
이상치제거, 결측값 처리

어떤 파생 피처를 만들어야 성능 향상에 도움이 될까?
EDA와 도메인 배경지식, 창의적인 아이디어가 도움이 될 수 있다. 처음부터 어떤 파생피처가 도움이 될지 알 수는 없다.

하이퍼 파라미터 최적화
그리드 서치, 랜덤 서치, 베이지안 최적화 : 알아보기!!

월간 캐글 데이터셋 추천!! (bike sharing말고 초보자가 다루기 좋은 데이터셋 종류나 주제)- Tabular Playground Series

Brightics AI(시각화 할 때 수월함)

221029 TIL
오늘 한 것
1. 유튜브 시청 : 국가과학기술연구회 - 딥러닝?? 머신러닝?? 대체 뭐가 다른거야? 딥러닝과 머신러닝의 차이점에 대해 아는척 해보자. https://www.youtube.com/watch?v=NbLVcMmxSw0
-> 인공지능>머신러닝>딥러닝
-> 기존의 인공지능 프로그램 : 개발자가 규칙과 데이터를 입력하면 답을 내놓는다. (강아지설명, 고양이출력)
-> 머신러닝 : 공통점을 학습한 후 답을 내놓음
-> 트레이닝 시킨다.
-> 딥러닝은 특징을 섭렵하는 것까지 알아서 하기 때문에, 개발자가 데이터를 줄 필요가 없다.
-> 딥러닝과 전통적 머신러닝의 차이 : 데이터 양에 따른 성능
-> 학습할 데이터의 양이 많을수록 정확도가 올라가는 딥러닝. 학습할 양이 많지 않을 경우에는 데이터에 대한 수작업이 들어간 머신러닝이 더 성능이 좋을 수 있다.
2. ICT이노베이션스퀘어 - 인공지능, 머신러닝, 딥러닝? 대체 차이가 뭐야? AI 궁금해 https://www.youtube.com/watch?v=np7DdtStwd0
인공지능은 1950년대에 시작됨. Artificial Intelligence.
강인공지능, 약인공지능
머신러닝 : 기계가 학습하는 모든 걸 통칭, 딥러닝 : 사람의 네트워크와 유사하게 생각을 하는 것
의료계 + 인공지능?

댓글