본문 바로가기

부트캠프(LIKELION AIS7)/수업36

[AI스쿨 7기, 10주차]선형회귀, 그라디언트부스팅, XGBoost, LigtGBM, CatBoost, 타입변경, Confusion Matrix, Precision, Recall, 단골면접질문 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 13번 강의 파일 : 선형회귀, 그라디언트부스팅, XGBoost, LigtGBM, CatBoost/ 0803실습파일 : 타입변경 / 14번 강의 파일 : Confusion Matrix, Precision, Recall / 단골면접질문 221123 ✅13번 강의 파일 ✔선형 회귀 이상치에 영향을 크게 받는다. (스케일링이 중요) 보완해서 Ridge, Lasso, ElasticNet 이 있는데, 대부분 정규화 기능이 들어가있다. ✔ 앙상블, 배깅 배깅은 오버피팅이 많이 될 때, 부스팅은 개별 트리의 성능이 중요할 때 주로 사용한다. ✔ 그라디언트 부스팅 그라디언트 부스트에서 미분은 기울기 고차원의 희소한 데이터에 잘 동작하지 않는다. -> 차원축소를 통해 .. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch10, Ch11. Neural Network(Logistic Regression, cross entropy, linear regression, activation function, hidden layer, backpropagation, epochs, batch size) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch10,Ch11.Neural Network(Logistic Regression, cross entropy, linear regression, activation function, hidden layer, backpropagation, epochs, batch size Ch10. Neural Network Basic Logistic Regression 퍼셉트론을 잘 구성해서 neural network를 구성하는 과정. 퍼셉트론은 linear, logistic regression과 밀접한 연관이 있다. Loss함수 정의, Min Loss : 여기서 Loss는 cross-entropy i 관측치 인덱스, j는 클래스 인덱스 Logistic Regress.. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch9. 군집화(유사도 척도, 유클리디안, 분리형 군집화, 덴드로그램, K평균군집화, centroid) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch9. 군집화(유사도 척도, 유클리디안, 분리형 군집화, 덴드로그램, K평균군집화, centroid) Ch9. Clustering(군집화) 군집화 개념 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 개인 군집(그룹)으로 나누는 것 군집화 기준 군집 내 유사도 최대화 : 동일한 군집에 속한 관측치들의 유사도 군집 간 유사도 최소화 : 상이한 군집에 속한 관측치들은 다르게 분류 vs 군집화 분류 : 사전 정의된 범주가 있는(labeled) 데이터로부터 예측 모델을 학습하는 문제(Supervised learning) 군집화 : 사전 정의된 범주가 없는(unlabeled) 데이터에서 최적의 그룹을 찾아나가는 문제(unsupervised le.. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch7. Ensemble(weak learner, strong learner, bagging, random forest, out-of-bag), Ch8. 주성분분석(차원축소, 다중공선성, 공분산행렬, eigenvector, screeplot, loading plot) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch7. Ensemble(weak learner, strong learner, bagging, random forest, out-of-bag), Ch8. 주성분분석(차원축소, 다중공선성, 공분산행렬, eigenvector, screeplot, loading plot) Ch7. Ensemble 집단 지성 : 많은 경우 무작위로 고른 사람들에게 질문을 하고 대답을 모았을 때, 모은 답이 한 명의 전문가의 답보다 좋은 경우들이 있다. 일련의 분류나 회귀 모데로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측 성능을 얻을 수 있음 : 앙상블 학습(Ensemble Learning) 일반적으로 머신러닝 기법들을 Ensemble 시켜주면 성능이 향상되.. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch6. Decision Tree(불순도, CART, Regression) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch6. Decision Tree(불순도, CART, Regression) Ch6. Decision Tree 분류, 회귀, 다중출력 가능 IF-THEN 룰 데이터 공간 상에서는 각 변수를 수직 분할한 것 과 동일 순도가 증가 되게끔 영역을 구분 랜덤포레스트(예측성능 우수) 방법론의 기본 구조 CART 훈련 알고리즘을 이용해 모델 학습 한 번에 한 개의 변수를 사용하여 정확한 예측이 가능한 규칙들의 집합을 생성 용어 : root(처음 노드), leaf node(마지막 노드) 장점 높은 해석력을 가진다 단점 데이터의 작은 변화에 민감하다. -> Ensemble을 이용해 극복 Decision Boundary가 크게 변할 수 있다. 불순도 Pi,k : i번.. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch4. 경사하강법(stochastic, global minimum, momentum) / Ch5. Support Vector Machine(scaler, hard margin, soft margin, nonlinear SVM Classification, SVM Regression) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch4. 경사하강법(stochastic, global minimum, momentum) / Ch5. Support Vector Machine(scaler, hard margin, soft margin) Ch4. 경사하강법(Gradient Descent) Iterative Algorithm-based Optimization Gradient Descent의 수학적 background : Quadratic approximation(2차 다항식) Wc : 현재 위치 W - Wc : 현재 위치에서 떨어진 지점 tc : stepsize == learning rate : Hyperparameter ▽L : w의 Gradient Global optimum을 구한다.. 2023. 5. 10.
[AI스쿨 7기, 10주차] Ch2. 머신러닝 프로세스(데이터 용어, 준비 과정, 모델링) / Ch3. 모델링(KNN, Logistic Regression) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch2. 머신러닝 프로세스(데이터 용어, 준비 과정, 모델링) / Ch3. 모델링(KNN, Logistic Regression) 2-1. 머신러닝 프로세스 개요 Business Understanding : Prior Knowledge, 도메인? & Data Understanding Prepare Data Model(with Training Data) Model 적용, evaluation(with Test Data) Deployment Knowledge and Actions 데이터 용어 Dataset Data Point(Observation) : 관측치 / 1번 데이터, 2번 데이터 Feature(Variable, Attribute) : 데이터 구성하.. 2023. 5. 10.
[AI스쿨 7기, 10주차] 머신러닝 개요(개념, GPU, MSE, Linear Regression, minimize loss function, model validation) K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님 Ch1. 개념, GPU, MSE, Linear Regression, minimize loss function, model validation 1-1. 인공지능과 머신러닝 개요 머신러닝 : 기계가 학습. 인공 지능을 구현하는 한 가지의 방법 함수를 학습 강아지와 고양이를 구분하는 함수를 찾는다. ex) 암진단, 자율주행 안전도 검증 과거의 AI : Knowledge Engineering 최근 AI : 컴퓨터 스스로 학습(Training) - 함수 - 컴퓨터가 문제 해결, Solving(Testing) vision, language, speech(OK구글) Artificial Intelligence > Machine Learning > Deep Lear.. 2023. 5. 10.
[AI스쿨 7기, 9주차] 선형회귀, 그라디언트 부스팅 트리 모델, 경사하강법, learning rate, epoch, residual, squared loss, 엑스트라 트리 모델, 접착어, XGBoost, lightgbm, GOSS, EFB, CatBoost, GPU 221116 0801번 : 선형회귀 / 0802번, 13번 강의 파일 : 그라디언트 부스팅 트리 모델, 경사하강법, 엑스트라 트리 모델 / 0803번 : 접착어, XGBoost, lightgbm, GOSS, EFB, CatBoost 멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의 221116 ✅0801 실습파일 인코딩 사이킷런으로 인코딩 하면 더 복잡한데, 장점은 numpy와 pandas 데이터를 다루는 연습을 해보기에 좋다. 학습용 데이터, 검증용 데이터 Hold-out-validation을 사용할 예정 train, valid를 train_test_split 기능으로 나눌 예정 valid를 만드는 이유는, 제출해 보기 전에 어느 정도의 스코어가 나올지 확인해 보기 위해서. cross validati.. 2023. 5. 9.