본문 바로가기
부트캠프(LIKELION AIS7)/수업

[AI스쿨 7기, 10주차] Ch6. Decision Tree(불순도, CART, Regression)

by aimaimee 2023. 5. 10.

K-MOOC '실습으로 배우는 머신러닝' 김영훈 교수님

Ch6. Decision Tree(불순도, CART, Regression)

Ch6. Decision Tree

  • 분류, 회귀, 다중출력 가능
  • IF-THEN 룰
    • 데이터 공간 상에서는 각 변수를 수직 분할한 것 과 동일
    • 순도가 증가 되게끔 영역을 구분
  • 랜덤포레스트(예측성능 우수) 방법론의 기본 구조
  • CART 훈련 알고리즘을 이용해 모델 학습
  • 한 번에 한 개의 변수를 사용하여 정확한 예측이 가능한 규칙들의 집합을 생성
  • 용어 : root(처음 노드), leaf node(마지막 노드)
  • 장점
    • 높은 해석력을 가진다
  • 단점
    • 데이터의 작은 변화에 민감하다. -> Ensemble을 이용해 극복
    • Decision Boundary가 크게 변할 수 있다.

불순도

  • Pi,k : i번째 노드에 있는 훈련 샘플 중 클래서 k에 속한 샘플의 비율
    • 0<=pik<=1
    • Gi = 1-pi1^2-pi2^2
    • pi1=1, pi2=0 이라면, 1-(1^2+0^2)=0 이므로 불순도가 0이 된다.

CART알고리즘

Classification and Regression Tree : 불순도를 최소화하도록 최종 노드를 계속 이진 분할하는 방법론

  • 전체 갯수가 m이라면, 가중평균을 더해준다.
  • 최대 깊이가 되거나 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다.
  • 훈련 데이터에 대한 제약이 없기 때문에 과대 적합이 일어나기 쉽다.
  • 제약(Regularization)으로 과대 적합 해결
    • max_depth
    • min_samples_split : 분할되기 위해 노드가 가져야 하는 최소 샘플 수
    • min_samples_leaf : 리프 노드가 가지고 있어야 할 최소 샘플 수
    • max_leaf_nodes : 리프 노드의 최대 수

Decision Tree Regression

노드에 속한 관측치들의 평균 타켓값(y)으로 예측 == 노드의 Value

CART 알고리즘

Regularization 적용하여 overfitting 막는 것도 중요

댓글