
Decision Tree
질문을 통해 정답을 맞춰가는 것
- Node : 훈련 데이터의 특성에 대한 테스트를 표현
- root node : 맨 위의 노드
- leaf node : 맨 아래 끝에 달린 노드
- branch : 테스트의 결과를 나타내며 일반적으로 하나의 노드는 2개의 가지를 가짐

그림 설명
- root node의 sample수는 5197개 이고 음성 클래스는 1258개, 양성 클래스는 3939개이다.
- 왼쪽보다 오른쪽으로 양성 클래스가 많이 이동한 것을 알 수 있다.
Gini impurity
- 수식 : Gini impurity = 1 - (음성 클래스 비율 제곱 + 양성 클래스 비율 제곱)
- information gain : 부모와 자식노드의 불순도 차이
- information gain이 크도록 트리를 성장시킴 → 자식 노드의 불순도가 작아짐
가지치기
- 트리의 최대 깊이 지정하기