ADsP 내용 정리

분류분석모형 - 의사결정나무

여연찌 2024. 4. 22. 19:50

의사결정나무

- 질문을 계속 던지는 것

- 데이터에 들어있는 패턴을 변수의 조합으로 나타내는 것

- 예측 또는 분류의 모델을 나무 형태(tree 구조)로 만든다

 

: 전체 자료를 몇개의 소집단으로 분류하거나 예측을 수행하는 방법

: 상위노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다.

: 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다.

 

 

의사결정나무의 활용

 

① 세분화

② 분류

③ 예측

④ 차원 축소 및 변수 선택

: 여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용

⑤ 교호작용

: 의사결정나무는 교호작용이 없는 것이 장점

: 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악

 

의사결정나무의 특징

장점과 단점 구분 필수

장점 - 모델이 직관적, 결과 설명 용이
- 모형을 만드는 방법이 간단
- 데이터 정규화 및 단위 변환 필요 X
- 다른 기법에 비해 전처리 작업이 어렵지 않음
- 데이터의 선형성, 정규성 등의 가정이 불필요
- 대용량 데이터에서도 빠르게 만들 수 있음
- 이상값에 대해서도 민감함 없이 분류 가능
- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 영향을 받지 않음
- 독립변수나 종속변수에 수치형변수와 범주형변수 모두 사용 가능
- 모형 분류의 정확도 높음
단점 - 독립변수들 사이의 중요도 판단이 어려움
- 새로운 자료에 대한 과적합 발생 가능성 높음
- 분류 경계선 근처의 자료값에 대해 오차가 큼

 

의사결정나무 분석과정

1. 성장

: 마디별 분리규칙을 찾아 나무를 성장시키는 과정, 적절한 정지규칙을 만족하면 중단

: 분리규칙

- 최적의 분할은 불순도 감소량을 가장 크게 하는 분할이다.

 

* 불순도 - 범주안에 다양한 데이터가 들어있는 것

 

: 분리기준

- 종속변수가 이산형 > 분류트리

- 종속변수가 연속형 > 회귀트리

 

- 이산형 목표변수

① 카이제곱 통계량 p 값: p 값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성

② 지니 지수: 통계적 분산 정도를 정량화해서 표현한 값. 지니 지수를 가장 감소시키는 변수를 활용하여 최적분리 수행

③ 엔트로피 지수: 정규화된 불순도 측도. 엔트로피 지수가 가장 작은 변수를 활용하여 최적분리 수행

 

- 연속형 목표변수

① ANOVA F-통계량: F-통계량의 p-value 가 작아지는 방향으로 가지 분할 수행

② 분산의 감소량: 분산의 감소량이 커지는 방향으로 가지 분할 수행. 분산의 감소량이 커지면 분산은 감소

 

2. 가지치기

: 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거

: 성장이 끝난 의사결정나무의 모형이 너무 복잡한 경우 과적합이 발생 할 수 있어 일부 가지를 제거

: 모형이 복잡한 경우 과적합, 너무 단순한 경우 과소적합

 

3. 타당성 평가

: 형성된 의사결정나무를 평가

: 이익도표, 위험도표, 시험자료를 이용하여 평가

 

4. 해석 및 예측 단계

: 의사결정나무의 모형을 해석하고 예측에 적용

 

 

지니지수

: 값이 클수록 이질적이며 순수도가 낮다

예제(계산)

남자가 20명, 여자가 30명 있는 경우의 지니지수?

1 - { (20/50)^2 + (30/50)^2 }

 

 

 


 

의사결정나무는 분류 경계선 근처의 자료값에 대해 오차가 크다

의사결정나무의 활용법으로 범주의 병합, 연속형 변수의 이산화

지니지수는 노드의 불순도를 나타내는 값이다.

지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있다.

엔트로피 지수는 값이 클수록 순수도가 낮다고 볼 수 있다.

카이제곱 통계량의 기대도수 수식은 '열의 합계 X 합의 합계 / 전체 합계' 이다.

'ADsP 내용 정리' 카테고리의 다른 글

분류분석 - 인공신경망 분석  (0) 2024.04.25
분류분석 - 앙상블분석  (0) 2024.04.23
분류분석모형 - 로지스틱회귀분석  (1) 2024.04.19
정형 데이터 마이닝  (0) 2024.04.11
통계분석 - 시계열분석  (0) 2024.04.09