의사결정나무
- 질문을 계속 던지는 것
- 데이터에 들어있는 패턴을 변수의 조합으로 나타내는 것
- 예측 또는 분류의 모델을 나무 형태(tree 구조)로 만든다
: 전체 자료를 몇개의 소집단으로 분류하거나 예측을 수행하는 방법
: 상위노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다.
: 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다.
의사결정나무의 활용
① 세분화
② 분류
③ 예측
④ 차원 축소 및 변수 선택
: 여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용
⑤ 교호작용
: 의사결정나무는 교호작용이 없는 것이 장점
: 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악
의사결정나무의 특징
장점과 단점 구분 필수
장점 | - 모델이 직관적, 결과 설명 용이 - 모형을 만드는 방법이 간단 - 데이터 정규화 및 단위 변환 필요 X - 다른 기법에 비해 전처리 작업이 어렵지 않음 - 데이터의 선형성, 정규성 등의 가정이 불필요 - 대용량 데이터에서도 빠르게 만들 수 있음 - 이상값에 대해서도 민감함 없이 분류 가능 - 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 영향을 받지 않음 - 독립변수나 종속변수에 수치형변수와 범주형변수 모두 사용 가능 - 모형 분류의 정확도 높음 |
단점 | - 독립변수들 사이의 중요도 판단이 어려움 - 새로운 자료에 대한 과적합 발생 가능성 높음 - 분류 경계선 근처의 자료값에 대해 오차가 큼 |
의사결정나무 분석과정
1. 성장
: 마디별 분리규칙을 찾아 나무를 성장시키는 과정, 적절한 정지규칙을 만족하면 중단
: 분리규칙
- 최적의 분할은 불순도 감소량을 가장 크게 하는 분할이다.
* 불순도 - 범주안에 다양한 데이터가 들어있는 것
: 분리기준
- 종속변수가 이산형 > 분류트리
- 종속변수가 연속형 > 회귀트리
- 이산형 목표변수
① 카이제곱 통계량 p 값: p 값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성
② 지니 지수: 통계적 분산 정도를 정량화해서 표현한 값. 지니 지수를 가장 감소시키는 변수를 활용하여 최적분리 수행
③ 엔트로피 지수: 정규화된 불순도 측도. 엔트로피 지수가 가장 작은 변수를 활용하여 최적분리 수행
- 연속형 목표변수
① ANOVA F-통계량: F-통계량의 p-value 가 작아지는 방향으로 가지 분할 수행
② 분산의 감소량: 분산의 감소량이 커지는 방향으로 가지 분할 수행. 분산의 감소량이 커지면 분산은 감소
2. 가지치기
: 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거
: 성장이 끝난 의사결정나무의 모형이 너무 복잡한 경우 과적합이 발생 할 수 있어 일부 가지를 제거
: 모형이 복잡한 경우 과적합, 너무 단순한 경우 과소적합
3. 타당성 평가
: 형성된 의사결정나무를 평가
: 이익도표, 위험도표, 시험자료를 이용하여 평가
4. 해석 및 예측 단계
: 의사결정나무의 모형을 해석하고 예측에 적용
지니지수
: 값이 클수록 이질적이며 순수도가 낮다
예제(계산)
남자가 20명, 여자가 30명 있는 경우의 지니지수?
1 - { (20/50)^2 + (30/50)^2 }
의사결정나무는 분류 경계선 근처의 자료값에 대해 오차가 크다
의사결정나무의 활용법으로 범주의 병합, 연속형 변수의 이산화
지니지수는 노드의 불순도를 나타내는 값이다.
지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있다.
엔트로피 지수는 값이 클수록 순수도가 낮다고 볼 수 있다.
카이제곱 통계량의 기대도수 수식은 '열의 합계 X 합의 합계 / 전체 합계' 이다.
'ADsP 내용 정리' 카테고리의 다른 글
분류분석 - 인공신경망 분석 (0) | 2024.04.25 |
---|---|
분류분석 - 앙상블분석 (0) | 2024.04.23 |
분류분석모형 - 로지스틱회귀분석 (1) | 2024.04.19 |
정형 데이터 마이닝 (0) | 2024.04.11 |
통계분석 - 시계열분석 (0) | 2024.04.09 |