ADsP 내용 정리

분류분석 - 앙상블분석

여연찌 2024. 4. 23. 18:05

앙상블기법

: 기법들을 한 곳에 뭉쳐서 하나의 모델을 만든다.

: 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법

: 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있음

: 배깅, 부스팅, 랜덤포레스트

: 수치형 데이터 > 값의 평균, 범주형 데이터 > 다수결 방식

 

배깅(Bagging, bootstrap aggregating)

: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 

각 표본에 대해 분류기(aka 모델)를 생성한 후 그 결과를 앙상블 하는 방법

: 방복추출 방법을 사용

: 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 그렇지 않을 수도 있다.

: 보팅(Voting) 은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과 선정

: 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용

: 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력을 보여준다.

: 각각의 모델이 독립적이다.

 

 

부스팅(Boosting)

: 배깅의 과정 과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서 

분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출

: 약한 모델들을 결합하여 나감으로써 점차적으로 강한 분류기를 만들어 나가는 과정

: 붓스트랩 표본을 추출하여 분류기를 만든 후, 

그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한 후 다음 붓스트랩 표본을 추출

: 에이다부스팅(AdaBoosting) 은 가장 많이 사용되는 부스팅 알고리즘

: GradientBoost, XGBoost, Light GBM 등

: 붓스트립 재구성 과정에서 잘못 분류된 데이터에 더 가중치를 주어 표본을 추출하기 때문에 훈련오차를 빠르게 줄일 수 있음

: 예측 성능이 배깅보다 뛰어난 경우가 많다

: 독립적이지 않다.

 

 

랜덤포레스트(Random Forest)

: 상관성이 없는 나무들로 이루어진 숲을 의미, 배깅에 랜덤 과정을 추가한 방법

: 분산이 크다는 점을 고려하여 배깅,부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 선형 결합하여 최종 학습기를 만드는 방법

: 이상값에 민감하지 않다

: 분류 > 다수결 , 회귀 > 평균 또는 중앙값

: 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보임

: 이론적 설명이나 최종 결과에 대한 해석이 어렵지만 예측력이 매우 높다