앙상블기법
: 기법들을 한 곳에 뭉쳐서 하나의 모델을 만든다.
: 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법
: 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있음
: 배깅, 부스팅, 랜덤포레스트
: 수치형 데이터 > 값의 평균, 범주형 데이터 > 다수결 방식
배깅(Bagging, bootstrap aggregating)
: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여
각 표본에 대해 분류기(aka 모델)를 생성한 후 그 결과를 앙상블 하는 방법
: 방복추출 방법을 사용
: 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 그렇지 않을 수도 있다.
: 보팅(Voting) 은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과 선정
: 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용
: 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력을 보여준다.
: 각각의 모델이 독립적이다.
부스팅(Boosting)
: 배깅의 과정 과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서
분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
: 약한 모델들을 결합하여 나감으로써 점차적으로 강한 분류기를 만들어 나가는 과정
: 붓스트랩 표본을 추출하여 분류기를 만든 후,
그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한 후 다음 붓스트랩 표본을 추출
: 에이다부스팅(AdaBoosting) 은 가장 많이 사용되는 부스팅 알고리즘
: GradientBoost, XGBoost, Light GBM 등
: 붓스트립 재구성 과정에서 잘못 분류된 데이터에 더 가중치를 주어 표본을 추출하기 때문에 훈련오차를 빠르게 줄일 수 있음
: 예측 성능이 배깅보다 뛰어난 경우가 많다
: 독립적이지 않다.
랜덤포레스트(Random Forest)
: 상관성이 없는 나무들로 이루어진 숲을 의미, 배깅에 랜덤 과정을 추가한 방법
: 분산이 크다는 점을 고려하여 배깅,부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 선형 결합하여 최종 학습기를 만드는 방법
: 이상값에 민감하지 않다
: 분류 > 다수결 , 회귀 > 평균 또는 중앙값
: 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보임
: 이론적 설명이나 최종 결과에 대한 해석이 어렵지만 예측력이 매우 높다
'ADsP 내용 정리' 카테고리의 다른 글
분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과 (1) | 2024.04.28 |
---|---|
분류분석 - 인공신경망 분석 (0) | 2024.04.25 |
분류분석모형 - 의사결정나무 (0) | 2024.04.22 |
분류분석모형 - 로지스틱회귀분석 (1) | 2024.04.19 |
정형 데이터 마이닝 (0) | 2024.04.11 |