분류분석 - 앙상블분석

ADsP 내용 정리

분류분석 - 앙상블분석

여연찌 2024. 4. 23. 18:05

앙상블기법

: 기법들을 한 곳에 뭉쳐서 하나의 모델을 만든다.

: 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법

: 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있음

: 배깅, 부스팅, 랜덤포레스트

: 수치형 데이터 > 값의 평균, 범주형 데이터 > 다수결 방식

배깅(Bagging, bootstrap aggregating)

: 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여

각 표본에 대해 분류기(aka 모델)를 생성한 후 그 결과를 앙상블 하는 방법

: 방복추출 방법을 사용

: 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 그렇지 않을 수도 있다.

: 보팅(Voting) 은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과 선정

: 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용

: 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력을 보여준다.

: 각각의 모델이 독립적이다.

부스팅(Boosting)

: 배깅의 과정 과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서

분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출

: 약한 모델들을 결합하여 나감으로써 점차적으로 강한 분류기를 만들어 나가는 과정

: 붓스트랩 표본을 추출하여 분류기를 만든 후,

그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한 후 다음 붓스트랩 표본을 추출

: 에이다부스팅(AdaBoosting) 은 가장 많이 사용되는 부스팅 알고리즘

: GradientBoost, XGBoost, Light GBM 등

: 붓스트립 재구성 과정에서 잘못 분류된 데이터에 더 가중치를 주어 표본을 추출하기 때문에 훈련오차를 빠르게 줄일 수 있음

: 예측 성능이 배깅보다 뛰어난 경우가 많다

: 독립적이지 않다.

랜덤포레스트(Random Forest)

: 상관성이 없는 나무들로 이루어진 숲을 의미, 배깅에 랜덤 과정을 추가한 방법

: 분산이 크다는 점을 고려하여 배깅,부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 선형 결합하여 최종 학습기를 만드는 방법

: 이상값에 민감하지 않다

: 분류 > 다수결 , 회귀 > 평균 또는 중앙값

: 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보임

: 이론적 설명이나 최종 결과에 대한 해석이 어렵지만 예측력이 매우 높다

저작자표시 비영리 (새창열림)

'ADsP 내용 정리' 카테고리의 다른 글

분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과 (1)	2024.04.28
분류분석 - 인공신경망 분석 (0)	2024.04.25
분류분석모형 - 의사결정나무 (0)	2024.04.22
분류분석모형 - 로지스틱회귀분석 (1)	2024.04.19
정형 데이터 마이닝 (0)	2024.04.11

현재글분류분석 - 앙상블분석

개인연습, 코드카타, 데이터리안, 프로그래머스, 팀프로젝트, WIL, 데벨챌, ADsP, 프로젝트, 데이터리안 #데이터넥스트레벨챌린지 #데벨챌, JD분석, 파이썬, 스타터노트, sql, 리트코드, TIL, KPT회고, 데이터넥스트레벨챌린지, 개인공부, pandas,

여연찌

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여연찌