ADsP 내용 정리

분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과

여연찌 2024. 4. 28. 10:15

나이브 베이즈 분류

: 베이즈 정리를 기반으로 한 머신러닝 기법

 

- 빈도 확률

: 사건이 발생한 횟수의 장기적인 비율을 의미, 객관적으로 확률을 해석

- 베이지안 확률

: 주관적으로 확률을 해석

- 베이즈 정리에서 확률은 주장 혹은 믿음의 신뢰도로 나타난다.

 

 

 

k-NN (k-Nearest Neighborhood, 최근접 이웃법)

: 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용

: k 는 이웃의 개수를 나타낸다

: 최적의 k 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.

: 작은 k는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 k는 모델의 결정 경계를 더 부드럽게 만든다.

 

서포트벡터머신 ( Support Vector Machine, SVM )

: 지도 학습 모델로 사용되는 강력한 알고리즘

: 분류 성능이 뛰어나 분류 분석에 자주 사용

: 초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형모델을 만든다.

 

 

 

 

분류모형성과

 

오분류표와 평가 지표

 

 

ROC 커브 ( Receiver Operating Characteristic Curve )

: 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프

: x 축은 FPR(1-특이도) 값을, y 축은 TPR(민감도) 값을 갖는 그래프

: 이진 분류 모형의 성능을 평가하기 위해 사용

: ‘AUROC(Area Under ROC)’ 값이 크면 클수록 (=1에 가까울수록) 모형의 성능이 조다고 평가

 

- TPR (True Positive Rate)

: 1인 케이스에 대한 1로 예측한 비율

- FPR (False Positive Rate)

: 0인 케이스에 대한 1로 잘못 예측한 비율

 

 

이익도표 (이득곡선, 이득도표)

: 모델의 성능을 판단하기 위해 작성한 표

: 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률 등의 정보를 산출하여 나타내는 도표 

: 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.

: 예측력 = (목표범주 그룹1에 속한 데이터 개수)/(전체 데이터 개수)

: 향상도 = (반응률) / (예측력)

: 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있다.

 

 

향상도 곡선 (Lift Curve)

: 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지를 보여준다.

: 곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 또는 전략의 효과가 더 크다고 해석할 수 있다.

 


 

* 베이지안 확률은 분석자의 사전지식까지 포함해 분석하는 방법

 

'ADsP 내용 정리' 카테고리의 다른 글

군집분석  (1) 2024.04.28
분류분석 - 인공신경망 분석  (0) 2024.04.25
분류분석 - 앙상블분석  (0) 2024.04.23
분류분석모형 - 의사결정나무  (0) 2024.04.22
분류분석모형 - 로지스틱회귀분석  (1) 2024.04.19