나이브 베이즈 분류
: 베이즈 정리를 기반으로 한 머신러닝 기법
- 빈도 확률
: 사건이 발생한 횟수의 장기적인 비율을 의미, 객관적으로 확률을 해석
- 베이지안 확률
: 주관적으로 확률을 해석
- 베이즈 정리에서 확률은 주장 혹은 믿음의 신뢰도로 나타난다.
k-NN (k-Nearest Neighborhood, 최근접 이웃법)
: 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용
: k 는 이웃의 개수를 나타낸다
: 최적의 k 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.
: 작은 k는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 k는 모델의 결정 경계를 더 부드럽게 만든다.
서포트벡터머신 ( Support Vector Machine, SVM )
: 지도 학습 모델로 사용되는 강력한 알고리즘
: 분류 성능이 뛰어나 분류 분석에 자주 사용
: 초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형모델을 만든다.
분류모형성과
오분류표와 평가 지표
ROC 커브 ( Receiver Operating Characteristic Curve )
: 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
: x 축은 FPR(1-특이도) 값을, y 축은 TPR(민감도) 값을 갖는 그래프
: 이진 분류 모형의 성능을 평가하기 위해 사용
: ‘AUROC(Area Under ROC)’ 값이 크면 클수록 (=1에 가까울수록) 모형의 성능이 조다고 평가
- TPR (True Positive Rate)
: 1인 케이스에 대한 1로 예측한 비율
- FPR (False Positive Rate)
: 0인 케이스에 대한 1로 잘못 예측한 비율
이익도표 (이득곡선, 이득도표)
: 모델의 성능을 판단하기 위해 작성한 표
: 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률 등의 정보를 산출하여 나타내는 도표
: 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.
: 예측력 = (목표범주 그룹1에 속한 데이터 개수)/(전체 데이터 개수)
: 향상도 = (반응률) / (예측력)
: 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있다.
향상도 곡선 (Lift Curve)
: 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지를 보여준다.
: 곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 또는 전략의 효과가 더 크다고 해석할 수 있다.
* 베이지안 확률은 분석자의 사전지식까지 포함해 분석하는 방법
'ADsP 내용 정리' 카테고리의 다른 글
군집분석 (1) | 2024.04.28 |
---|---|
분류분석 - 인공신경망 분석 (0) | 2024.04.25 |
분류분석 - 앙상블분석 (0) | 2024.04.23 |
분류분석모형 - 의사결정나무 (0) | 2024.04.22 |
분류분석모형 - 로지스틱회귀분석 (1) | 2024.04.19 |