* 분류분석
: 반응변수(종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행
: 주어진 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 작업
: 반응변수가 범주형인 경우 > 새로운 자료에 대한 분류가 주목적
: 연속형인 경우 >그 값을 예측 하는 것이 주목적
로지스틱회귀분석
: 종속변수가 범주형 데이터인 경우에 사용
: 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정
* A,B,C 가 있고, A 75%, B 10%, C 15% 로 나오면 가장 확률이 높은 A 이다
라고 판단을 할 수 있도록 만드는 것
: 주로 이진 분류가 기본, 세개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 한다
: 독립변수가 연속형, 종속변수가 범주형일때 가능
: 독립변수가 범주형일 경우에는 독립변수를 더미변수로 변환하면 가능
* 맞는지 틀린지 보는 것
* 0 또는1 인지 이산형 output
* 시그모이드를 사용( ∫ )
선형회귀분석과 로지스틱 회귀분석의 비교
* 우도
: 모델이 데이터를 얼마나 잘 설명하는지에 대한 확률
: 모델과 수정치가 데이터가 얼마나 잘 맞는지를 확률로서 보여주는 것
: 우도가 클수록 잘 맞는 다는 것
* 표준오차는 작을 수록 좋음
0과 1사이의 값을 가지는 종속변수를 위한 알고리즘
오즈(odds)
: 확률을 숫자로 표현
: 확률이 p 일때 오즈값은 p/1-p
: 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값
: 각 범주(집단)에 분류된 확률 값을 추정
: 4번의 성공과 1번의 실패를 경험했다면 오즈는 4회(성공) / 1회(실패) = 4
: 독립변수(x) 가 주어졌을 때 성공확률을 P라고 하면 실패 확률은 1-P 이다
: 오즈 값 = P/1-P
로짓변환
: 오즈 값에 log 를 씌운 것
시그모이드 함수(활성화 함수)
: 0부터 1사이의 값을 만들어 주는 것
YES/NO 의 이진분류를 위해서는 로지스틱 회귀분석이 적절
'ADsP 내용 정리' 카테고리의 다른 글
분류분석 - 앙상블분석 (0) | 2024.04.23 |
---|---|
분류분석모형 - 의사결정나무 (0) | 2024.04.22 |
정형 데이터 마이닝 (0) | 2024.04.11 |
통계분석 - 시계열분석 (0) | 2024.04.09 |
통계분석 - 다변량 분석 (0) | 2024.04.09 |