ADsP 내용 정리

분류분석모형 - 로지스틱회귀분석

여연찌 2024. 4. 19. 19:56

* 분류분석

: 반응변수(종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행

: 주어진 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 작업

: 반응변수가 범주형인 경우 > 새로운 자료에 대한 분류가 주목적

: 연속형인 경우 >그 값을 예측 하는 것이 주목적

 

로지스틱회귀분석

: 종속변수가 범주형 데이터인 경우에 사용

: 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정

* A,B,C 가 있고,  A 75%, B 10%, C 15% 로 나오면 가장 확률이 높은 A 이다

라고 판단을 할 수 있도록 만드는 것

: 주로 이진 분류가 기본, 세개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 한다

: 독립변수가 연속형, 종속변수가 범주형일때 가능

: 독립변수가 범주형일 경우에는 독립변수를 더미변수로 변환하면 가능

* 맞는지 틀린지 보는 것

* 0 또는1 인지 이산형 output

* 시그모이드를 사용( ∫ )

 

선형회귀분석과 로지스틱 회귀분석의 비교

 

 

* 우도

: 모델이 데이터를 얼마나 잘 설명하는지에 대한 확률

: 모델과 수정치가 데이터가 얼마나 잘 맞는지를 확률로서 보여주는 것

: 우도가 클수록 잘 맞는 다는 것

 

* 표준오차는 작을 수록 좋음

 

0과 1사이의 값을 가지는 종속변수를 위한 알고리즘

 

오즈(odds)

: 확률을 숫자로 표현

: 확률이 p 일때 오즈값은 p/1-p

: 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값

: 각 범주(집단)에 분류된 확률 값을 추정

: 4번의 성공과 1번의 실패를 경험했다면 오즈는 4회(성공) / 1회(실패) = 4 

: 독립변수(x) 가 주어졌을 때 성공확률을 P라고 하면 실패 확률은 1-P 이다

: 오즈 값 = P/1-P

 

로짓변환

: 오즈 값에 log 를 씌운 것

 

시그모이드 함수(활성화 함수)

: 0부터 1사이의 값을 만들어 주는 것

 

 

 


 

YES/NO 의 이진분류를 위해서는 로지스틱 회귀분석이 적절

'ADsP 내용 정리' 카테고리의 다른 글

분류분석 - 앙상블분석  (0) 2024.04.23
분류분석모형 - 의사결정나무  (0) 2024.04.22
정형 데이터 마이닝  (0) 2024.04.11
통계분석 - 시계열분석  (0) 2024.04.09
통계분석 - 다변량 분석  (0) 2024.04.09