TIL

2024-06-05

여연찌 2024. 6. 5. 20:48
  • Today

1. SQL 코드카타 2문제

2. 대시보드

3. 통계학 2회차 라이브 세션 수강 및 복습

4. 머신러닝 기초 완강

 

 


  • Today I Learned

 

 

통계학 2회차

 

출처: 전소현 튜터님

 

A/B 테스트: 기존과 변형시켰을 때 어떤게 더 효과가 있었는지 테스트 하는 것

목적: UI/UX 개선, 전환율 증가, 매출 증가

주요지표: 가입율, 재방문율, CTR(노출 대비 클릭율), CVR(클릭 대비 전환율,구매전환율),ROAS(캠페인 비용 대비 캠페인 수익), eCPM(1,000회 광고 노출당 얻은 수익)

 

<프로세스>

1. 현행 데이터 탐색

: 주요 지표를 기준으로 현재 데이터 탐색

 

2. 가설 설정

: 목표 달성을 위한 KPI 정의

*KPI: 기업마다 다름 ( 매출, 방문율 등 )

귀무가설: 처음부터 버릴 것을 예상하는 가설, 차이가 없을 것이다, 차이가 있어도 조금 있다(의미 있는 차이가 없다)

대립가설: 귀무가설에 대립, 차이가 있을 것이다, 유의미한 차이가 있을 것이다.

ex) 성별과 사이즈에 관계가 있을 것인가?

귀무가설: 성별과 사이즈는 관련성이 없을 것이다.

대립가설: 성별과 사이즈는 관련성이 있을 것이다.

 

3. 유의수준 설정

: 귀무가설을 얼마나 신뢰할 것인지 기준을 정하는 단계

: 귀무가설이 맞을 때 오류를 얼마나 허용할 것인지

ex) 신뢰도 95%, 유의수준 5%

 

4. 테스트 설계 및 실행

: 대조군과 실험군의 두 그룹으로 분리

 

5. 테스트 결과 분석

: 가설에 대해 통계적으로 분석하여 유의미한 차이가 있었는지 없었는지 확인

ex. 검정통계량 분석

 

 

<주의사항>

적절한 표본 크기

하나의 변수만 변경

무작위성

적절한 분석 방법

테스트 결과의 의미

정해진 기간 동안 진행

> 너무 많이 할 경우 고객의 이탈을 유발할 수 있음

 

 

유의수준: 오류 허용 범위

: 신뢰도의 반대말

: 확률값이므로 0부터 1 사이의 값을 가진다.

: 통상적으로 신뢰도 95%, 유의수준 5%

 

 

검정통계량

: 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수를 의미

*확률변수: 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수

: 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있다.

 

* 검정 방식의 선택은 가설과 데이터 종류에 따라 달라진다.

검정 방식 비교대상 대상
Z 검정 표본의 평균(차이 분석)
모집단의 분산을 알 수 있는 경우
연속형 자료
T 검정 표본의 평균(차이 분석)
모집단의 분산을 알 수 없는 경우
연속형 자료
카이제곱검정 표본의 분산(상관관계 분석) 범주형 자료
F 검정 표본의 분산(상관관계 분석) 범주형 자료

 

> 검정방식을 통해 p-value(숫자) 가 나온다.

 

p-value: 어떤 사건이 우연히 발생활 확률

 

p 값이 작을 수록 (ex.유의수준인 0.05 보다 작으면 ) 우연히 일어났을 가능성이 거의 없다

> 인과관계가 있다 > 대립가설 채택

p 값이 클수록 (ex. 유의수준인 0.05 보다 크면 ) 우연히 일어났을 가능성이 크다

> 인과관계가 없다 > 대립가설 기각

 

 

>> 유의수준과 p-value 로 판단하여 나온 숫자 값으로 판단(유의한지 아니한지 확인)

 

더보기

가설설정 1

귀무가설: 남성과 여성의 구매금액에 차이가 없을 것이다

대립가설: 남성과 여성의 구매금액에 차이가 있을 것이다

 

t-test 사용

import scipy.stats as stats
t, pvalue=stats.ttest_ind(표본1,표본2)

# tscore(-0.87691521): 검정통계량/양의 값으로 크면 클수록 차이가 크다. 작을수록 차이가 없다는 것 

음수이든, 양수이든 차이가 크다.

# p-value(0.38058674): 우연히 일어날 확률 

# 유의수준: 0.05, 신뢰도: 95%

 

>> p-value 값은 0.05보다 크므로, 인과관계가 없다 / 대립가설 기각

>> 남성과 여성의 구매금액에 차이가 없다.

 

 

 

가설설정 2

귀무가설: 성별과 구매 size 에는 관련성이 없을 것이다

대립가설: 성별과 구매 size 에는 관련성이 있을 것이다

 

카이제곱 검정

import scipy.stats as stats
# 라이브러리의 crosstab 함수를 사용해 범주형 자료의 빈도표 만들기
stats.chi2_contingency(observed=자료)

 

crosstab 함수: 빈도비교

 

# 카이제곱 검정통계량(6.615107840598039)

# p-value(0.08523181331915772)

>> p-value 값은 0.05보다 크므로, 인과관계가 없다 / 대립가설 기각

>> 성별과 구매 size 에는 관련성이 없을 것이다.

# 자유도(3)

 

* 자유도와 유의수준을 통해 귀무가설 기각 여부를  판단하기도 한다.

자유도와 유의수준 표의 숫자를 넘지 못한다면 귀무가설 채택

자유도 계산식?

(변수1 그룹의 수 -1) * (변수2 그룹의 수 -1)

 

* p 밸류가 절대적인 것은 아니다.

 

 

 

 

 

 


  • Next

1. SQL 코드카타 1문제

2. 머신러닝 심화 수강

3. 대시보드

'TIL' 카테고리의 다른 글

2024-06-10  (0) 2024.06.10
2024-06-07  (0) 2024.06.07
2024-06-04  (0) 2024.06.04
2024-06-03  (1) 2024.06.03
2024-06-02  (0) 2024.06.02