ADsP 내용 정리

통계분석 - 기초통계

여연찌 2024. 4. 8. 13:25

기술통계

: 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약 하는 것

① 히스토그램

: 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 표현한 그래프

: 데이터의 분포를 살펴보거나, 데이터의 모양이나 특성을 파악

: 연속형으로 표시된 데이터를 표현할 경우 임의로 순서변경을 할 수 없고 막대 사이의 간격이 없다.

: ex. 키, 몸무게, 성적 등

② 막대그래프

: 범주형으로 구분된 데이터를 표현할 경우 범주의 순서를 의도에 따라 바꿀 수 있다.

: ex. 직업,종교 등

③ 줄기-잎 그림

: 데이터를 줄기와 잎의 모양으로 그린 그림

④ 상자그림(상자수염그림, box plot)

: 다섯 숫자 요약을 통해 그림으로 표현한 것 (사분위수)

 

인과관계의 이해

종속변수(반응변수, y)

: 다른 변수의 영향을 받는 변수

: 어떤 실험이나 조사에서 변화의 결과로 나타나는 변수

독립변수(설명변수, x)

: 다른 변수에 영향을 주는 변수

: 종속변수의 값을 설명하거나 예측하는 데 사용, 종속변수의 원인이 되는 변수

산점도

: 두 변수 간의 관계를 시각적으로 나타내는 그래픽 표현 방법 중 하나

산점도에서 확인할 사항

① 두 변수 아이의 선형관계(직선)가 성립하는가?

② 두 변수 사이의 함수관계(직선 또는 곡선)가 성립하는가?

③ 이상값이 존재하는가?

④ 몇 개의 집단으로 구분(층별) 되는가?

 

 

t-검정

: 두 집단 간 평균의 차이가 유의미한가?

: 평균의 차이가 크면 클 수록 t-value 가 커진다.

 

이 (독립) 표본 t-검정

: 두개의 다른 그룹을 가지고 평균을 구하고 싶을 때

: 두 그룹의 분산이 같음을 의미하는 등분산성을 만족해야 하므로 이 표본 t-검정을 수행하기 전에 등분산검정(F검정)을 먼저 수행 해야 한다.

 

대응 표본 t-검정

: 하나의 집단에서 전과 후의 차이를 보고 싶을때

ex. 약물을 투입했을때, 하지 않았을 때

 

일 표본 t-검정

: 한 집단의 평균이 특정한 하나의 값과 차이가 있는지 비교

: 특정 가설을 확인하거나 평균이 기대값과 이치하는지 여부를 평가할 때 사용

 

* 단측 t-검정

: 한 방향만 볼 때

: 모수 비교를 할 때 크다와 작다 같이 어떤 특정 방향을 가리킬 때 유용

: 이 표본 단측 > 그룹 사이에 대소가 있는 경우

* 양측 t-검정

: 양 방향을 다 보아야할 때

: 모수 비교를 할 때 ~이다 혹은 ~이 아니다 같이 방향성이 없는 경우에 수행

: 이 표본 양측 > 그룹 사이에 대소가 없는 경우

 

 

분산분석(Analysis Of Variance, ANOVA)

* 분산이 0 이다 > 모든 데이터가 없거나 같은 것, 모든 데이터가 일정하다

: 그룹 간의 평균차이를 비교하는 검정 방법

: 일반적으로 세 개 이상의 그룹 간의 평균 차이를 비교하는 데에 쓰인다.

: F-value = 집단 간 분산 ÷ 집단 내 분산

 

* 평균이 비슷하다 > 분산이 작다

   평균이 다르다 > 분산이 크다

 

분산분석의 단점

: 귀무가설을 기각할 경우 어느 집단 간 평균이 같은지, 혹은 어느 집단 간의 평균이 얼마나 다른지 알 수 없다

: 분산분석의 귀무가설을 기각했을 경우 사후검정방법으로 Scheffe, Tukey, Duncan, Fisher’s LSD, Dunnett, Bonferroni 등의 방법을 사용한다.

 

분산분석을 수행하기 위한 3가지 가정

① 등분산성: 모든 그룹에서의 오차의 분산이 동일해야 한다.

* 집단 간의 분산이 작아야 아노바를 수행할 수 있다.

* 집단 내의 분산이 작아야 집단이라고 부를 수 있다.

② 독립성: 각 그룹 내의 관측치들은 서로 독립적이어야 한다.

③ 정규성: 각 그룹 내의 오차가 정규분포를 따라야 한다.

 

* 분석 수행 순서

: 아노바 > t-검정

 

* f- value 는 일반적으로 자유도 1기준, 1을 기준으로 보면 됨

 

일원분산분석

: 독립변수가 한가지 일때

 

이원분산분석

: 독립변수가 두개 이상 일때

 

교차분석

: 범주형 변수 간의 관계를 파악하고자 할 때 사용되는 통계 분석 기법

: 카이제곱 검정통계량을 이용

: 적합도 검정, 독립성 검정, 동질성 검정에 사용

: 교차분석에 사용되는 도구로는 교차분석표가 있다.

 

적합도 검정

: 실험 결과 얻어진 관측값이 예상값과 일치하는지를 검정하는 방법

: 주로 범주형 데이터에 적용

 

독립성 검정

: 두 변수 간의 관계가 독립적인지 여부를 테스트하는 방법

: 주로 교차표를 사용하여 두 범주형 변수 간의 독립성을 확인한다

: 카이제곱 검정이 일반적으로 사용

: 카이제곱 검정에 의한 독립성 검정 결과는 두 범주형 변수 간에 관계가 있는지 없는지만 나타내며

두 변수 간 관계의 강도를 말해주지는 않는다.

 

동질성 검정

: 두 개 이상의 모집단이 동일한 분포를 가지고 있는지를 검정

: 두 개 이상의 돌깁적인 표본 집단이 동일한 모집단에서 추출되었는지를 파악

: 카이제곱 동질성 검정을 주로 사용

 

 

상관분석

: 두 변수 간의 관계의 정도를 알아보기 위한 방법

: 상관계수로 두 변수 간의 선형적 관계를 나타낸다

: 일반적으로 -1 에서 1 사이의 값을 가지고, +1에 가까울수록 양의 상관관계, -1 에 가까울 수록 음의 상관관계가 있다

: 0 에 가까울 수록 상관관계가 존재하지 않는다.

 

상관분석의 유형

① 피어슨 상관분석(선형적 상관관계)

: 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식

: 두 변수가 모두 정규분포를 따른다는 가정이 필요

: 연속형 변수, 정규성 가정

: 피어슨 γ (적률상관계수)

 

② 스피어만 상관분석(비선형적 상관관계)

: 서열척도인 두 변수들의 상관관계 측정 방식

: 순서형 변수, 비모수적 방법

: 순위를 기준으로 상관관계 측정

: 순위상관계수 (ρ,로우)

'ADsP 내용 정리' 카테고리의 다른 글

통계분석 - 다변량 분석  (0) 2024.04.09
통계분석 - 회귀분석  (1) 2024.04.09
통계분석 - 통계개요  (1) 2024.04.01
데이터 전처리  (0) 2024.04.01
R을 활용한 분석 실습  (0) 2024.04.01