기술통계
: 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약 하는 것
① 히스토그램
: 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 표현한 그래프
: 데이터의 분포를 살펴보거나, 데이터의 모양이나 특성을 파악
: 연속형으로 표시된 데이터를 표현할 경우 임의로 순서변경을 할 수 없고 막대 사이의 간격이 없다.
: ex. 키, 몸무게, 성적 등
② 막대그래프
: 범주형으로 구분된 데이터를 표현할 경우 범주의 순서를 의도에 따라 바꿀 수 있다.
: ex. 직업,종교 등
③ 줄기-잎 그림
: 데이터를 줄기와 잎의 모양으로 그린 그림
④ 상자그림(상자수염그림, box plot)
: 다섯 숫자 요약을 통해 그림으로 표현한 것 (사분위수)
인과관계의 이해
종속변수(반응변수, y)
: 다른 변수의 영향을 받는 변수
: 어떤 실험이나 조사에서 변화의 결과로 나타나는 변수
독립변수(설명변수, x)
: 다른 변수에 영향을 주는 변수
: 종속변수의 값을 설명하거나 예측하는 데 사용, 종속변수의 원인이 되는 변수
산점도
: 두 변수 간의 관계를 시각적으로 나타내는 그래픽 표현 방법 중 하나
산점도에서 확인할 사항
① 두 변수 아이의 선형관계(직선)가 성립하는가?
② 두 변수 사이의 함수관계(직선 또는 곡선)가 성립하는가?
③ 이상값이 존재하는가?
④ 몇 개의 집단으로 구분(층별) 되는가?
t-검정
: 두 집단 간 평균의 차이가 유의미한가?
: 평균의 차이가 크면 클 수록 t-value 가 커진다.
이 (독립) 표본 t-검정
: 두개의 다른 그룹을 가지고 평균을 구하고 싶을 때
: 두 그룹의 분산이 같음을 의미하는 등분산성을 만족해야 하므로 이 표본 t-검정을 수행하기 전에 등분산검정(F검정)을 먼저 수행 해야 한다.
대응 표본 t-검정
: 하나의 집단에서 전과 후의 차이를 보고 싶을때
ex. 약물을 투입했을때, 하지 않았을 때
일 표본 t-검정
: 한 집단의 평균이 특정한 하나의 값과 차이가 있는지 비교
: 특정 가설을 확인하거나 평균이 기대값과 이치하는지 여부를 평가할 때 사용
* 단측 t-검정
: 한 방향만 볼 때
: 모수 비교를 할 때 크다와 작다 같이 어떤 특정 방향을 가리킬 때 유용
: 이 표본 단측 > 그룹 사이에 대소가 있는 경우
* 양측 t-검정
: 양 방향을 다 보아야할 때
: 모수 비교를 할 때 ~이다 혹은 ~이 아니다 같이 방향성이 없는 경우에 수행
: 이 표본 양측 > 그룹 사이에 대소가 없는 경우
분산분석(Analysis Of Variance, ANOVA)
* 분산이 0 이다 > 모든 데이터가 없거나 같은 것, 모든 데이터가 일정하다
: 그룹 간의 평균차이를 비교하는 검정 방법
: 일반적으로 세 개 이상의 그룹 간의 평균 차이를 비교하는 데에 쓰인다.
: F-value = 집단 간 분산 ÷ 집단 내 분산
* 평균이 비슷하다 > 분산이 작다
평균이 다르다 > 분산이 크다
분산분석의 단점
: 귀무가설을 기각할 경우 어느 집단 간 평균이 같은지, 혹은 어느 집단 간의 평균이 얼마나 다른지 알 수 없다
: 분산분석의 귀무가설을 기각했을 경우 사후검정방법으로 Scheffe, Tukey, Duncan, Fisher’s LSD, Dunnett, Bonferroni 등의 방법을 사용한다.
분산분석을 수행하기 위한 3가지 가정
① 등분산성: 모든 그룹에서의 오차의 분산이 동일해야 한다.
* 집단 간의 분산이 작아야 아노바를 수행할 수 있다.
* 집단 내의 분산이 작아야 집단이라고 부를 수 있다.
② 독립성: 각 그룹 내의 관측치들은 서로 독립적이어야 한다.
③ 정규성: 각 그룹 내의 오차가 정규분포를 따라야 한다.
* 분석 수행 순서
: 아노바 > t-검정
* f- value 는 일반적으로 자유도 1기준, 1을 기준으로 보면 됨
일원분산분석
: 독립변수가 한가지 일때
이원분산분석
: 독립변수가 두개 이상 일때
교차분석
: 범주형 변수 간의 관계를 파악하고자 할 때 사용되는 통계 분석 기법
: 카이제곱 검정통계량을 이용
: 적합도 검정, 독립성 검정, 동질성 검정에 사용
: 교차분석에 사용되는 도구로는 교차분석표가 있다.
적합도 검정
: 실험 결과 얻어진 관측값이 예상값과 일치하는지를 검정하는 방법
: 주로 범주형 데이터에 적용
독립성 검정
: 두 변수 간의 관계가 독립적인지 여부를 테스트하는 방법
: 주로 교차표를 사용하여 두 범주형 변수 간의 독립성을 확인한다
: 카이제곱 검정이 일반적으로 사용
: 카이제곱 검정에 의한 독립성 검정 결과는 두 범주형 변수 간에 관계가 있는지 없는지만 나타내며
두 변수 간 관계의 강도를 말해주지는 않는다.
동질성 검정
: 두 개 이상의 모집단이 동일한 분포를 가지고 있는지를 검정
: 두 개 이상의 돌깁적인 표본 집단이 동일한 모집단에서 추출되었는지를 파악
: 카이제곱 동질성 검정을 주로 사용
상관분석
: 두 변수 간의 관계의 정도를 알아보기 위한 방법
: 상관계수로 두 변수 간의 선형적 관계를 나타낸다
: 일반적으로 -1 에서 1 사이의 값을 가지고, +1에 가까울수록 양의 상관관계, -1 에 가까울 수록 음의 상관관계가 있다
: 0 에 가까울 수록 상관관계가 존재하지 않는다.
상관분석의 유형
① 피어슨 상관분석(선형적 상관관계)
: 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식
: 두 변수가 모두 정규분포를 따른다는 가정이 필요
: 연속형 변수, 정규성 가정
: 피어슨 γ (적률상관계수)
② 스피어만 상관분석(비선형적 상관관계)
: 서열척도인 두 변수들의 상관관계 측정 방식
: 순서형 변수, 비모수적 방법
: 순위를 기준으로 상관관계 측정
: 순위상관계수 (ρ,로우)
'ADsP 내용 정리' 카테고리의 다른 글
통계분석 - 다변량 분석 (0) | 2024.04.09 |
---|---|
통계분석 - 회귀분석 (1) | 2024.04.09 |
통계분석 - 통계개요 (1) | 2024.04.01 |
데이터 전처리 (0) | 2024.04.01 |
R을 활용한 분석 실습 (0) | 2024.04.01 |