ADsP 내용 정리

통계분석 - 통계개요

여연찌 2024. 4. 1. 11:48

통계

: 분석하고자 하는 특정집단을 대상의 자료 및 요약된 형태의 표현

: ex. 일기예보, 물가,실업률 등

 

모집단

: 보고싶은 대상(원하는 정보) 전체의 데이터가 모인 집단

- 유한 모집단: 유한한 개체

- 무한 모집단: 무한한 개체

 

통계 자료 획득 방법

전수조사: 대상 집단 모두를 조사(ex. 인구주택총조사)

표본조사: 모집단을 대표할 수 있는 표본을 추출하여 조사

 

표본추출 방법

① 단순 랜덤 추출법(simple random sampling)

: 랜덤하게 n개를 뽑아 그 원소를 표본으로 추출

: ex. 사다리 타기, 제비뽑기

 

② 계통 추출법(systematic sampling)

: 모집단을 일정한 갯수의 구간으로 나누고 각각의 구간에서 1개씩 추출

 

③ 집락(군집) 추출법(cluster sampling)

: 몇개의 집락(cluster)으로 구성되어있는 모집단에서 이용

: 집략끼리 동질적인 부분이 있으므로 일부 집락을 랜덤으로 선택

 

④ 층화 추출법(statified sampling)

이질적인 모집단의 원소들을 유사한 것끼리 층으로 나눈 후 랜덤하게 추출

- 불비례 

: 전체를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출

- 비례

: 전체에서 추출

 

 

측정방법

① 질적척도: 범주형, 숫자 크기 차이가 계산되지 않는 척도

- 명목척도: 어떤 집단에 속하는지 (ex. 성별,출생지, 대학교)

- 순서척도(서열척도): 서열관계를 관측 (ex. 선호도, 신용도, 학년, 순위)

 

② 양적척도: 수치형, 숫자 크기 차이를 계산할 수 있는 척도

- 구간척도(등간척도): 속성의 양을 측정, 각각의 간격이 의미가 있는 자료 (ex. 온도,지수)

- 비율척도: 절대적 기준인 0값이 존재하는지, 연산이 가능한지 (ex. 무게, 나이, 연간소득, 시간, 거리)

 

*데이터의 척도에 따라서 분석 방법을 달리하기 위해 측정방법을 다르게 한다.

 

 

기술통계와 추리통계

① 기술통계(Descriptive Statistic)

: 데이터에서 특징을 뽑아내기 위한 기술

: 데이터를 가지고 특징을 표현 하는 것

: 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계

: 숫자나 그림으로 표현한다.

: 최솟값, 최댓값, 평균, 표준편차, 분산, 중앙값 등

 

② 추리통계/통계적 추론(Inference Statistics)

: 통계학과 확률이론의 혼합으로 미래의 일에 대해 추측하는 것

: 부분으로 > 전체를 추측

: 기술을 적용해서 데이터 파악후 추리를 이용해서 미래를 추측

: 수집된 자료를 이용해 모집단에 대해 의사결정을 하는 것

- 모수추정: 표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정

- 가설검증:모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악

- 예측: 향후 발생할 수 있는 사건 예측, 회귀분석, 시계열분석 등

 

 

기초통계용어

- 평균(기댓값) = (모)평균: 산술평균을 의미, 데이터를 요약할 때 가장 대표적으로 사용되는 값

- 표본평균: (모)평균과는 다름

- 최빈값: 가장 자주 등장하는 값, 빈번하게 나타나는 값

- 분산 : 데이터가 평균으로부터 얼마나 떨어졌는지, 흩어진 정도를 나타내는 것

- 표춘편차: 분산의 양의 제곱근, 얼마나 분산되어있는지 평균적인 정도를 측정

- 첨도: 평균에 얼마나 많이 밀집해 있는지

- 왜도: 확률분포의 비대칭도를 측정

- 상관분석: 두 변수가 함께 움직이는 방향과 그 크기에 대한것, 공분산과 상관계수를 활용

- 공분산: 두 변수 간의 상관 관계를 나타내는 통걔적인 측도, 함께 어떻게 변하는지

- 상관계수: 두 변수 간의 선형 관계의 강도와 방향, 두 변수 간의 상관 정도를 -1에서 1까지의 숫자로 표현

 

 

 

확률과 확률분포

 

확률

: 특정사건이 일어날 가능성

: 사건이란 표본공간의 부분집합을 말한다

- 표본공간: 특정사건이 일어날 모든 결과들의 집합

 

조건부 확률

: 특정 사건 A가 발생했을 때 사건 B가 발생할 확률

: ~ 했을 때 어떤 확률

 

독립사건과 배반사건

① 독립사건

: 두 사건이 영향을 미치지 않고, 한 사건의 발생 여부가 아무런 영향을 제공하지 않을 때

: 한 사건이 발생했건, 하지않았건 다른 사건에 영향을 끼치지 않는다

: A사건과 B 사건은 서로 영향을 끼치지 않는다

 

② 배반사건

: 두 사건 A와 B가 동시에 발생할 수 없는 경우

: 한 사건이 일어나면 다른사건은 절대 일어날 수 없을 때

 

 

확률변수와 확률분포

 

* 표본공간 >(확률변수를 사용)> 수치적값 > (확률함수를 사용)> 확률

 

확률변수

: 어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과를 수치적 값으로 표현하는 변수

: 표본공간에 있는 결과들을 수치적 값(실수)으로 만드는 함수

 

* 표본공간: 실험이나 상황에서 발생할 수 있는 각각의 결과

 

확률분포

: 확률변수가 특정 값들을 가질 확률을 나타내는 함수 또는 규칙

: 확률이 만들어지는 '확률함수'가 그리는 패턴

 

* 확률함수

: 확률변수가 만들어낸 값들의 가능성(확률)을 알고싶을 때

: 확률변수가 만들어낸 값들을 확률(0~1)로 바꿔주는 것

 

* 수치적값

: 이산형과 연속형으로 나눌 수 있음

 

- 이산형

: 하나씩 떨어져 있는 값, 확률질량

: 주사위의 1~6 까지의 값에서 1.5가 나올 수 없는 것처럼 하나씩 떨어져 있음

> 이산확률분포: 확률질량함수가 그리는 패턴

 

- 연속형

: 여러개의 숫자가 있는 값, 확률 밀도

: 1시에서 2시사이의 시간에 몇분 몇초 등 여러개의 숫자가 있는 것

> 연속확률분호: 확률밀도함수가 그리는 패턴

 

 

 

이산확률분포(∑)

: 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우

: 확률변수가 표현하는 값이 이산형인 것

: 확률질량함수

 

① 베르누이분포(Bernoulli Distribution)

: 두가지 결과 중 하나가 어떤 확률로 일어날지를 나타내는 확률 분포

: 확률 변수가 0 또는 1 두개의 결과만 갖는 분포

: 베르누이 확률 함수로부터 생성된 패턴

 

* 베르누이확률함수: 확률변수가 0 또는 1 두개의 결과만 나오는 함수

 

② 이항분포(Binomial Distribution)

: 베르누이 시행(성공 또는 실패) 을 n번 했을때 k번 성공할 확률의 분포

: ex. 동전 3번 던져서 앞면이 2번 나올 확률 

 

③ 기하분포()

:  첫번째 성공이 일어나기 위해 필요한 시행 횟수

 

④다항분포

: n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 분포

 

⑤ 포아송분포

: 단위,시간,공간에서 특정사건의 발생 횟수에 대한 확률이 갖는 분포

 

 

연속확률분포 (∫)

: 특정구간 전체에 해당 하는 확률변수

: 확률밀도함수

 

① 균일 분포(일양분포, Uniform Distribution)

: 모두 균일한 확률을 가지는 확률 분포

: 어떠한 특정구간이 주어져도 확률이 일정한 것

 

② 정규분포(Normal Distribution)

* 일반적인 데이터분포에서 가장 대표적인 것(자연현상에서 가장 많이 볼수 있음)

: 평균이 μ(뮤) 이고, 표준편차가 σ 인 분포

: 표준편차가 클 경우 퍼져보이는 그래프가 나타난다

: 가운데 평균이 있고 양쪽이 대칭인 분포(종 모양)

* 분석하기 쉬움

* 정규분포끼리 비교를 하기 위해 표준정규분포를 바꾼다.

* 표준정규분포: 정규분포의 특징은 그대로 가지고 있고 평균이 0이고 분산이 1인 특징을 가지고 있음

 

③ t-분포(t-Distribution)

: 통계적으로 표본으로부터 모집단의 평균에 대한 추정을 할 때 사용되는 분포

: 적은 표본으로부터 얻은 통계량의 분포를 더 정확하게 나타낸다.

: 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.

: 정규분포보다 눌린 형태이지만 표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.

* 작은 샘플의 경우에는 정규분포보다 눌린 형태의 분포를 가진다.

* 자유도: 서로 독립적인 정보의 수, 독립적인 자료의 개수

* t-value

* 일반적으로 -2 ~ +2

 

④ 카이제곱 분포(Chi-Square Distribution)

: 표준정규분포를 따르는 확률변수들의 제곱을 합한 분포

: 모평균과 모분산을 알려지지 않은 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

* 랜덤한 카이가 정규분포를 따른다고 할 때, 카이의 제곱은 어떤 형태일지

* 카이제곱의 자유도는 몇개의 표준정규분포를 더했는지 선택지이다. 

* 표준정규분포의 분산의 분포

* 제곱을 했기 때문에 양수이며, 기준은 1

 

⑤ F 분포(F-Distribution)

: 두 집단 간 분산의 동일성 검정에 사용되는 분포

: 양의 값만을 갖으며 기준은 1

: 자유도를 2개 가지고 있으며 자유도가 커질 수록 정규분포에 가까워진다

* 집단의 분산을 보는 분산분석에 사용한다.

 

 

추정과 가설검정

 

추정

: 통계적 추론은 추정과 가설검정, 추정은 점추정과 구간추정

* 모수

: 모집단의 확률분포의 특징을 표현하는 값

: ex. 모집단의 평균, 분산, 표준편차, 백분위수

 

점추정

: 모수가 특정한 값일 것 이라고 추정하는 것

: 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것

 

구간추정

: 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것

: 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 한다.

: 신뢰도(신뢰수준) > 90%,95%,99%

- 모분산이 알려져 있는 경우 > σ

- 모분산이 알려져 있지 않은 경우 > S

 

가설검정

: 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

: 귀무가설과 대립가설 중에서 하나를 선택

 

① 귀무가설(null hypothesis)

: 비교하는 값과 차이가 없다, 동일하다 를 기본개념으로 하는 가설

: H0​ 로 나타낸다

: 대립가설과 상반되는 개념

 

② 대립가설(alternative hypothesis)

: 뚜렷한 증거가 있을 때 주장하는 가설

: H1​로 나타낸다.

: 새로운 아이디어 혹은 가설에 해당한다.

 

* 기각하고 싶은 가설을 귀무가설에 넣고 , 대립가설에 주장하고 싶은 가설을 넣는다.

 

 

1종 오류 

: 빈약한 근거로 사실이 아닌것을 사실이라고 할때

: 귀무가설이 사실인데 귀무가설을 기각하는 오류

 

2종 오류

: 근거가 충분한데 사실이 아니라고 할때

: 귀무가설이 사실이 아닌데도 귀무가설을 채택하는 오류

 

 

* 1종오류를 더 조심해야한다.

 

검정통계량

: 귀무가설의 옳고 그름을 판단할 수 있는 값

 

기각역

: 얻은 데이터가 특정범위에 속할때 귀무가설을 기각할 수 있는 영역

: 귀무가설을 기각하게 될 검정통계량의 영역

: 검정통계량이 기각역 내에 있으면 귀무가설을 기각

: C 로 나타낸다

 

유의수준

: 귀무가설을 기각하게 되는 확률의 크기

: 귀무가설이 옳은데도 이를 기각하는 확률의 크기

: 최대 허용 한계 > 1%(0.01) 와 5%(0.05)

: α​ 로 나타낸다

 

유의확률(p-value)

: 주어진 통계량이 귀무가설을 지지하는 정도를 나타내는 값

: 귀무가설이 참이라고 가정할 때 주어진 데이터보다 더 극단적인 결과를 얻을 확률

 

 

모수적 검정방법

: 모집단의 분포에 대한 가정을 하고 검정통계량가 검정통계량과 검정통계량의 분포를 유도해 검정을 실시

: 분포가 큰지 작은지를 보고 판단하는 것

: 표본평균, 표본분산, 등간척도, 비율척도 등을 이용

: 피어슨 상관계수

 

비모수적 검정방법

: 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 실시하는 검정방법

: 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용

: 관측된 자료의 수가 많지 않거나 서열관계(순서관계)를 나타내는 경우에 이용

: 관측값들의 순위나 두 관측값 차이의 부호 등을 이용

: 명목척도, 서열척도 등을 이용

: 스피어만 순위상관계수

 

 

 


 

 

 

모집단에서 표본을 추출하는 방식

: 단순랜덤, 집락, 계통, 층화

 

표본편의

: 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차

: 확률화에 의해 최소화하거나 없앨 수 있다.

 

카이제곱 분포

: n개의 독립적인 표준정규분포의 제곱의 합으로 얻을 수 있는 분포

: 모집단의 구성을 파악하기 위한 동질성 검정을 위해 사용된다.

 

추정과 가설검정

: 제1종오류와 제2종오류는 서로 반비례 관계로 모두 줄일 수 없다.

'ADsP 내용 정리' 카테고리의 다른 글

통계분석 - 회귀분석  (1) 2024.04.09
통계분석 - 기초통계  (0) 2024.04.08
데이터 전처리  (0) 2024.04.01
R을 활용한 분석 실습  (0) 2024.04.01
분석 마스터플랜  (0) 2024.04.01