ADsP 내용 정리

데이터 전처리

여연찌 2024. 4. 1. 11:47

데이터마트

: 데이터웨어하우스 보다 작은 단위

: 각각의 목적에 따라서 분리해놓기 위해서 만든다

: R에서 제공하는 다양한 패키지를 활용할 수 있다.

 

데이터전처리

: 데이터를 정제하는 과정과 분석 변수를 처리하는 과정이 포함

: 데이터 정제과정 ( 결측값, 이상값 )

: 분석 변수 처리 과정 ( 변수 선택, 파생변수 생성 등 )

 

요약변수

: 원래데이터로부터 기본적인 통계 자료를 추출한 기본적인 변수

: 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음

: ex. 총 합계, 평균, 횟수

 

파생변수

: 일반적인 통계자료가 아니라 의미(목적)이 부여된 변수

: 주관적일 수 있으므로 논리적 타당성을 갖추는 것이 중요

: ex. 최적 통화 시간, 선호하는 가격대 변수

 

* plyr 패키지

>> 데이터분석에 중요

>> 데이터를 분리하고 처리한 다음, 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공

 

 

데이터탐색

EDA (탐색적 데이터 분석)

: 데이터가 어떻게 생겼는지 살펴보는 것

: 데이터를 분석하기 전 데이터의 대략적인 특성을 파악

 

* 결측값(Missing Data): 데이터셋에서 특정한 값이 없는 상태

* 이상값(Outlier): 일반적인 데이터 분포에서 벗어난 값

 

* 자주 사용하는 함수

head/ tail

: 시작 또는 마지막 6개 record 만 조회

summary

: 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수

: 명목값, 데이터 개수

 

결측값(Missing data)

: 존재하지 않는 데이터

: 데이터모델링, 데이터마이닝이 들어가기 전에 처리해줘야 함

: 결측값을 제외하고 처리하는게 적합하나, 의미있는 경우도 있기 때문에 무조건 제외하는 것도 주의해야 함

 

① 결측값 표현법: NA(Not Abailable) ,공백, null, 9999999, -1 등

 

* -1 

: 키의 경우 무조건 0 보다 큰 양수이기 때문에 -1 로 표현 될 경우 결측값이라고 볼 수 있다.

② 결측값 여부 확인 : is.na

③ 결측값 제외: na.rm (해당 값만 제외 여부 결정)

 

결측값 대치 방법

단순 대치법

: 결측치가 존재하는 데이터를 삭제하는 방법

: 결측값이 많은 대량의 데이터인 경우 데이터 손실 발생 우려

: 함수 >> complete.cases

 

평균 대치법

: 데이터의 평균으로 결측값을 대치 하는 방법

 

단순 확률 대치법

: K 군집( K-Nearest Neighbor ) = KNN

: 근처의 값을 참조해서 대치하는 것

 

다중 대치법

: 여러 번의 대치를 통해 가상의 자료를 만드는 방법

 

 

이상값(Outlier)

: 일반적으로 보이는 범위를 한참 벗어난 데이터

: 이상치인지 아닌지 파악해야한다

 

①이상치 사용 분야: 사기 탐지, 의료, 네트워크 침입탐지 등 부정사용 방지

② 이상값 판단 방법

ESD(Extreme Studentized, Deviation)

: 전체 데이터의 0.3 퍼센트를 이상값으로 구분

사분위수

: 데이터를 쭉 놓고 봤을 때 데이터의 특성을 파악해서 이상값을 판단하는 방법

: 측정값을 최소에서 최대까지 오름차순으로 정렬한 자료를 4등분 했을 때 각 위치에 해당하는 값

 

 

IQR(Interquartile Range)

: 사분범위라고 부르며, 1분위 수(Q1)부터 3분위 수(Q3)까지 범위를 의미

 

중앙값(medial): 2분위 수(Q2)

최솟값: Q1 으로부터 1.5 떨어진 범위

최대값: Q3 으로부터 1.5 떨어진 범위

 

최솟값과 최대값 범위를 벗어나는 경우 이상값으로 간주

: Q1 - 1.5 X IQR (하한 최솟값) 보다 작거나 Q3 + 1.5 X IQR (상한 최댓값)보다 큰 값

 

 

 


 

 

 

reshape 패키지

: 데이터를 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수

: 데이터 재졍렬을 위한 기법의 하나, 원데이터의 정보들을 그대로 유지한다

: 유연한 데이터 재구성 및 총계처리가 가능하도록 도와주는 패키지

 

이상값

: 평균으로부터 3표준편차 만큼 떨어진 값

: 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인가능

'ADsP 내용 정리' 카테고리의 다른 글

통계분석 - 기초통계  (0) 2024.04.08
통계분석 - 통계개요  (1) 2024.04.01
R을 활용한 분석 실습  (0) 2024.04.01
분석 마스터플랜  (0) 2024.04.01
데이터 분석 기획  (0) 2024.04.01