데이터마트
: 데이터웨어하우스 보다 작은 단위
: 각각의 목적에 따라서 분리해놓기 위해서 만든다
: R에서 제공하는 다양한 패키지를 활용할 수 있다.
데이터전처리
: 데이터를 정제하는 과정과 분석 변수를 처리하는 과정이 포함
: 데이터 정제과정 ( 결측값, 이상값 )
: 분석 변수 처리 과정 ( 변수 선택, 파생변수 생성 등 )
요약변수
: 원래데이터로부터 기본적인 통계 자료를 추출한 기본적인 변수
: 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음
: ex. 총 합계, 평균, 횟수
파생변수
: 일반적인 통계자료가 아니라 의미(목적)이 부여된 변수
: 주관적일 수 있으므로 논리적 타당성을 갖추는 것이 중요
: ex. 최적 통화 시간, 선호하는 가격대 변수
* plyr 패키지
>> 데이터분석에 중요
>> 데이터를 분리하고 처리한 다음, 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공
데이터탐색
EDA (탐색적 데이터 분석)
: 데이터가 어떻게 생겼는지 살펴보는 것
: 데이터를 분석하기 전 데이터의 대략적인 특성을 파악
* 결측값(Missing Data): 데이터셋에서 특정한 값이 없는 상태
* 이상값(Outlier): 일반적인 데이터 분포에서 벗어난 값
* 자주 사용하는 함수
head/ tail
: 시작 또는 마지막 6개 record 만 조회
summary
: 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수
: 명목값, 데이터 개수
결측값(Missing data)
: 존재하지 않는 데이터
: 데이터모델링, 데이터마이닝이 들어가기 전에 처리해줘야 함
: 결측값을 제외하고 처리하는게 적합하나, 의미있는 경우도 있기 때문에 무조건 제외하는 것도 주의해야 함
① 결측값 표현법: NA(Not Abailable) ,공백, null, 9999999, -1 등
* -1
: 키의 경우 무조건 0 보다 큰 양수이기 때문에 -1 로 표현 될 경우 결측값이라고 볼 수 있다.
② 결측값 여부 확인 : is.na
③ 결측값 제외: na.rm (해당 값만 제외 여부 결정)
결측값 대치 방법
단순 대치법
: 결측치가 존재하는 데이터를 삭제하는 방법
: 결측값이 많은 대량의 데이터인 경우 데이터 손실 발생 우려
: 함수 >> complete.cases
평균 대치법
: 데이터의 평균으로 결측값을 대치 하는 방법
단순 확률 대치법
: K 군집( K-Nearest Neighbor ) = KNN
: 근처의 값을 참조해서 대치하는 것
다중 대치법
: 여러 번의 대치를 통해 가상의 자료를 만드는 방법
이상값(Outlier)
: 일반적으로 보이는 범위를 한참 벗어난 데이터
: 이상치인지 아닌지 파악해야한다
①이상치 사용 분야: 사기 탐지, 의료, 네트워크 침입탐지 등 부정사용 방지
② 이상값 판단 방법
ESD(Extreme Studentized, Deviation)
: 전체 데이터의 0.3 퍼센트를 이상값으로 구분
사분위수
: 데이터를 쭉 놓고 봤을 때 데이터의 특성을 파악해서 이상값을 판단하는 방법
: 측정값을 최소에서 최대까지 오름차순으로 정렬한 자료를 4등분 했을 때 각 위치에 해당하는 값
IQR(Interquartile Range)
: 사분범위라고 부르며, 1분위 수(Q1)부터 3분위 수(Q3)까지 범위를 의미
중앙값(medial): 2분위 수(Q2)
최솟값: Q1 으로부터 1.5 떨어진 범위
최대값: Q3 으로부터 1.5 떨어진 범위
최솟값과 최대값 범위를 벗어나는 경우 이상값으로 간주
: Q1 - 1.5 X IQR (하한 최솟값) 보다 작거나 Q3 + 1.5 X IQR (상한 최댓값)보다 큰 값
reshape 패키지
: 데이터를 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수
: 데이터 재졍렬을 위한 기법의 하나, 원데이터의 정보들을 그대로 유지한다
: 유연한 데이터 재구성 및 총계처리가 가능하도록 도와주는 패키지
이상값
: 평균으로부터 3표준편차 만큼 떨어진 값
: 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인가능
'ADsP 내용 정리' 카테고리의 다른 글
통계분석 - 기초통계 (0) | 2024.04.08 |
---|---|
통계분석 - 통계개요 (1) | 2024.04.01 |
R을 활용한 분석 실습 (0) | 2024.04.01 |
분석 마스터플랜 (0) | 2024.04.01 |
데이터 분석 기획 (0) | 2024.04.01 |