ADsP 내용 정리

데이터 분석 기획

여연찌 2024. 4. 1. 11:42

< 분석기획 >

 

분석 대상과 방법에 따른 4가지 분석 주제

 

분석대상 분석방법 주제
알고 알아 최적화(Optimization)
알고 몰라 해결책(Solution)
모르고 알아 통찰력(Insight)
모르고 몰라 발견(Discovery)

 

 

목표 시점별 분석 기획

과제 중심적: 빠르게

장기적 마스터플랜: 지속적

 

분석 기획 시 고려사항

1. 가용 데이터 고려

: 데이터가 확보될 수 있는지

2. 적절한 활용방안과 유스케이스의 탐색

: 기존의 방법이 있는지 탐색

3. 장애요소에 대한 사전 계획 수립

: 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립

 

 

 

분석 방법론

: 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물

 

기업의 합리적인 의사결정을 가로막는 방해요소 3가지

1. 고정관념

2. 편향된 생각

3. 프레이밍 효과

: 동일한 사건을 두고 각자의 판단이 달라질 수 있는 현상

 

 

분석방법론의 생성과정

 

 

분석 방법론이 적용되는 모델

1. 폭포수 모델(Waterfall Model)

: 단계를 거쳐 순차적으로 진행

: 이전 단계가 완료되어야 다음 단계로 진행 가능

: 문제발견시 바로 이전 단계로 돌아감

 

2.프로토타입 모델(Prototype Model)

: 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해서 접근

: 고객의 요구를 완전히 이해하지 못하는 경우

: 일부분을 먼저 개발해소 제공

 

3. 나선형 모델(Spiral Model)

: 반복을 통해 점진적으로 개발

: 사용자의 요구보다 위험요소를 사전에 제거

: 처음 시도하는 프로젝트에는 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도 상승

 

4. 계층적 프로세스 모델

: 일반적인 분석 방법론

:  보통 5단계로 구성되어 있음

단계> 태스크> 스텝

한개의 단계> 여러개의 태스크

한개의 태스크> 여러개의 스텝

 

KDD 분석 방법론

통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

 

KDD 분석 방법론 프로세스

 

 ① 데이터셋 선택

: 분석에 필요한 데이터를 선택(타깃 데이터 생성)

: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수

② 데이터전처리

:잡음(Noise), 이상치(Outlier), 결측치(Missing value)를 파악하여 제거하거나 의미있는 데이터로 재가공

* 이상치: 일반적인 범위를 벗어난 데이터

* 결측치: 비어있는 value

③ 데이터 변환

: 분석 목적에 맞게 데이터의 차원을 축소

: 프로세스 진행을 위해 데이터셋 변경

④ 데이터 마이닝

: 분석 목적에 맞는 데이터마이닝을 실행

: 필요에 따라 

⑤ 해석과 평가

" 결과에 대한 해석과 평가

 

CRISP-DM 분석 방법론

단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 완성도를 높이게 되어 있다

KDD 분석 방법론 CRISP-DM 분석 방법론의 차이점

1. 이해가 들어감

2. 일방향이 아니라 단계 간 피드백

3. 단계 간 피드백이 언제 발생되는가?

[업무이해↔ 데이터이해] [데이터 준비↔모델링]

 

① 업무이해

: 업무 목적 파악, 상황파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립

② 데이터 이해

: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질확인

③ 데이터준비

: 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

④ 모델링

: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

⑤ 평가

: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

⑥ 전개

: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

빅데이터 분석 방법론 5단계 플로우

 

① 분석 기획

: 비즈니스 도메인

② 데이터 준비

: 수집 및 정합성

③데이터분석

: 모델링 및 모델 평가

④ 시스템 구현

: 반드시가 아니라 필요시 한다

⑤ 평가 및 전개

: 프로젝트 평가 및 보고

 

 

단계별 수행 프로세스

① 1단계 분석기획 Planning

태스크: 비즈니스 이해 및 범위 설정

- 비즈니스 이해

- 프로젝트 범위 설정 (프로젝트 범위 정의서 SOW)

* SOW: 프로젝트의 전체적인 방향성을 정의해놓은 것

태스크: 프로젝트 정의 및 계획 수립

- 계획 수립 (프로젝트 수행 계획서 WBS)

태스크: 프로젝트 위험계획 수립

- 데이터 분석 위험 식별(위험의 우선순위 설정)

- 위험 대응 계획 수립(예상되는 위험에 대해 회피(Avoid), 전이(Transfer),완화(Mitigate),수용(Accept) 으로 구분하여 위험관리 계획서를 작성한다.)

 

 

② 2단계 데이터준비 Preparing

태스크: 필요 데이터 정의

- 분석에 필요한 데이터를 정의

태스크: 데이터 스토어 설계

- 데이터를 모아서 어떻게 저장할 것인지

- RDB, NOSQL, 하둡

* 하둡: 대용량 데이터를 처리하는 분산 처리

태스크: 데이터 수집 및 정합성 점검

 

 

③ 3단계 데이터분석 Analyzing

태스크: 분석용 데이터 준비

- 데이터를 사용, 분석

태스크: 텍스트 분석

태스크: 탐색적 분석

- 탐색적 데이터 분석(EDA)

* EDA: 데이터의 전체적인 특징을 파악

- 데이터 시각화

태스크: 모델링

- 데이터 분할(과적합을 막고, 일반화를 위해서 훈련용 데이터와 테스트용 데이터로 모델 검증)

- 데이터 모델링

- 모델 적용 및 운영 방안(알고리즘 설명서)

태스크: 모델 평가 및 검증

- 모델을 평가하는 것

 

 

④ 4단계 시스템 구현 Developing

태스크: 설계 및 구현

- 시스템 구현(설계된 모델을 구현)

태스크: 시스템 테스트 및 운영

 

 

⑤ 5단계 평가 및 전개 

태스크: 모델 발전 계획 수립

태스크: 프로젝트 평가 및 보고

- 프로젝트 종료(최종보고서 작성)

 

 

 

분석 과제 발굴

하향식

: 문제가 주어져 잇는 상태에서 답을 구함

: 분석 대상 알고 있음

상향식

: 데이터를 모은 후 문제를 찾음

: 분석 대상 모름

 

* 실제 의사결정시에는 혼용해서 사용

 

 

 

하향식 접근법

1단계 문제 탐색 단계

: 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요

 

① 비즈니스 모델 기반 문제 탐색

: 업무, 제품, 고객 단위로 문제를 발굴하고 규제와 감사영역과 지원 인프라로 이루어짐

② 분석 기회 발굴의 범위 확장

: 거시적 관점, 경쟁자확대, 시장니즈 탐색, 역량의 재해석

 

③ 외부 참조 모델 기반 문제 탐색 및 유스케이스 정의

: 유사, 동종 업계의 탐색을 통해 분석 유스케이스로 정의한다

 

2단계 문제 정의 단계

: 비즈니스 문제를 데이터의 문제로 변환

 

3단계 해결 방안 탐색 단계

 

 

4단계 타당성 검토 단계

 

 

 

상향식 접근법

 

디자인사고(Design Thinking) 

: 디자인 사고의 프로세스

- 공감 > 정의 > 아이디어 > 프로토타입, 시나리오 > 테스트

: 스탠퍼드대학 d.school 

: 감정이입을 강조

 

지도학습

: 정답이 있는 데이터를활용하여 분석 모델을 학습

비지도학습

: 정답을 알려주지 않고 학습

: 일반적으로 상향식 접근방식의 데이터 분석은 비지도학습에 의해 수행

 

* 지도학습과 비지도학습은 머신러닝에서 사용하는 대표적인 방법

 

 

프로토타이핑 접근법

: 일단 분석을 시도해보고 결과를 확인하며 반복적으로 개선

: 문제를 정의할 수 없는 경우 상향식접근법 중 하나인 프로토타이핑 접근법이 좋은 대안이 될 수 있다

 

 

 

분석 과제의 5가지 주요 속성

: 데이터의 양, 데이터 복잡도, 분석의 속도, 분석 복잡도, 정확도 & 정밀도

정확도 & 정밀도

- 정확도: 모델과 실제 값 간의 차이가 적다

- 정밀도: 반복적으로 사용했을때 모델 값들의 편차 수준

- 활용적인 측면(정확도), 안정성 측면(정밀도)

 

분석 과제 관리방안

: 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통으로 구성

시간

: Time Boxing 기법으로 일정관리를 진행하는 것(철저한 통제 X)

 

* Time Boxing

현재 할당된 작업이 주어진 시간 동안 완수되지 못하더라도 다음 작업으로 넘어가는 기법

 

 

 


빅데이터 분석 방법론의 단계별 프로세스

* 모델 발전 계획 수립 > 평가 및 전개 단계

* 모델 평가 및 검증, 모델링, 텍스트 분석 > 데이터 분석 단계

 

CRISP-DM 방법론의 준비단계

* 데이터 마이닝 목표 설정 > 1단계 업무 이해

 

분석 프로젝트 관리 방안

: 분석 범위가 빈번하게 변경될 수 있으므로 Time Boxing 기법과 같은 방법으로 자유롭게 일정관리를 진행

: 프로젝트 결과로 얻는 산출물은 크게 보고서와 시스템 두 가지 유형이 있다

'ADsP 내용 정리' 카테고리의 다른 글

데이터 전처리  (0) 2024.04.01
R을 활용한 분석 실습  (0) 2024.04.01
분석 마스터플랜  (0) 2024.04.01
데이터의 가치와 미래  (0) 2024.04.01
데이터와 정보  (0) 2024.04.01