< 분석기획 >
분석 대상과 방법에 따른 4가지 분석 주제
분석대상 | 분석방법 | 주제 |
알고 | 알아 | 최적화(Optimization) |
알고 | 몰라 | 해결책(Solution) |
모르고 | 알아 | 통찰력(Insight) |
모르고 | 몰라 | 발견(Discovery) |
목표 시점별 분석 기획
과제 중심적: 빠르게
장기적 마스터플랜: 지속적
분석 기획 시 고려사항
1. 가용 데이터 고려
: 데이터가 확보될 수 있는지
2. 적절한 활용방안과 유스케이스의 탐색
: 기존의 방법이 있는지 탐색
3. 장애요소에 대한 사전 계획 수립
: 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립
분석 방법론
: 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물
기업의 합리적인 의사결정을 가로막는 방해요소 3가지
1. 고정관념
2. 편향된 생각
3. 프레이밍 효과
: 동일한 사건을 두고 각자의 판단이 달라질 수 있는 현상
분석방법론의 생성과정
분석 방법론이 적용되는 모델
1. 폭포수 모델(Waterfall Model)
: 단계를 거쳐 순차적으로 진행
: 이전 단계가 완료되어야 다음 단계로 진행 가능
: 문제발견시 바로 이전 단계로 돌아감
2.프로토타입 모델(Prototype Model)
: 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해서 접근
: 고객의 요구를 완전히 이해하지 못하는 경우
: 일부분을 먼저 개발해소 제공
3. 나선형 모델(Spiral Model)
: 반복을 통해 점진적으로 개발
: 사용자의 요구보다 위험요소를 사전에 제거
: 처음 시도하는 프로젝트에는 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도 상승
4. 계층적 프로세스 모델
: 일반적인 분석 방법론
: 보통 5단계로 구성되어 있음
단계> 태스크> 스텝
한개의 단계> 여러개의 태스크
한개의 태스크> 여러개의 스텝
KDD 분석 방법론
통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
KDD 분석 방법론 프로세스
① 데이터셋 선택
: 분석에 필요한 데이터를 선택(타깃 데이터 생성)
: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
② 데이터전처리
:잡음(Noise), 이상치(Outlier), 결측치(Missing value)를 파악하여 제거하거나 의미있는 데이터로 재가공
* 이상치: 일반적인 범위를 벗어난 데이터
* 결측치: 비어있는 value
③ 데이터 변환
: 분석 목적에 맞게 데이터의 차원을 축소
: 프로세스 진행을 위해 데이터셋 변경
④ 데이터 마이닝
: 분석 목적에 맞는 데이터마이닝을 실행
: 필요에 따라
⑤ 해석과 평가
" 결과에 대한 해석과 평가
CRISP-DM 분석 방법론
단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 완성도를 높이게 되어 있다
KDD 분석 방법론 CRISP-DM 분석 방법론의 차이점
1. 이해가 들어감
2. 일방향이 아니라 단계 간 피드백
3. 단계 간 피드백이 언제 발생되는가?
[업무이해↔ 데이터이해] [데이터 준비↔모델링]
① 업무이해
: 업무 목적 파악, 상황파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립
② 데이터 이해
: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질확인
③ 데이터준비
: 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
④ 모델링
: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
⑤ 평가
: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
⑥ 전개
: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
빅데이터 분석 방법론 5단계 플로우
① 분석 기획
: 비즈니스 도메인
② 데이터 준비
: 수집 및 정합성
③데이터분석
: 모델링 및 모델 평가
④ 시스템 구현
: 반드시가 아니라 필요시 한다
⑤ 평가 및 전개
: 프로젝트 평가 및 보고
단계별 수행 프로세스
① 1단계 분석기획 Planning
태스크: 비즈니스 이해 및 범위 설정
- 비즈니스 이해
- 프로젝트 범위 설정 (프로젝트 범위 정의서 SOW)
* SOW: 프로젝트의 전체적인 방향성을 정의해놓은 것
태스크: 프로젝트 정의 및 계획 수립
- 계획 수립 (프로젝트 수행 계획서 WBS)
태스크: 프로젝트 위험계획 수립
- 데이터 분석 위험 식별(위험의 우선순위 설정)
- 위험 대응 계획 수립(예상되는 위험에 대해 회피(Avoid), 전이(Transfer),완화(Mitigate),수용(Accept) 으로 구분하여 위험관리 계획서를 작성한다.)
② 2단계 데이터준비 Preparing
태스크: 필요 데이터 정의
- 분석에 필요한 데이터를 정의
태스크: 데이터 스토어 설계
- 데이터를 모아서 어떻게 저장할 것인지
- RDB, NOSQL, 하둡
* 하둡: 대용량 데이터를 처리하는 분산 처리
태스크: 데이터 수집 및 정합성 점검
③ 3단계 데이터분석 Analyzing
태스크: 분석용 데이터 준비
- 데이터를 사용, 분석
태스크: 텍스트 분석
태스크: 탐색적 분석
- 탐색적 데이터 분석(EDA)
* EDA: 데이터의 전체적인 특징을 파악
- 데이터 시각화
태스크: 모델링
- 데이터 분할(과적합을 막고, 일반화를 위해서 훈련용 데이터와 테스트용 데이터로 모델 검증)
- 데이터 모델링
- 모델 적용 및 운영 방안(알고리즘 설명서)
태스크: 모델 평가 및 검증
- 모델을 평가하는 것
④ 4단계 시스템 구현 Developing
태스크: 설계 및 구현
- 시스템 구현(설계된 모델을 구현)
태스크: 시스템 테스트 및 운영
⑤ 5단계 평가 및 전개
태스크: 모델 발전 계획 수립
태스크: 프로젝트 평가 및 보고
- 프로젝트 종료(최종보고서 작성)
분석 과제 발굴
하향식
: 문제가 주어져 잇는 상태에서 답을 구함
: 분석 대상 알고 있음
상향식
: 데이터를 모은 후 문제를 찾음
: 분석 대상 모름
* 실제 의사결정시에는 혼용해서 사용
하향식 접근법
1단계 문제 탐색 단계
: 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요
① 비즈니스 모델 기반 문제 탐색
: 업무, 제품, 고객 단위로 문제를 발굴하고 규제와 감사영역과 지원 인프라로 이루어짐
② 분석 기회 발굴의 범위 확장
: 거시적 관점, 경쟁자확대, 시장니즈 탐색, 역량의 재해석
③ 외부 참조 모델 기반 문제 탐색 및 유스케이스 정의
: 유사, 동종 업계의 탐색을 통해 분석 유스케이스로 정의한다
2단계 문제 정의 단계
: 비즈니스 문제를 데이터의 문제로 변환
3단계 해결 방안 탐색 단계
4단계 타당성 검토 단계
상향식 접근법
디자인사고(Design Thinking)
: 디자인 사고의 프로세스
- 공감 > 정의 > 아이디어 > 프로토타입, 시나리오 > 테스트
: 스탠퍼드대학 d.school
: 감정이입을 강조
지도학습
: 정답이 있는 데이터를활용하여 분석 모델을 학습
비지도학습
: 정답을 알려주지 않고 학습
: 일반적으로 상향식 접근방식의 데이터 분석은 비지도학습에 의해 수행
* 지도학습과 비지도학습은 머신러닝에서 사용하는 대표적인 방법
프로토타이핑 접근법
: 일단 분석을 시도해보고 결과를 확인하며 반복적으로 개선
: 문제를 정의할 수 없는 경우 상향식접근법 중 하나인 프로토타이핑 접근법이 좋은 대안이 될 수 있다
분석 과제의 5가지 주요 속성
: 데이터의 양, 데이터 복잡도, 분석의 속도, 분석 복잡도, 정확도 & 정밀도
정확도 & 정밀도
- 정확도: 모델과 실제 값 간의 차이가 적다
- 정밀도: 반복적으로 사용했을때 모델 값들의 편차 수준
- 활용적인 측면(정확도), 안정성 측면(정밀도)
분석 과제 관리방안
: 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통으로 구성
시간
: Time Boxing 기법으로 일정관리를 진행하는 것(철저한 통제 X)
* Time Boxing
현재 할당된 작업이 주어진 시간 동안 완수되지 못하더라도 다음 작업으로 넘어가는 기법
빅데이터 분석 방법론의 단계별 프로세스
* 모델 발전 계획 수립 > 평가 및 전개 단계
* 모델 평가 및 검증, 모델링, 텍스트 분석 > 데이터 분석 단계
CRISP-DM 방법론의 준비단계
* 데이터 마이닝 목표 설정 > 1단계 업무 이해
분석 프로젝트 관리 방안
: 분석 범위가 빈번하게 변경될 수 있으므로 Time Boxing 기법과 같은 방법으로 자유롭게 일정관리를 진행
: 프로젝트 결과로 얻는 산출물은 크게 보고서와 시스템 두 가지 유형이 있다
'ADsP 내용 정리' 카테고리의 다른 글
데이터 전처리 (0) | 2024.04.01 |
---|---|
R을 활용한 분석 실습 (0) | 2024.04.01 |
분석 마스터플랜 (0) | 2024.04.01 |
데이터의 가치와 미래 (0) | 2024.04.01 |
데이터와 정보 (0) | 2024.04.01 |