더그래니의 정의 3V
- 데이터의 양(Volume), 다양성(Variety), 속도(Velocity)
+ 4V
- 가치(Value) 또는 정확성(Veracity)
빅데이터 출현 배경
* 양질전환법칙
- 데이터의 양이 커지면 질이 좋아진다.
*기술발전
- 저장기술의 발전과 가격하락
- 클라우드 컴퓨팅 보편화와 분산처리 기술
* 구글의 Ngram Viewer
- 많은 양의 책을 Text 형태로 만드는 과정
* 후> 전> 양> 상
빅데이터 가치 산정이 어려운 이유
데이터 활용 방식
: 데이터 활용방식이 다양해지다보니 가치 산정이 어려워졌음
새로운 가치 창출
: 기존에 없던 가치가 나타날 수 있음
분석 기술의 발전
: 지금은 가치가 없더라도 새로운 분석 기법이 등장할 경우 가치 산정이 될 가능성이 있음
미래의 빅데이터 활용에 필요한 3요소
- 데이터: 모든 것을 데이터화
- 기술: 알고리즘, 인공지능
- 인력: 데이터 사이언티스트, 알고리즈미스트
빅데이터 활용 기본 테크닉 7가지
1. 연관규칙 학습
- 변수들 간에 상관관계가 있는지 찾아내는 방법
- ex. 우유 구매자가 기저귀를 더 많이 구매하는가?
2. 유형분석
- 범주를 찾아내는 방법
- ex. 문서를 어떻게 분류할 것인가?
3. 유전 알고리즘
- 최적화
- 여러 세대를 반복하며 최적해, 근사해를 찾아나감
- ex. 최적화된 택배 차량 배치
4. 기계학습(머신러닝)
- 학습된 데이터로부터 예측 모형으로 만들어내는 방법
- 딥러닝도 포함
- 넓은 범위
- ex. 질병 진단 예측
* 딥러닝
: 신경망처럼 뻗어나가서 최적화를 찾아냄
: 심층 신경망이라고도 한다.
5. 회귀분석
- 원인과 결과를 분석
- ex. 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
6. 감정분석
- 글을 쓴 사람의 감정을 분석
- 비정형 데이터 마이닝
- ex. 리뷰
7. 소셜 네트워크 분석
- 사회관계망 분석
- 유저 사이의 관계를 분석하여 영향력 있는사람을 찾아낸다
빅데이터의 위기 요인
1. 사생활 침해
: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협
2. 책임 원칙 훼손
- 아직 범죄가 일어나지 않았지만 잠재적 범죄라고 하여 구속하는 등 오판하면 안된다.
- ex. 어떤 사람이 특정한 집단에 속한다는 이유만으로 자신의 신용도와 무관하게 대출이 거절되는 사례
3. 데이터 오용
- 데이터 과신, 잘못된 지표의 사용으로 인사이트를 얻어 비즈니스에 적용할 경우 손실이 발생할 수 있다.
- 과거의 일을 바탕으로 미래를 예측하는 것은 위험할 수 있다.
빅데이터의 통제방안
1. 사생활 침해 통제 방안 > '동의' 에서 '책임' 으로
- 사용하는 사람이 책임을 지는 것
2. 책임 원칙 훼손의 통제 방안 > 결과 기반 책임 원칙고수
- 실제 결과를 보고 난 후 처벌
3. 데이터 오용의 위기오소에 대한 대응책 > 알고리즘 접근권 허용/인증
- 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시
- 알고리즈미스트
빅데이터 활용의 3요소
- 데이터
- 기술
- 인력
개인정보 비식별 기술
비식별 기술 | Before | After |
데이터 마스킹 | 유재석 | 유** |
가명처리 | 유재석 | 개그맨 |
총계처리 | 10점,20점,30점 | 평균 20점 |
데이터값 삭제 | 서울시 강남구 | 서울시 |
데이터 범주화 | 29세 | 20세~30세 |
빅데이터 열풍과 회의론
1. 크기가 아닌 '인사이트'
: 그 데이터로부터 어떤 인사이트(의미있는 정보)를 얻을 수 있는가
: 비즈니스의 가치에 집중
: '비용' 이 아니라 '분석적 방법과 성과에 대한 이해 부족' 이 문제이다.
2. 전략적 인사이트의 중요성
: 하루종일 데이터분석을 많이 한다고 해서 경쟁우위에 도달하지 않음
: 분석을 위한 분석을 하면 안된다.
: 전략적인 '통찰력'을 가지고, 빅데이터를 분석하는 이유가 무엇인지에 집중하여 운영해야 한다.
* 에너지: 트레이딩, 공급/수요 예측
데이터 사이언스의 의미와 역할
: 정형화, 비정형된 Data 도 사용함
: 분석, 시각화, 해커의 사고방식을 종합
: 데이터로부터 의미 있는 정보를 추출
: 비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 한다.
: 소통력이 중요
* 통계학: 정형화된 Data 만 사용
* 데이터 마이닝: 분석만
데이터 사이언스의 핵심 구성요소
: Analytics 분석적 영역
- 수학, 머신러닝, 분석학 등
: IT(Data Management) 데이터 처리와 관련된 IT 영역
- 프로그래밍, 고성능 컴퓨팅, 데이터 웨어하우징 등
: 비즈니스 분석: 비즈니스 컨설팅 영역
- 커뮤니케이션, 스토리텔링, 시각화, 프레젠테이션 등
* Soft Skill 중요
가트너가 제시한 데이터 사이언티스트 요구 역량
: 데이터 관리
: 분석 모델링
: 비즈니스 분석
: 소프트 스킬
가치 패러다임의 변화
① 디지털화: 아날로그의 디지털화
② 연결: 디지털화가 된 정보들이 연결 됨
③ 에이전시: 연결된 정보들을 어떻게 관리할 것인지
* 가치 패러다임: 경제와 산업의 원천에 있는 가치에 대한 패러다임
하드 드라이브의 가격하락
: 데이터 저장 비용의 문제를 해결해준다.
산업별 일차원 분석 어플리케이션
에너지: 트레이딩, 공급/수요 예측
'ADsP 내용 정리' 카테고리의 다른 글
데이터 전처리 (0) | 2024.04.01 |
---|---|
R을 활용한 분석 실습 (0) | 2024.04.01 |
분석 마스터플랜 (0) | 2024.04.01 |
데이터 분석 기획 (0) | 2024.04.01 |
데이터와 정보 (0) | 2024.04.01 |