TIL

2024-03-24 / 1

여연찌 2024. 3. 24. 16:24

더그래니의 정의 3V

- 데이터의 양(Volume), 다양성(Variety), 속도(Velocity)

+ 4V

- 가치(Value) 또는 정확성(Veracity)

 

 

빅데이터 출현 배경

* 양질전환법칙

- 데이터의 양이 커지면 질이 좋아진다.

 

*기술발전

- 저장기술의 발전과 가격하락

- 클라우드 컴퓨팅 보편화와 분산처리 기술

 

 

*  구글의 Ngram Viewer

- 많은 양의 책을 Text 형태로 만드는 과정

 

* 후> 전> 양> 상

 

 

 

빅데이터 가치 산정이 어려운 이유

데이터 활용 방식

: 데이터 활용방식이 다양해지다보니 가치 산정이 어려워졌음

새로운 가치 창출

: 기존에 없던 가치가 나타날 수 있음

분석 기술의 발전

: 지금은 가치가 없더라도 새로운 분석 기법이 등장할 경우 가치 산정이 될 가능성이 있음

 

 

 

미래의 빅데이터 활용에 필요한 3요소

- 데이터: 모든 것을 데이터화

- 기술: 알고리즘, 인공지능

- 인력: 데이터 사이언티스트, 알고리즈미스트

 

 

빅데이터 활용 기본 테크닉 7가지

1. 연관규칙 학습

- 변수들 간에 상관관계가 있는지 찾아내는 방법

- ex. 우유 구매자가 기저귀를 더 많이 구매하는가?

 

2. 유형분석

- 범주를 찾아내는 방법

- ex. 문서를 어떻게 분류할 것인가?

 

3. 유전 알고리즘

- 최적화

- 여러 세대를 반복하며 최적해, 근사해를 찾아나감

- ex. 최적화된 택배 차량 배치

 

4. 기계학습(머신러닝)

- 학습된 데이터로부터 예측 모형으로 만들어내는 방법

- 딥러닝도 포함

- 넓은 범위

- ex. 질병 진단 예측

 

* 딥러닝 

: 신경망처럼 뻗어나가서 최적화를 찾아냄

: 심층 신경망이라고도 한다.

 

5. 회귀분석

- 원인과 결과를 분석

- ex. 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

 

6. 감정분석

- 글을 쓴 사람의 감정을 분석

- 비정형 데이터 마이닝

- ex. 리뷰 

 

7. 소셜 네트워크 분석

- 사회관계망 분석

- 유저 사이의 관계를 분석하여 영향력 있는사람을 찾아낸다

 

 

빅데이터의 위기 요인

1. 사생활 침해

: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협

 

2. 책임 원칙 훼손

- 아직 범죄가 일어나지 않았지만 잠재적 범죄라고 하여 구속하는 등 오판하면 안된다.

- ex. 어떤 사람이 특정한 집단에 속한다는 이유만으로 자신의 신용도와 무관하게 대출이 거절되는 사례

 

3. 데이터 오용

- 데이터 과신, 잘못된 지표의 사용으로 인사이트를 얻어 비즈니스에 적용할 경우 손실이 발생할 수 있다.

- 과거의 일을 바탕으로 미래를 예측하는 것은 위험할 수 있다.

 

 

빅데이터의 통제방안

1. 사생활 침해 통제 방안 > '동의' 에서 '책임' 으로

- 사용하는 사람이 책임을 지는 것

 

2. 책임 원칙 훼손의 통제 방안 > 결과 기반 책임 원칙고수

- 실제 결과를 보고 난 후 처벌

 

3. 데이터 오용의 위기오소에 대한 대응책 > 알고리즘 접근권 허용/인증

- 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시

- 알고리즈미스트 

 

 

빅데이터 활용의 3요소

- 데이터

- 기술

- 인력

 

 

개인정보 비식별 기술

비식별 기술 Before After
데이터 마스킹 유재석 유**
가명처리 유재석 개그맨
총계처리 10점,20점,30점 평균 20점
데이터값 삭제 서울시 강남구 서울시
데이터 범주화 29세 20세~30세

 

 

빅데이터 열풍과 회의론

1. 크기가 아닌 '인사이트'

: 그 데이터로부터 어떤 인사이트(의미있는 정보)를 얻을 수 있는가

: 비즈니스의 가치에 집중

: '비용' 이 아니라 '분석적 방법과 성과에 대한 이해 부족' 이 문제이다.

 

2. 전략적 인사이트의 중요성

: 하루종일 데이터분석을 많이 한다고 해서 경쟁우위에 도달하지 않음

: 분석을 위한 분석을 하면 안된다.

: 전략적인 '통찰력'을 가지고, 빅데이터를 분석하는 이유가 무엇인지에 집중하여 운영해야 한다.

 

 

 

 

* 에너지: 트레이딩, 공급/수요 예측

 

 

데이터 사이언스의 의미와 역할

: 정형화, 비정형된 Data 도 사용함

: 분석, 시각화, 해커의 사고방식을 종합

: 데이터로부터 의미 있는 정보를 추출

: 비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 한다.

: 소통력이 중요

 

* 통계학: 정형화된 Data 만 사용

* 데이터 마이닝: 분석만

 

 

데이터 사이언스의 핵심 구성요소

: Analytics 분석적 영역

- 수학, 머신러닝, 분석학 등

: IT(Data Management) 데이터 처리와 관련된 IT 영역

- 프로그래밍, 고성능 컴퓨팅, 데이터 웨어하우징 등

: 비즈니스 분석: 비즈니스 컨설팅 영역

- 커뮤니케이션, 스토리텔링, 시각화, 프레젠테이션 등

 

 

* Soft Skill 중요

 

 

가트너가 제시한 데이터 사이언티스트 요구 역량

: 데이터 관리

: 분석 모델링

: 비즈니스 분석

: 소프트 스킬

 

 

 

가치 패러다임의 변화

① 디지털화: 아날로그의 디지털화

② 연결: 디지털화가 된 정보들이 연결 됨

③ 에이전시: 연결된 정보들을 어떻게 관리할 것인지

 

* 가치 패러다임: 경제와 산업의 원천에 있는 가치에 대한 패러다임

 

 

 

 


하드 드라이브의 가격하락

: 데이터 저장 비용의 문제를 해결해준다.

 

산업별 일차원 분석 어플리케이션

에너지: 트레이딩, 공급/수요 예측

'TIL' 카테고리의 다른 글

2024-03-24 / 3  (1) 2024.03.24
2024-03-24 / 2  (1) 2024.03.24
2024-03-23  (0) 2024.03.23
2024-03-22  (1) 2024.03.22
2024-03-21  (1) 2024.03.21