ADsP 내용 정리 18

통계분석 - 기초통계

기술통계 : 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약 하는 것 ① 히스토그램 : 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 표현한 그래프 : 데이터의 분포를 살펴보거나, 데이터의 모양이나 특성을 파악 : 연속형으로 표시된 데이터를 표현할 경우 임의로 순서변경을 할 수 없고 막대 사이의 간격이 없다. : ex. 키, 몸무게, 성적 등 ② 막대그래프 : 범주형으로 구분된 데이터를 표현할 경우 범주의 순서를 의도에 따라 바꿀 수 있다. : ex. 직업,종교 등 ③ 줄기-잎 그림 : 데이터를 줄기와 잎의 모양으로 그린 그림 ④ 상자그림(상자수염그림, box plot) : 다섯 숫자 요약을 통해 그림으로 표현한 것 (사분위수) 인과관계의 이해 종속변..

ADsP 내용 정리 2024.04.08

통계분석 - 통계개요

통계 : 분석하고자 하는 특정집단을 대상의 자료 및 요약된 형태의 표현 : ex. 일기예보, 물가,실업률 등 모집단 : 보고싶은 대상(원하는 정보) 전체의 데이터가 모인 집단 - 유한 모집단: 유한한 개체 - 무한 모집단: 무한한 개체 통계 자료 획득 방법 전수조사: 대상 집단 모두를 조사(ex. 인구주택총조사) 표본조사: 모집단을 대표할 수 있는 표본을 추출하여 조사 표본추출 방법 ① 단순 랜덤 추출법(simple random sampling) : 랜덤하게 n개를 뽑아 그 원소를 표본으로 추출 : ex. 사다리 타기, 제비뽑기 ② 계통 추출법(systematic sampling) : 모집단을 일정한 갯수의 구간으로 나누고 각각의 구간에서 1개씩 추출 ③ 집락(군집) 추출법(cluster sampling..

ADsP 내용 정리 2024.04.01

데이터 전처리

데이터마트 : 데이터웨어하우스 보다 작은 단위 : 각각의 목적에 따라서 분리해놓기 위해서 만든다 : R에서 제공하는 다양한 패키지를 활용할 수 있다. 데이터전처리 : 데이터를 정제하는 과정과 분석 변수를 처리하는 과정이 포함 : 데이터 정제과정 ( 결측값, 이상값 ) : 분석 변수 처리 과정 ( 변수 선택, 파생변수 생성 등 ) 요약변수 : 원래데이터로부터 기본적인 통계 자료를 추출한 기본적인 변수 : 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음 : ex. 총 합계, 평균, 횟수 파생변수 : 일반적인 통계자료가 아니라 의미(목적)이 부여된 변수 : 주관적일 수 있으므로 논리적 타당성을 갖추는 것이 중요 : ex. 최적 통화 시간, 선호하는 가격대 변수 * plyr 패키지 >> 데이터분석에 중요 ..

ADsP 내용 정리 2024.04.01

R을 활용한 분석 실습

R 언어 print: console 창에 출력 스칼라: 하나의 값 벡터: 하나의 값들이 여러개 모여있는 것, 1차원 행렬: 2차원으로 모여있는 것 배열: 3차원 이상의 구조 벡터 : 명령어 C 를 이용해 선언 c( ) 문자형 타입 (Character) 따옴표 혹은 쌍따옴표로 표시 숫자형 타입(Number) numeric(숫자형), integer(정수), double(실수) 논리형 타입(Logical) 참(True)과 거짓(False) * '=' : 할당연산자 콜론(:)을 활용하여 시작값과 끝값을 지정하여 벡터를 생성할 수 있음 문자형 벡터가 포함되면 합쳐지는 벡터는 문자형 벡터가 된다. NaN: 연산을 했을 떄 오류와 함께 숫자가 아님을 반환 NA: 공간을 차지하는 결측값 NULL: 공간을 차지하지 않는..

ADsP 내용 정리 2024.04.01

분석 마스터플랜

마스터플랜 수립 프레임워크 마스터플랜 수립 개요 : 첫번째 단계는 우선순위를 정하는 일 : 분석 과제의 적용 범위 및 방식을 설정 : 분석 과제의 우선순위와 적용 범위 및 방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵을 수립 * ISP(정보 전략 계획) : 내/외부 환경을 분석 : 시스템 구축 우선순위를 결정 : 분석 마스터 플랜은 일반적인 ISP 방법론을 활용 : 단기 및 중/장기로 나누어 계획 수립 빅데이터의 특징을 고려한 분석 ROI 요소 : 3V는 투자 비용 측면의 요소라고 볼 수 있다. : 가치는 비즈니스 효과 포트폴리오 사분면 분석을 활용한 우선순위 평가 기준 시급성 : 전략적 중요도와 목표 가치(KPI) 에 부합하는지 : Value 비즈니스 효과 측면과 연결 난이도 : 데이터를 생..

ADsP 내용 정리 2024.04.01

데이터 분석 기획

분석 대상과 방법에 따른 4가지 분석 주제 분석대상 분석방법 주제 알고 알아 최적화(Optimization) 알고 몰라 해결책(Solution) 모르고 알아 통찰력(Insight) 모르고 몰라 발견(Discovery) 목표 시점별 분석 기획 과제 중심적: 빠르게 장기적 마스터플랜: 지속적 분석 기획 시 고려사항 1. 가용 데이터 고려 : 데이터가 확보될 수 있는지 2. 적절한 활용방안과 유스케이스의 탐색 : 기존의 방법이 있는지 탐색 3. 장애요소에 대한 사전 계획 수립 : 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 분석 방법론 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 기업의 합리적인 의사결정을 가로막는 방해요소 3가지 1. 고정관념 2. 편향된 생각 3..

ADsP 내용 정리 2024.04.01

데이터의 가치와 미래

더그래니의 정의 3V - 데이터의 양(Volume), 다양성(Variety), 속도(Velocity) + 4V - 가치(Value) 또는 정확성(Veracity) 빅데이터 출현 배경 * 양질전환법칙 - 데이터의 양이 커지면 질이 좋아진다. *기술발전 - 저장기술의 발전과 가격하락 - 클라우드 컴퓨팅 보편화와 분산처리 기술 * 구글의 Ngram Viewer - 많은 양의 책을 Text 형태로 만드는 과정 * 후> 전> 양> 상 빅데이터 가치 산정이 어려운 이유 데이터 활용 방식 : 데이터 활용방식이 다양해지다보니 가치 산정이 어려워졌음 새로운 가치 창출 : 기존에 없던 가치가 나타날 수 있음 분석 기술의 발전 : 지금은 가치가 없더라도 새로운 분석 기법이 등장할 경우 가치 산정이 될 가능성이 있음 미래의 ..

ADsP 내용 정리 2024.04.01

데이터와 정보

Bit : 데이터 구성의 최소단위 0과 1 1Byte = 8Bit 1KB = 1000Byte 1MB = 1000KB 1GB = 1000MB 1TB = 1000GB 1PB = 1000TB 1EB = 1000PB 1ZB = 1000EB 1YB = 1000ZB 데이터의 특성 - 객관적 사실로의 개별 데이터는 중요하지 않다. 존재적 특성 : 있는 그대로의 객관적 사실 당위적 특성 : 추론,예측,전망,추정을 위한 근거 데이터의 유형 정성적 데이터: 언어, 문자 등 정량적 데이터: 수치,기호,도형 등 정형데이터 - 고정된 틀이 있으며 연산이 가능 표(테이블) 로 저장되어있는 것 비정형데이터 - 고정된 틀이 없으며 연산이 불가능 영상, 음성 등 반정형데이터 고정된 틀을 가지고 있지만 연산이 불가능 처럼 꺽쇠기호가 있..

ADsP 내용 정리 2024.04.01