ADsP 내용 정리 18

군집분석

국집분석 : 각 개체에 대해 관측된 여러 개의 변수값들로부터 n 개의 개체를 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 다변량분석 기법: 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 개체들 간의 유사성에만 기초하여 군집을 형성: 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도: 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단 거리측도 - 연속형 변수인 경우 유클리디안거리 (Eucldean): 두 점사이의 가장 짧은 거리를 계산 맨하튼거리 (Mangattan): 두 점 사이를 가로지르지 않고 길을 따라 갔을 때의 거리예제 >  계층적 군집분석: 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개..

ADsP 내용 정리 2024.04.28

분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과

나이브 베이즈 분류: 베이즈 정리를 기반으로 한 머신러닝 기법 - 빈도 확률: 사건이 발생한 횟수의 장기적인 비율을 의미, 객관적으로 확률을 해석- 베이지안 확률: 주관적으로 확률을 해석- 베이즈 정리에서 확률은 주장 혹은 믿음의 신뢰도로 나타난다.   k-NN (k-Nearest Neighborhood, 최근접 이웃법): 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용: k 는 이웃의 개수를 나타낸다: 최적의 k 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.: 작은 k는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 k는 모델의 결정 경계를 더 부드럽게 만든다. 서포트벡터머신 ( Support Vector Machine, SVM ): 지도 학습 모델로 사용되..

ADsP 내용 정리 2024.04.28

분류분석 - 인공신경망 분석

인공신경망: 인공신경망은 인간의 뇌를 기반으로한 학습 및 추론 모형: 뇌의 구조를 수학적으로 단순화하여 모델링 한 것: 입력 > 시냅스에 해당, 개별신호의 강도에 따라 가중: 활섬함수 > 인공신경망의 출력을 계산: 많은 데이터에 대해 학습을 거쳐, 원하는 결과가 나오도록(오차가 작아지도록) 가중치가 조정 인공신경망 분석의 장단점장점- 스스로 가중치를 학습하므로 다양하고 많은 데이터에 효과적- 잡음에 민감하게 반응하지 않음- 여러개의 은닉층을 갖고 있는 구조로 비선형적인 문제 분석에 유용- 패턴인식, 분류, 예측 등의 문제에 효과적단점- 초기 가중치에 따라 전역해가 아닌 지역해로 수렴할 수 있다.- 결과해석이 쉽지 않다.- 모형이 복잡할 경우 학습에 오랜 시간이 소요됨- 추정한 가중치의 신뢰도 낮음- 은닉..

ADsP 내용 정리 2024.04.25

분류분석 - 앙상블분석

앙상블기법 : 기법들을 한 곳에 뭉쳐서 하나의 모델을 만든다. : 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법 : 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있음 : 배깅, 부스팅, 랜덤포레스트 : 수치형 데이터 > 값의 평균, 범주형 데이터 > 다수결 방식 배깅(Bagging, bootstrap aggregating) : 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기(aka 모델)를 생성한 후 그 결과를 앙상블 하는 방법 : 방복추출 방법을 사용 : 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 그렇지 않을 수도 있다. : 보팅(Voting) 은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과 선정 : ..

ADsP 내용 정리 2024.04.23

분류분석모형 - 의사결정나무

의사결정나무 - 질문을 계속 던지는 것 - 데이터에 들어있는 패턴을 변수의 조합으로 나타내는 것 - 예측 또는 분류의 모델을 나무 형태(tree 구조)로 만든다 : 전체 자료를 몇개의 소집단으로 분류하거나 예측을 수행하는 방법 : 상위노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다. : 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다. 의사결정나무의 활용 ① 세분화 ② 분류 ③ 예측 ④ 차원 축소 및 변수 선택 : 여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용 ⑤ 교호작용 : 의사결정나무는 교호작용이 없는 것이 장점 : 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악 의사결정나무의 특징 장..

ADsP 내용 정리 2024.04.22

분류분석모형 - 로지스틱회귀분석

* 분류분석 : 반응변수(종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행 : 주어진 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 작업 : 반응변수가 범주형인 경우 > 새로운 자료에 대한 분류가 주목적 : 연속형인 경우 >그 값을 예측 하는 것이 주목적 로지스틱회귀분석 : 종속변수가 범주형 데이터인 경우에 사용 : 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정 * A,B,C 가 있고, A 75%, B 10%, C 15% 로 나오면 가장 확률이 높은 A 이다 라고 판단을 할 수 있도록 만드는 것 : 주로 이진 분류가 기본, 세개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 한다 : 독립변수가 연속형, ..

ADsP 내용 정리 2024.04.19

정형 데이터 마이닝

데이터 마이닝 : 통계학자와 데이터베이스 학자들이 사용하는 용어 : 거대한 양의 데이터 속에서 유용한 정보를 찾아내는 과정 : 숨겨진 규칙,패턴 등을 찾아내어 의사결정에 활용하는 것이 목적 통계분석과 데이터 마이닝의 차이 : 통계분석 > 가설,가정에 따른 분석 및 검증 : 데이터마이닝 > 가설,검정을 하지 않고 다양한 수리 알고리즘을 이용해 데이터로부터 의미있는 정보를 찾아내는 방법 대표적인 데이터 마이닝 사례 ① 마케팅 및 고객 서비스 : 고객 행동을 분석하고 예측하여 개별 고객에게 맞춤형 마케팅 전략을 구축,상품추천,이탈예측등 ② 금융분야 : 부정 거래 탐지, 고객 신용 위험 평가 ③ 의료 분야 : 질병 진단, 환자 특성 분석 ④ 생산 및 공급망 관리 : 생산 프로세스를 최적화하고 불량률을 줄임 ⑤ ..

ADsP 내용 정리 2024.04.11

통계분석 - 시계열분석

시계열 분석 : 일정 시간 간격으로 기록된 자료들에 대하여 특성 파악하고 미래를 예측 * 시계열 자료 : 시간의 흐름에 따라서 관측된 자료 시계열 자료의 자기 상관성 : 인접한 자료들과 상호 연관성을 가진다 시계열 분석의 자료 : 정상성, 비정상성 * 정상성 : 평균이 일정할 것, 분산이 시점에 의존하지 않을 것 * 비정상성 : 자료의 대부분은 비정상 시계열 자료의 정상성 조건 ① 일정한 평균 ② 일정한 분산 ③ 시차에만 의존하는 공분산 정상 시계열의 특징 : 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다 : 항상 그 평균값으로 회귀하려는 경향이 있으며, 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다 : 정상 시계열이 아닌 경우 특정 기간의..

ADsP 내용 정리 2024.04.09

통계분석 - 다변량 분석

다차원척도법(MDS) : 개체간의 근접성을 시각화 해놓은 그림 : 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 방법 다차원 척도법 방법 : stress 값을 통해 적합여부를 판단 : 0에 가까울수록 좋은 것 * 뭉쳐져 있을 수록 유사하고 거리가 멀수록 성분이 다르다 다차원 척도법 종류 : 계량적 MDS - 구간척도,비율척도, 양적척도, 유클리드 거리행렬, cmdscale : 비계량적 MDS - 순서척도, 서열척도, isoMDS 주성분분석 : 여러 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수를 만들어 기존 변수를 요약 및 축소하는 방법 : 통계적 분석을 하는 사전 기초 분석 : 새로운 변수로 생..

ADsP 내용 정리 2024.04.09

통계분석 - 회귀분석

회귀분석 : 한 변수와 다른 변수간의 관계를 모델링 : 하나 이상의 독립변수(원인변수)들이 종속변수(결과변수)에 미치는 영향을 예측 : 종속변수가 범주형이면 로지스틱 회귀분석을 사용한다 : 변수들이 일정한 경향성을 띤다는 것은 그 변수들이 일정한 인과관계를 갖고 있다고 추측할 수 있다. : 산점도를 봤을 때 일정한 추세선이 나타난다면 경향성을 가지거나 변수들 간에 인과관계가 존재한다고 생각할 수 있다. 회귀분석의 종류 회귀분석의 가정 4가지 ① 선형성 : 입력변수와 출력변수의 관계가 선형 : 다항회귀분석의 경우 선형성을 갖지 않아도 된다. ② 독립성 : 잔차와 독립변수의 값이 서로 독립적 : 다중회귀분석의 경우 독립변수들 간에 상관성이 없이 독립이어야 한다. : 상관성이 존재하는 경우 다중공선성이라고 하..

ADsP 내용 정리 2024.04.09