국집분석
: 각 개체에 대해 관측된 여러 개의 변수값들로부터 n 개의 개체를 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 다변량분석 기법
: 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 개체들 간의 유사성에만 기초하여 군집을 형성
: 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도
: 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단
거리측도 - 연속형 변수인 경우
유클리디안거리 (Eucldean)
: 두 점사이의 가장 짧은 거리를 계산
맨하튼거리 (Mangattan)
: 두 점 사이를 가로지르지 않고 길을 따라 갔을 때의 거리
예제 >
계층적 군집분석
: 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는방법
- 작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법
: 모든 그룹 쌍 간의 거리를 계산하여 가까운 순으로 병합을 수행
- 큰 군집으로부터 출발하여 군집을 분리해 나가는 분할적 방법
:
군집 간의 거리
① 최단연결법
: 두 군집 사이의 거리를 각 각 군집에서 하나씩 뽑았을 때 나타나는 거리의 최소값으로 측정
: 고립된 군집을 찾는데 중점을 둔 방법
② 최장연결법 (완전연결법)
: 두 군집 사이의 거리를 각 각 군집에서 하나씩 뽑았을 때 나타나는 거리의 최대값으로 측정
: 군집들의 내부 응집성에 중점을 둔 방법
③ 중심연결법
: 두 군집 간의 거리를 측정
: 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해진다.
④ 평균연결법
: 모든 항목에 대한 거리 평균을 구하면서 군집화
: 계산량이 불필요하게 많아질 수 있다.
: 단일연결법과 최장연결법보다 이상치에 덜 민감
⑤ 와드연결법
: 군집 내의 오차 제곱합에 기초하여 군집을 수행
: 크기가 비슷한 군집끼리 병합하는 경향이 있다.
비계층적 군집분석
: 사전에 정해진 군집의 수만큼 형성
: 원하는 군집의 수(k) 의 초깃값을 설정하고 분석을 수행
k-means 군집 (k-평균군집)
: 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화
: 군집의 수 (k)를 먼저 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할
: 데이터의 변수들이 연속형 변수여야 한다.
k-means 군집방법
① 원하는 군집의 개수와 초기값(seed) 들을 정해 seed 중심으로 군집을 형성
② 각 데이터를 거리가 가장 가까운 seed 가 있는 군집으로 할당
③ 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed 를 설정
④ 새로운 seed 를 중심으로 군집을 재할당
⑤ 모든 개체가 군집으로 할당될 때까지 3,4번 과정을 반복
EM 알고리즘
: 확률모델의 최대가능도(Likelihood) 를 갖는 모수와 함께 그 확률모델의 가중치를 추정하고자 한다.
:
자기조직화지도(SOM, Self-Organizing Maps)
- 개념
: 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
: 실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 된다.
: 복잡한 데이터의 차원 축소와 유사한 데이터의 군집화를 동시에 수행할 수 있는 알고리즘
: 두 개의 인공신경망 층으로 구성되어 있으며 하나는 입력벡터를 받는 입력층, 다른 하나는 2차원 격차로 구성된 경쟁층
- 구성
: 입력층은 은닉층이 없으며, 입력 변수의 개수와 동일하게 뉴런 수가 존재
: 경쟁층은 사용자가 미리 정해놓은 군집의 수만큼 뉴런 수가 존재
: 입력층의 자료는 학습을 통하여 경쟁층에 정렬되는데 이를 지도(map) 라 부른다.
: 단 하나의 전방 패스를 사용함으로써 수행 속도가 매우 빠르다. 잠재적으로 실시간 학습 처리를 할 수 있는 모델이다.
- 특징
장점 | 순전파 방식을 사용하여 속도가 매우 빠르다 저차원의 지도로 형상화되어 시각적 이해가 쉽다 패턴 발견 및 이미지 분석에서 성능이 우수하다 입력 데이터에 대한 속성을 그대로 보존한다 |
단점 | 초기 학습률 및 초기 가중치에 많은 영향을 받는다 경쟁층의 이상적인 노드의 개수를 결정하기 어렵다 |
-신경망 모형과의 차이점
신경망모형 | SOM | |
학습방법 | 오차역전파법 | 경쟁학습방법 |
구성 | 입력층,은닉층,출력층 | 2차원 격자 형태의 경쟁층 |
기계 학습 방법의 분류 | 지도 학습 | 비지도 학습 |
연관분석(장바구니분석)
: 서로 연관된 의미있는 규칙을 찾아내는 분석
: 품목의 수가 증가하면 분석 계산이 기하급후적으로 증가할 수 있다.
: 이를 개선하기 위해 유사한 품목을 하나의 범주로 일반화하는 작업을 수행하기도 한다.
: 너무 세분화된 품목으로 연관규칙을 찾으면 의미 없는 분석이 될 수 있다.
연관분석의 측도
- 지지도 (Support)
: 전체 거래 중에서 A와 B 항목을 동시에 포함하는 거래의 비율
: 지지도가 높다는 것은 두 항목이 같이 잘 팔린다는 것을 의미한다
- 신뢰도 (Confidence)
: 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률
: A가 구매되었을 때 B가 구매될 확률인 신뢰도(A→B)와, B가 구매되었을 때 A가 구매될 확률인 신뢰도(B→A)는 다르다.
- 향상도 (Lift)
: 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B가 구매될 확률
: 신뢰도와 달리 향상도(A→B)와 향상도(B→A)는 같다.
* 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않는다.
* 마케팅에서는 고객 특성 파악, 금융에서는 산업 분석 등에 활용된다.
* 유사도가 클수록 거리 값은 작아진다.
* 오로지 개체들 간의 유사성에만 기초하여 군집을 형성한다.
* 맨하튼 거리
: 각 축에서의 차이의 절대값을 더하여 구함
* 체비셰프 거리
: 각 축에서의 차이 중 가장 큰 값을 사용하여 구함
'ADsP 내용 정리' 카테고리의 다른 글
분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과 (1) | 2024.04.28 |
---|---|
분류분석 - 인공신경망 분석 (0) | 2024.04.25 |
분류분석 - 앙상블분석 (0) | 2024.04.23 |
분류분석모형 - 의사결정나무 (0) | 2024.04.22 |
분류분석모형 - 로지스틱회귀분석 (1) | 2024.04.19 |