ADsP 내용 정리

군집분석

여연찌 2024. 4. 28. 11:25

국집분석 

: 각 개체에 대해 관측된 여러 개의 변수값들로부터 n 개의 개체를 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 다변량분석 기법

: 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 개체들 간의 유사성에만 기초하여 군집을 형성

: 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도

: 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단

 

거리측도 - 연속형 변수인 경우

 

유클리디안거리 (Eucldean)

: 두 점사이의 가장 짧은 거리를 계산

 

맨하튼거리 (Mangattan)

: 두 점 사이를 가로지르지 않고 길을 따라 갔을 때의 거리

예제 >

 

 

계층적 군집분석

: 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는방법

 

- 작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법

: 모든 그룹 쌍 간의 거리를 계산하여 가까운 순으로 병합을 수행

 

 

- 큰 군집으로부터 출발하여 군집을 분리해 나가는 분할적 방법

:

 

군집 간의 거리

 

① 최단연결법

: 두 군집 사이의 거리를 각 각 군집에서 하나씩 뽑았을 때 나타나는 거리의 최소값으로 측정

: 고립된 군집을 찾는데 중점을 둔 방법

② 최장연결법 (완전연결법)

: 두 군집 사이의 거리를 각 각 군집에서 하나씩 뽑았을 때 나타나는 거리의 최대값으로 측정

: 군집들의 내부 응집성에 중점을 둔 방법

③ 중심연결법

: 두 군집 간의 거리를 측정

: 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해진다.

④ 평균연결법

: 모든 항목에 대한 거리 평균을 구하면서 군집화

: 계산량이 불필요하게 많아질 수 있다.

: 단일연결법과 최장연결법보다 이상치에 덜 민감

⑤ 와드연결법

: 군집 내의 오차 제곱합에 기초하여 군집을 수행

: 크기가 비슷한 군집끼리 병합하는 경향이 있다.

 

비계층적 군집분석

: 사전에 정해진 군집의 수만큼 형성

: 원하는 군집의 수(k) 의 초깃값을 설정하고 분석을 수행

 

k-means 군집 (k-평균군집)

: 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화

: 군집의 수 (k)를 먼저 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할

: 데이터의 변수들이 연속형 변수여야 한다.

 

k-means 군집방법

① 원하는 군집의 개수와 초기값(seed) 들을 정해 seed 중심으로 군집을 형성

② 각 데이터를 거리가 가장 가까운 seed 가 있는 군집으로 할당

③ 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed 를 설정

④ 새로운 seed 를 중심으로 군집을 재할당

⑤ 모든 개체가 군집으로 할당될 때까지 3,4번 과정을 반복

 

 

EM 알고리즘

: 확률모델의 최대가능도(Likelihood) 를 갖는 모수와 함께 그 확률모델의 가중치를 추정하고자 한다.

 

 

자기조직화지도(SOM, Self-Organizing Maps)

- 개념

: 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화

: 실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 된다.

: 복잡한 데이터의 차원 축소와 유사한 데이터의 군집화를 동시에 수행할 수 있는 알고리즘

: 두 개의 인공신경망 층으로 구성되어 있으며 하나는 입력벡터를 받는 입력층, 다른 하나는 2차원 격차로 구성된 경쟁층

 

- 구성

: 입력층은 은닉층이 없으며, 입력 변수의 개수와 동일하게 뉴런 수가 존재

: 경쟁층은 사용자가 미리 정해놓은 군집의 수만큼 뉴런 수가 존재

: 입력층의 자료는 학습을 통하여 경쟁층에 정렬되는데 이를 지도(map) 라 부른다.

: 단 하나의 전방 패스를 사용함으로써 수행 속도가 매우 빠르다. 잠재적으로 실시간 학습 처리를 할 수 있는 모델이다.

 

- 특징

장점 순전파 방식을 사용하여 속도가 매우 빠르다
저차원의 지도로 형상화되어 시각적 이해가 쉽다
패턴 발견 및 이미지 분석에서 성능이 우수하다
입력 데이터에 대한 속성을 그대로 보존한다
단점 초기 학습률 및 초기 가중치에 많은 영향을 받는다
경쟁층의 이상적인 노드의 개수를 결정하기 어렵다

 

-신경망 모형과의 차이점

  신경망모형 SOM
학습방법 오차역전파법 경쟁학습방법
구성 입력층,은닉층,출력층 2차원 격자 형태의 경쟁층
기계 학습 방법의 분류 지도 학습 비지도 학습

 

 

연관분석(장바구니분석)

: 서로 연관된 의미있는 규칙을 찾아내는 분석

: 품목의 수가 증가하면 분석 계산이 기하급후적으로 증가할 수 있다.

: 이를 개선하기 위해 유사한 품목을 하나의 범주로 일반화하는 작업을 수행하기도 한다.

: 너무 세분화된 품목으로 연관규칙을 찾으면 의미 없는 분석이 될 수 있다.

 

연관분석의 측도

- 지지도 (Support)

: 전체 거래 중에서 A와 B 항목을 동시에 포함하는 거래의 비율

: 지지도가 높다는 것은 두 항목이 같이 잘 팔린다는 것을 의미한다

 

- 신뢰도 (Confidence)

: 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률

: A가 구매되었을 때 B가 구매될 확률인 신뢰도(A→B)와, B가 구매되었을 때 A가 구매될 확률인 신뢰도(B→A)는 다르다.


- 향상도 (Lift)

: 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B가 구매될 확률

: 신뢰도와 달리 향상도(A→B)와 향상도(B→A)는 같다.

 

 


 

* 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않는다.

* 마케팅에서는 고객 특성 파악, 금융에서는 산업 분석 등에 활용된다.

* 유사도가 클수록 거리 값은 작아진다.

* 오로지 개체들 간의 유사성에만 기초하여 군집을 형성한다.

 

* 맨하튼 거리

: 각 축에서의 차이의 절대값을 더하여 구함

* 체비셰프 거리

: 각 축에서의 차이 중 가장 큰 값을 사용하여 구함