2024/04/28 2

군집분석

국집분석 : 각 개체에 대해 관측된 여러 개의 변수값들로부터 n 개의 개체를 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 다변량분석 기법: 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 개체들 간의 유사성에만 기초하여 군집을 형성: 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도: 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단 거리측도 - 연속형 변수인 경우 유클리디안거리 (Eucldean): 두 점사이의 가장 짧은 거리를 계산 맨하튼거리 (Mangattan): 두 점 사이를 가로지르지 않고 길을 따라 갔을 때의 거리예제 >  계층적 군집분석: 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개..

ADsP 내용 정리 2024.04.28

분류분석 - 나이브베이지,k-NN 알고리즘, 서포트벡터머신, 분류모형성과

나이브 베이즈 분류: 베이즈 정리를 기반으로 한 머신러닝 기법 - 빈도 확률: 사건이 발생한 횟수의 장기적인 비율을 의미, 객관적으로 확률을 해석- 베이지안 확률: 주관적으로 확률을 해석- 베이즈 정리에서 확률은 주장 혹은 믿음의 신뢰도로 나타난다.   k-NN (k-Nearest Neighborhood, 최근접 이웃법): 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용: k 는 이웃의 개수를 나타낸다: 최적의 k 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.: 작은 k는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 k는 모델의 결정 경계를 더 부드럽게 만든다. 서포트벡터머신 ( Support Vector Machine, SVM ): 지도 학습 모델로 사용되..

ADsP 내용 정리 2024.04.28