- 데이터의 라벨을 알 수 있는 경우에는 SVM이나 RF로
데이터의 라벨을 알 수 없는 경우에 일정한 패턴을 찾는 경우는 K-means
- K-means 도 비지도학습의 일종
- 사전에 k-개의 군집을 설정 : 초기값 지정--> 각 개체가 초기값에 할당되어 군집을 형성 --> 이러한 군집을 형성하면서, 다시 k-평균값을 다시 계산 -> 이러한 과정을 동해서 최적화된 k-군집을 형성하게 된다 ---> 오차제곱합을 최소화하는 값을 찾게 되고, 그 것이 결국 최적화된 k-군집이 된다.
- 궁금한점1: 이상치가 있을 경우, 평균값이 왜곡되는데, 이 경우는 ㅇ떻게 처리하는가?
* 일반적으로는 데이터 전처리를 통해서 이상치 등을 제거하는 등의 방법으로 이상치로 인한 왜곡을 제어하고, k-mean를 사용한다. 다만, k-중앙값을 이용해서 군집을 구분하는 것도 가능하지는 하다.
- 분석단계
* 먼저, 적합한 cluster의 수를 찾아야 한다.
-