(주)오에스에스랩

Community

관리자 2021-08-05 조회수 1,182

Machine Learning의 비지도학습

“X만 주어지고 Y는 알 수 없음”

지도학습과 달리 정답지(정답라벨)가 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법

라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야하기 때문에 지도학습보다는 난이도가 있고, 실제로 지도 학습에서 적절한 특징(feature)을 찾아내기 위한 전처리 방법으로도 사용

[특징]

비 지도학습 주요 적용분야 : 추천시스템 (상품, 책, 음악, 동영상 등), 타겟마케팅, 고객 세분화, 문서 군집화 (관련뉴스 묶음) 등..

[비지도학습 알고리즘의 대표적인 예]

- 군집분석 (clustering)

- K-means

- 차원 축소

- 주성분분석(PCA)

1. K-means clustering

주어진 데이터를 K개의 클러스터로 묶는 군집화 기법.

각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작.

(여기서 K는 주어진 데이터로부터 그룹화 할 그룹 (클러스터의 수를 말함.), Means는 각 클러스터의 중심과 데이터들의 평균 거리를 의미)

장점:

단점:

2. 주성분 분석 (PCA)

고차원 데이터를 효과적으로 분석하기 위한 대표적인 분석기법

주요 목적은 데이터의 차원축소, 시각화 및 해석

특징 :

실무에서 분석하는 데이터는 매우 많은 특성(feature)들을 가지고 있어 데이터 차원이 매우 큼. 데이터 샘플 수에 비해 특성(feature)의 수가 너무 많아지면 어떤 특성(feature)이 타깃에 어떤 영향을 미치는지 인과관계를 파악하기 어려움
학습 속도가 느릴 뿐만 아니라 성능 또한 좋지 않을 가능성이 큼

[지도학습과 비지도 학습 비교]

구분	지도 학습	비지도 학습
사용이유	– 예측 모델 생성	– 고차원 데이터 분류
성능평가	– 교차 검증 수행	– 검증 방법 없음
입력정보	– Labeled Data	– Raw Data
유형	– 회귀: (x, y)로 f(x)=y파악 – 분류: 그룹별 특징 파악	– 군집: 데이터끼리 묶음 – 패턴인식: 여러그룹인식
알고리즘	– CNN, RNN, SVM, 의사결정 트리 등	– K-Means, DBSCAN, 군집(Clustering) 등
장점	– 사람이 목표 값에 개입하여 정확도가 높음	– 목표 값을 정해주지 않아도 되므로 속도 빠름
단점	– 시간이 오래 걸리고 학습 데이터 양이 많음	– 학습 결과로 분류 기준과 군집 예측 불가
사례	– 패턴인식, 질병진단 – 주가 예측, 회귀 분석	– 스팸필터, 차원 축소 – 데이터마이닝, 지식발굴