본문 바로가기 주메뉴 바로가기

Community


[ML] 비지도 학습 ( Unsupervised learning)

관리자 2021-08-05 조회수 1,250

Machine Learning의 비지도학습


“X만 주어지고 Y는 알 수 없음”

지도학습과 달리 정답지(정답라벨)가 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법


라벨링 되어있지 않은 데이터로부터  패턴이나 형태를 찾아야하기 때문에 지도학습보다는 난이도가 있고, 실제로 지도 학습에서 적절한 특징(feature)을 찾아내기 위한 전처리 방법으로도 사용


[특징] 

  1. 분류되지 않았거나, 구조를 알 수 없는 데이터 (비정제 데이터) 사용하여 훈련데이터 없이 데이터의 특징을 추출하고 클러스터링을 수행

  2. 목표값을 정해주지 않아도 되고 사전 학습이 필요 없으므로 속도가 빠름


 

비 지도학습 주요 적용분야 : 추천시스템 (상품, 책, 음악, 동영상 등), 타겟마케팅, 고객 세분화, 문서 군집화 (관련뉴스 묶음) 등..



[비지도학습 알고리즘의 대표적인 예]


- 군집분석  (clustering)

- K-means

- 차원 축소

- 주성분분석(PCA)



1. K-means clustering

주어진 데이터를 K개의 클러스터로 묶는 군집화 기법. 

각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작.

(여기서 K는 주어진 데이터로부터 그룹화 할 그룹 (클러스터의 수를 말함.), Means는 각 클러스터의 중심과 데이터들의 평균 거리를 의미)


장점:

  • 구현하기 비교적 간단

  • 새 데이터의 클러스터를 찾을 때 계산량이 적어 속도가 빠름


단점:

  • 각 centroids(클러스터의 중심)의 초기값을 랜덤하게 정하는 알고리즘으로 초기값 위치에 따라 원하는 결과가 나오지 않을 수 있음.

  • 초기에 군집 수를 설정하기 때문에 K의 값에 따라 정확도가 달라짐.

  • 학습 후 초기 학습한 군집 수 변경이 불가능하기 때문에 데이터 증가에 따라 새로운 클러스터를 형성하는것이 불가능




2. 주성분 분석 (PCA)

고차원 데이터를 효과적으로 분석하기 위한 대표적인 분석기법

주요 목적은 데이터의 차원축소, 시각화 및 해석


특징 :

  • 실무에서 분석하는 데이터는 매우 많은 특성(feature)들을 가지고 있어 데이터 차원이 매우 큼. 데이터 샘플 수에 비해 특성(feature)의 수가 너무 많아지면 어떤 특성(feature)이 타깃에 어떤 영향을 미치는지 인과관계를 파악하기 어려움

  • 학습 속도가 느릴 뿐만 아니라 성능 또한 좋지 않을 가능성이 큼

  • 특성(feature)들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술.

  • 회전한 뒤 데이터를 설명하는 중요도에 따라 특성 일부만 선택됨.

  • 차원축소를 이용하여, 고차원 데이터를 3차원 이하로 축소시킬 수 있고, 시각화가 가능해짐



 

[지도학습과 비지도 학습 비교]


구분

지도 학습

비지도 학습

사용이유

– 예측 모델 생성

– 고차원 데이터 분류

성능평가

– 교차 검증 수행

– 검증 방법 없음

입력정보

– Labeled Data

– Raw Data

유형

– 회귀: (x, y)로 f(x)=y파악

– 분류: 그룹별 특징 파악

– 군집: 데이터끼리 묶음

– 패턴인식: 여러그룹인식

알고리즘

CNN, RNN, SVM, 의사결정 트리 등

K-Means, DBSCAN, 군집(Clustering) 등

장점

– 사람이 목표 값에 개입하여 정확도가 높음

– 목표 값을 정해주지 않아도 되므로 속도 빠름

단점

– 시간이 오래 걸리고 학습 데이터 양이 많음

– 학습 결과로 분류 기준과 군집 예측 불가

사례

– 패턴인식, 질병진단

– 주가 예측, 회귀 분석

– 스팸필터, 차원 축소

– 데이터마이닝, 지식발굴


이전글
[ML] 지도 학습 ( Supervised learning)
다음글
다음글이 없습니다.


  • 등록된 댓글이 없습니다.
댓글입력