Dev/AI

감독학습 비감독학습 강화학습

Luigi.yoon 2025. 6. 26. 18:18

 

**머신러닝(Machine Learning)**은 컴퓨터가 명시적인 프로그래밍 없이도 데이터를 통해 스스로 학습하고, 예측하거나 판단하게 만드는 기술입니다.

감독학습(Supervised Learning), 비감독학습(Unsupervised Learning), 강화학습(Reinforcement Learning)은 머신러닝의 세 가지 대표적인 학습 방법입니다.
각각의 개념, 목적, 사용 예시, 차이점을 아래에 정리하였습니다.

 

출처 : https://opentutorials.org/course/4548/28949

 


✅ 1. 감독학습 (Supervised Learning)

🔹 정의

입력(Input)과 정답(Output)이 쌍으로 주어진 레이블링된 데이터를 바탕으로 학습하여, 새로운 입력에 대한 출력을 예측하는 방법.

🔹 목표

입력 → 출력(레이블)을 정확히 예측하는 모델 학습

🔹 예시

  • 스팸 메일 분류 (스팸 vs 일반메일)
  • 이미지에 고양이/개 레이블 부여
  • 주택 가격 예측 (회귀)

✅ 2. 비감독학습 (Unsupervised Learning)

🔹 정의

레이블이 없는 데이터만을 이용해 데이터의 구조, 패턴, 군집을 스스로 학습하는 방식.

🔹 목표

데이터 내 숨겨진 구조나 유사성 파악

🔹 예시

  • 고객 세분화 (클러스터링)
  • 이상 탐지 (Anomaly Detection)
  • 차원 축소 (PCA, t-SNE)

✅ 3. 강화학습 (Reinforcement Learning)

🔹 정의

에이전트가 환경과 상호작용하며 **보상(reward)**을 기준으로 최적의 행동을 학습하는 방식.

🔹 목표

장기적으로 최대의 누적 보상을 얻는 전략 학습

🔹 예시

  • 알파고(Go 게임)
  • 로봇 제어
  • 자율주행 차량의 주행 전략

📊 비교 분석 요약

항목 감독학습 비감독학습 강화학습
데이터 입력 + 정답(레이블) 입력만 존재 (레이블 없음) 환경 + 상태 + 행동 + 보상
학습 방식 예측을 위한 지도 학습 데이터 구조 파악 시도와 보상을 통한 행동 학습
결과물 분류기, 회귀모델 클러스터, 특성 추출 정책(Policy), 행동 전략
대표 알고리즘 SVM, Random Forest, Neural Net K-Means, DBSCAN, PCA Q-learning, DQN, PPO
응용 분야 이미지 분류, 텍스트 분류, 예측 군집화, 이상탐지, 시각화 게임 AI, 로보틱스, 금융 트레이딩
장점 정밀한 예측 가능 데이터 탐색 및 구조 분석에 유용 자율적 의사결정 모델 가능
단점 레이블링 비용 큼 정답이 없어 성능 평가 어려움 학습이 오래 걸리고 불안정할 수 있음
 

✅ 결론

  • 감독학습: 예측 정확도가 중요할 때 → 데이터 레이블링 필수
  • 비감독학습: 데이터에 숨은 패턴이나 구조를 파악하고 싶을 때
  • 강화학습: 행동 전략, 의사결정 시나리오에 최적화