Dev/AI
감독학습 비감독학습 강화학습
Luigi.yoon
2025. 6. 26. 18:18
**머신러닝(Machine Learning)**은 컴퓨터가 명시적인 프로그래밍 없이도 데이터를 통해 스스로 학습하고, 예측하거나 판단하게 만드는 기술입니다.
감독학습(Supervised Learning), 비감독학습(Unsupervised Learning), 강화학습(Reinforcement Learning)은 머신러닝의 세 가지 대표적인 학습 방법입니다.
각각의 개념, 목적, 사용 예시, 차이점을 아래에 정리하였습니다.
✅ 1. 감독학습 (Supervised Learning)
🔹 정의
입력(Input)과 정답(Output)이 쌍으로 주어진 레이블링된 데이터를 바탕으로 학습하여, 새로운 입력에 대한 출력을 예측하는 방법.
🔹 목표
입력 → 출력(레이블)을 정확히 예측하는 모델 학습
🔹 예시
- 스팸 메일 분류 (스팸 vs 일반메일)
- 이미지에 고양이/개 레이블 부여
- 주택 가격 예측 (회귀)
✅ 2. 비감독학습 (Unsupervised Learning)
🔹 정의
레이블이 없는 데이터만을 이용해 데이터의 구조, 패턴, 군집을 스스로 학습하는 방식.
🔹 목표
데이터 내 숨겨진 구조나 유사성 파악
🔹 예시
- 고객 세분화 (클러스터링)
- 이상 탐지 (Anomaly Detection)
- 차원 축소 (PCA, t-SNE)
✅ 3. 강화학습 (Reinforcement Learning)
🔹 정의
에이전트가 환경과 상호작용하며 **보상(reward)**을 기준으로 최적의 행동을 학습하는 방식.
🔹 목표
장기적으로 최대의 누적 보상을 얻는 전략 학습
🔹 예시
- 알파고(Go 게임)
- 로봇 제어
- 자율주행 차량의 주행 전략
📊 비교 분석 요약
항목 | 감독학습 | 비감독학습 | 강화학습 |
데이터 | 입력 + 정답(레이블) | 입력만 존재 (레이블 없음) | 환경 + 상태 + 행동 + 보상 |
학습 방식 | 예측을 위한 지도 학습 | 데이터 구조 파악 | 시도와 보상을 통한 행동 학습 |
결과물 | 분류기, 회귀모델 | 클러스터, 특성 추출 | 정책(Policy), 행동 전략 |
대표 알고리즘 | SVM, Random Forest, Neural Net | K-Means, DBSCAN, PCA | Q-learning, DQN, PPO |
응용 분야 | 이미지 분류, 텍스트 분류, 예측 | 군집화, 이상탐지, 시각화 | 게임 AI, 로보틱스, 금융 트레이딩 |
장점 | 정밀한 예측 가능 | 데이터 탐색 및 구조 분석에 유용 | 자율적 의사결정 모델 가능 |
단점 | 레이블링 비용 큼 | 정답이 없어 성능 평가 어려움 | 학습이 오래 걸리고 불안정할 수 있음 |
✅ 결론
- 감독학습: 예측 정확도가 중요할 때 → 데이터 레이블링 필수
- 비감독학습: 데이터에 숨은 패턴이나 구조를 파악하고 싶을 때
- 강화학습: 행동 전략, 의사결정 시나리오에 최적화