트랜스포머 모델이란?
- 트랜스포머(Transformer)는 자연어 처리(NLP)에서 널리 사용되는 딥러닝 모델로, 입력 전체를 동시에 처리하면서 문맥 정보를 효율적으로 파악한다.
- 기존 RNN이나 LSTM과 달리 시퀀스를 순차적으로 처리하지 않고, 병렬 처리가 가능하다.
- "Attention is all you need" 논문에서 처음 소개되었으며, 특히 Self-Attention 메커니즘이 핵심이다.
- BERT, GPT 같은 최신 언어 모델의 기반이 되는 아키텍처이다.
- 언어, 이미지, 음성 등 다양한 도메인에 확장 가능하다.
트랜스포머 특징 및 장단점
구분 | 내용 |
주요 특징 | - 셀프 어텐션(Self-Attention) 메커니즘 - 병렬 처리 가능 - 인코더-디코더 구조 - 포지셔널 인코딩 사용 |
장점 | - 긴 문맥(장거리 의존성) 처리에 강함 - 학습/추론 속도 빠름(병렬 처리) - 다양한 태스크에 적용 가능(범용성) |
단점 | - 메모리 사용량 많음 - 계산 비용(연산량) 높음 - 대규모 데이터와 자원이 필요함 |
'Dev > AI' 카테고리의 다른 글
감독학습 비감독학습 강화학습 (0) | 2025.06.26 |
---|---|
Self-Attention 매커니즘 설명 (0) | 2025.05.16 |
LLM(Large Language Model) 기본 설명 (0) | 2025.03.17 |
MoE(Mixture of Experts) : 전문가 혼합 (0) | 2025.02.07 |
MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의 (0) | 2025.02.07 |