1. MLA(Multi-head Latent Attention) 정의
- Transformer 모델 기반 LLM 들이 공통으로 겪는 긴 문맥을 처리하느라 폭증하는 메모리 사용량 문제를 해결하기 위해 DeepSeek (LLM)에 적용된 기술
- MLA는 입력 데이터를 잠재 공간으로 투영하여 기존 MHA보다 추론 시 메모리 사용량을 줄이고 연산 속도까지 향상시킨 Attention layer
- 고성능 GPU 가 다량으로 필요하던 LLM 비용 절감
비교 항목 | 기존 Multi-Head Attention | DeepSeek MLA |
Key-Value 저장 방식 | 모든 Key-Value 데이터를 저장 | 중요 데이터만 압축 저장 |
메모리 사용량 | 문맥이 길어질수록 급격히 증가 | 최대 50% 이상 절감 가능 |
연산 속도 | 문맥이 길이가 길어질수록 느려짐 | 길어도 일정한 속도 유지 |
GPU 요구사항 | 고사양 GPU 필수 | 저사양 GPU에서도 실행 가능 |
2. MLA가 MHA 를 개선하는 방식
- Key-value 데이터를 압축하여 저장
- 불필요한 key-value 데이터를 자동으로 제거, 재사용
- 기존 key-value 데이터를 새로운 벡터로 변환, 더 적은 공간으로도 동일한 정보를 유지
- 이를 통해 같은 성능을 유지하면서도 GPU 메모리 사용량을 대폭 줄임
'Dev > AI' 카테고리의 다른 글
Self-Attention 매커니즘 설명 (0) | 2025.05.16 |
---|---|
트랜스포머(Transformer) 모델 (0) | 2025.03.17 |
LLM(Large Language Model) 기본 설명 (0) | 2025.03.17 |
MoE(Mixture of Experts) : 전문가 혼합 (0) | 2025.02.07 |
VAE(Variational Autoencoder) : 다변수 오토인코더 (0) | 2025.02.06 |