본문 바로가기
Dev/AI

MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의

by Luigi.yoon 2025. 2. 7.

 

1. MLA(Multi-head Latent Attention) 정의

- Transformer 모델 기반 LLM 들이 공통으로 겪는 긴 문맥을 처리하느라 폭증하는 메모리 사용량 문제를 해결하기 위해 DeepSeek (LLM)에 적용된 기술

- MLA는 입력 데이터를 잠재 공간으로 투영하여 기존 MHA보다 추론 시 메모리 사용량을 줄이고 연산 속도까지 향상시킨 Attention layer 

- 고성능 GPU 가 다량으로 필요하던 LLM 비용 절감

 

 

 

출처 : DeepSeek-V2 논문

 

비교 항목 기존 Multi-Head Attention DeepSeek MLA
Key-Value 저장 방식 모든 Key-Value 데이터를 저장 중요 데이터만 압축 저장
메모리 사용량 문맥이 길어질수록 급격히 증가 최대 50% 이상 절감 가능
연산 속도 문맥이 길이가 길어질수록 느려짐 길어도 일정한 속도 유지
GPU 요구사항 고사양 GPU 필수 저사양 GPU에서도 실행 가능

 

 

 

2. MLA가 MHA 를 개선하는 방식

  1. Key-value 데이터를 압축하여 저장
  2. 불필요한 key-value 데이터를 자동으로 제거, 재사용
  3. 기존 key-value 데이터를 새로운 벡터로 변환, 더 적은 공간으로도 동일한 정보를 유지
  4. 이를 통해 같은 성능을 유지하면서도 GPU 메모리 사용량을 대폭 줄임