MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의

1. MLA(Multi-head Latent Attention) 정의

- Transformer 모델 기반 LLM 들이 공통으로 겪는 긴 문맥을 처리하느라 폭증하는 메모리 사용량 문제를 해결하기 위해 DeepSeek (LLM)에 적용된 기술

- MLA는 입력 데이터를 잠재 공간으로 투영하여 기존 MHA보다 추론 시 메모리 사용량을 줄이고 연산 속도까지 향상시킨 Attention layer

- 고성능 GPU 가 다량으로 필요하던 LLM 비용 절감

2. MLA가 MHA 를 개선하는 방식

Self-Attention 매커니즘 설명 (0)	2025.05.16
트랜스포머(Transformer) 모델 (0)	2025.03.17
LLM(Large Language Model) 기본 설명 (0)	2025.03.17
MoE(Mixture of Experts) : 전문가 혼합 (0)	2025.02.07
VAE(Variational Autoencoder) : 다변수 오토인코더 (0)	2025.02.06

Luigi blog