본문 바로가기
Dev/AI

MoE(Mixture of Experts) : 전문가 혼합

by Luigi.yoon 2025. 2. 7.

 

1. MoE(Mixture of Experts) 모델

- 여러 개의 전문가(서브 모델) 중 입력에 따라 적절한 전문가를 선택해 학습 및 추론을 수행하는 구조

- 특정 작업에 필요한 부분만 선택적으로 활성화하여 성능/속도/효율성 향상

- 'Transformer' Encoder의 FFN 레이어 역할을 담당

 

 

 

 

 

특징 GLU (Gated Linear Unit) MoE (Mixture of Experts)
구조 게이트 메커니즘을 사용하여 정보 흐름을 조절 여러 전문가(서브 모델) 중 일부를 선택적으로 활성화
주요 목적 불필요한 정보 필터링 및 학습 효율성 향상 특정 입력에 적합한 전문가를 선택해 계산 효율성 향상
계산 비용 비교적 낮음 (게이트 연산만 추가) 상대적으로 높지만, 일부 전문가만 활성화해 최적화 가능
활용 분야 자연어 처리(NLP), 신경망 경량화 대규모 딥러닝 모델 (예: 거대 언어 모델, 추천 시스템)
장점 모델이 더 효율적이고 안정적인 학습 가능 높은 성능, 효율적인 계산, 모델 확장 용이
단점 확장 제한적. 복잡한 문제 해결이 제한적 전문가 선택 메커니즘이 복잡하고 추가적인 오버헤드 발생 가능

 

 


DeepSeekMoE

- DeepSeekMoE는 기존 MoE 구조를 고도화한 MoE

 

 

특징 DeepSeekMoE 일반 MoE (Mixture of Experts)
구조 Sparse MoE 구조 최적화 여러 전문가(서브 모델) 중 일부를 선택적으로 활성화
주요 특징 Sparse Routing, 비용 절감, 학습 최적화 특정 입력에 적합한 전문가를 선택
전문가 격리 공유된 전문가 그룹을 통해 중복성을 완화
전문가 전문화 가능
전문가 간 간섭으로 인해 특정 전문가가 과도하게 학습되거나, 충분히 활용되지 못하는 문제 발생 가능
로드 밸런싱 보조 손실 없이 부하 균형을 최적화하는 전략을 통해 전문가 활용도를 높임 전문가 간 부하 불균형 문제 발생 가능
계산 효율성 더 적은 연산량으로 높은 성능 유지 일부 전문가만 활성화하여 연산 비용 절감 가능
장점 최적화된 Sparse Routing으로 높은 성능과 효율성 제공 확장성이 뛰어나고 다양한 전문가 활용 가능
단점 특정 최적화가 필요한 구조로 일반적인 MoE보다 복잡함 전문가 선택 및 로드 밸런싱 문제 발생 가능

 

- DeepSeekMoE는 기존 MoE보다 더 최적화된 Sparse Routing 기법을 적용하여 MoE보다 복잡하지만, 성능/효율성/비용을 개선

 

 

DeepSeekMoE 에서 개선된 특징 2가지

 

1. 더 세분화된 (Fine-grained) 전문가 모델 분류

DeepSeekMoE는 각 전문가를 더 작고, 더 집중된 기능을 하는 부분들로 세분화합니다. MoE에서 ‘라우터’는 특정한 정보, 작업을 처리할 전문가(들)를 결정하는 메커니즘인데, 가장 적합한 전문가에게 데이터를 전달해서 각 작업이 모델의 가장 적합한 부분에 의해서 처리되도록 하는 것이죠.



2. 공유 전문가 (Shared Expert)의 분리

‘공유 전문가’는 위에 설명한 라우터의 결정에 상관없이 ‘항상 활성화’되는 특정한 전문가를 말하는데요, 여러 가지의 작업에 필요할 수 있는 ‘공통 지식’을 처리합니다. 공유 전문가가 있다면, 모델이 구조 상의 중복성을 줄일 수 있고 동일한 정보를 여러 곳에 저장할 필요가 없어지게 되죠. 따라서 각각의 전문가가 자기만의 고유하고 전문화된 영역에 집중할 수 있습니다.