MoE 模型服务概念指南
当前版本:vLLM v0.18+ / v0.19.x(2026-04 基准)
创建日期:2025-02-09 | 修改日期:2026-04-06 | 阅读时间:约 6 分钟
概述
Mixture of Experts(MoE)模型是最大化大规模语言模型效率的架构。仅激活部分 Expert,以比 Dense 模型更少的计算达到同等质量。
本文档涵盖 MoE 架构核心概念、各模型资源需求、分布式部署策略。
实战部署指南
MoE 模型的 EKS 部署 YAML、helm 命令、多节点配置等实战部署请参阅 自定义模型部署指南。
MoE 架构理解
Expert 网络结构
MoE 模型由多个"Expert"网络和选择它们的"Router(Gate)"网络组成。
路由机制
MoE 模型的核心是根据输入 Token 选择合适 Expert 的路由机制。
MoE 路由机制
🎯Top-K Routing
说明
仅激活前 K 个 Expert
代表模型
Mixtral (K=2)
🔄Expert Choice
说明
Expert 选择要处理的令牌
代表模型
Switch Transformer
⚖️Soft MoE
说明
将权重分配给所有 Expert
代表模型
Soft MoE
#️⃣Hash Routing
说明
基于哈希的确定性路由
代表模型
Hash Layers
路由工作原理
- Gate 计算:将输入 Token 的 hidden state 通过 Gate 网络
- Expert 选择:从 Softmax 输出中选择 Top-K Expert
- 并行处理:选中的 Expert 并行处理输入
- 加权求和:用 Gate 权重组合 Expert 输出
MoE vs Dense 模型对比
MoE vs Dense 模型比较