跳到主要内容

自定义模型部署指南

本文档是在 EKS 上使用 vLLM 部署大型开源模型的实战指南。以 GLM-5.1 744B MoE FP8 模型部署案例为示例,同样的模式可应用于其他大型模型(DeepSeek-V3、Mixtral、Qwen-MoE 等)。

本指南的目的

本文档不是"这样做就行",而是聚焦于"遇到了这些问题,这样解决的"。帮助提前了解实际生产部署中可能遇到的问题并做好应对。

1. 模型选择标准

部署模型选择时评估以下标准。

标准确认事项备注
许可MIT、Apache 2.0 等商业可用性部分模型为非商业许可
模型大小(VRAM)FP8/FP16 基准所需 VRAM直接影响 GPU 实例选择
vLLM 兼容性vLLM 官方支持与否、transformers 版本不支持时需自定义镜像
基准性能目标任务(编码、推理、对话等)基准SWE-bench、HumanEval 等
上下文长度支持的最大 Token 数推荐 200K+(Agentic 工作负载)
MoE 结构总参数 vs 激活参数MoE VRAM 对比性能效率高

示例:GLM-5.1 主要特点

  • GLM-5.1 = GLM-5 相同权重:仅添加了编码任务特化的 post-training RL
  • 744B MoE(40B active):256 experts 中每 Token 激活 8 个
  • HuggingFacezai-org/GLM-5-FP8
  • 许可:MIT License
  • 上下文:200K Token 支持
  • 性能:Agentic Coding 基准开源第 1(55.00 分),SWE-bench 77.8%(GPT-4o 57.0%)
为什么选择 GLM-5.1?

MIT 许可可商业使用,Agentic Coding 任务中超越 OpenAI GPT-4o 的性能。特别是 SWE-bench 分数 77.8% 在代码生成和 Bug 修复任务中显示优势。

自动模型分流

使用 LLM Classifier 时客户端通过单一端点(/v1)请求,根据 Prompt 内容自动选择 SLM/LLM。简单请求路由到 Qwen3-4B(L4 $0.3/hr),复杂请求(重构、架构、设计等)路由到 GLM-5 744B(H200 $12/hr)。配置请参阅 网关配置指南

模型规格(GLM-5.1 示例)

项目详情
参数744B(总)/ 40B(激活)
MoE 结构256 experts,top-8 routing
精度FP8
模型大小~704GB(权重)
所需 VRAM~744GB(单节点加载)
最少 GPUH200 8 个(1,128GB)或 B200 8 个(1,536GB)

2. GPU 实例选择矩阵

部署大型模型时最重要的选择是 GPU 实例类型。根据模型 VRAM 需求选择实例。

实例GPUVRAM744B 模型单节点?PP=2 多节点Spot 价格(us-east-2)推荐度
p5.48xlargeH100×8640GB否(744GB 大于 640GB)有 vLLM 死锁风险$12/hr注意
p5en.48xlargeH200×81,128GB是(不需要)$12/hr最优
p6-b200.48xlargeB200×81,536GB是(不需要)$18/hr充裕
VRAM 不足实例使用注意

模型 VRAM 需求超过实例 VRAM 时需要 PP(Pipeline Parallelism)多节点。但 vLLM V1 引擎的多节点 PP 死锁问题(第 6 节参考)使得稳定部署困难。推荐选择 VRAM 充足的实例进行单节点部署。

实例选择原则

选择 VRAM 充足的最低价 Spot 实例。

  1. 价格相同:p5en Spot 和 p5 Spot 同为 $12/hr 时选择 VRAM 更大的 p5en
  2. VRAM 余量:确保模型大小 1.5 倍以上 VRAM(KV Cache 空间)
  3. 简单性:消除多节点复杂度
  4. 稳定性:规避 PP 死锁问题

3. EKS 部署模式选择

EKS Auto Mode vs Standard Mode 的选择取决于要使用的 GPU 实例。

详细的 GPU 节点策略请参阅 EKS GPU 节点策略

本文档的详细内容(YAML 清单、故障排除、LWS 多节点配置等)由于篇幅原因请参阅韩文原文


参考资料