自定义模型部署指南

本文档是在 EKS 上使用 vLLM 部署大型开源模型的实战指南。以 GLM-5.1 744B MoE FP8 模型部署案例为示例，同样的模式可应用于其他大型模型（DeepSeek-V3、Mixtral、Qwen-MoE 等）。

本指南的目的

本文档不是"这样做就行"，而是聚焦于"遇到了这些问题，这样解决的"。帮助提前了解实际生产部署中可能遇到的问题并做好应对。

1. 模型选择标准

部署模型选择时评估以下标准。

为什么选择 GLM-5.1？

MIT 许可可商业使用，Agentic Coding 任务中超越 OpenAI GPT-4o 的性能。特别是 SWE-bench 分数 77.8% 在代码生成和 Bug 修复任务中显示优势。

自动模型分流

使用 LLM Classifier 时客户端通过单一端点（/v1）请求，根据 Prompt 内容自动选择 SLM/LLM。简单请求路由到 Qwen3-4B（L4 $0.3/hr），复杂请求（重构、架构、设计等）路由到 GLM-5 744B（H200 $12/hr）。配置请参阅网关配置指南。

部署大型模型时最重要的选择是 GPU 实例类型。根据模型 VRAM 需求选择实例。

实例	GPU	VRAM	744B 模型单节点？	PP=2 多节点	Spot 价格（us-east-2）	推荐度
p5.48xlarge	H100×8	640GB	否（744GB 大于 640GB）	有 vLLM 死锁风险	$12/hr	注意
p5en.48xlarge	H200×8	1,128GB	是	是（不需要）	$12/hr	最优
p6-b200.48xlarge	B200×8	1,536GB	是	是（不需要）	$18/hr	充裕

VRAM 不足实例使用注意

模型 VRAM 需求超过实例 VRAM 时需要 PP（Pipeline Parallelism）多节点。但 vLLM V1 引擎的多节点 PP 死锁问题（第 6 节参考）使得稳定部署困难。推荐选择 VRAM 充足的实例进行单节点部署。

选择 VRAM 充足的最低价 Spot 实例。

EKS Auto Mode vs Standard Mode 的选择取决于要使用的 GPU 实例。

详细的 GPU 节点策略请参阅 EKS GPU 节点策略。

本文档的详细内容（YAML 清单、故障排除、LWS 多节点配置等）由于篇幅原因请参阅韩文原文。