基于 llm-d 的 EKS 分布式推理指南
当前版本:llm-d v0.5+(2026.03)
创建日期:2026-02-10 | 修改日期:2026-04-06 | 阅读时间:约 8 分钟
概述
llm-d 是 Red Hat 主导的 Apache 2.0 许可 Kubernetes 原生分布式推理栈。结合 vLLM 推理引擎、基于 Envoy 的 Inference Gateway 和 Kubernetes Gateway API,为大规模语言模型提供智能推理路由。
传统 vLLM 部署依赖简单的 Round-Robin 负载均衡,而 llm-d 通过 KV Cache 状态感知的智能路由,将相同 prefix 的请求转发到已持有该 KV Cache 的 Pod。从而显著缩短 Time To First Token(TTFT)并节省 GPU 算力。
llm-d 的 EKS 部署 YAML、helmfile 命令、集群创建等实战部署请参阅 自定义模型部署指南。
llm-d 的基于 Envoy 的 Inference Gateway 是专为 LLM 推理请求设计的特殊用途网关。
- llm-d Gateway:基于 InferenceModel/InferencePool CRD、KV Cache 感知路由、推理流量专用
- 通用 Gateway API:基于 HTTPRoute/GRPCRoute、TLS/认证/Rate Limiting、集群全局流量管理
生产环境推荐通用 Gateway API 实现负责集群入口,llm-d 在其下层优化 AI 推理流量。
llm-d 的 3 条 Well-Lit Path
llm-d 提供三条经过验证的部署路径。
架构
llm-d 的 Intelligent Inference Scheduling 架构如下构成。
llm-d vs 传统 vLLM 部署对比
| Feature | Traditional vLLM Deployment | llm-d Deployment ✨ |
|---|---|---|
| Routing Method | Round-Robin / Random | KV Cache-aware Intelligent Routing |
| Gateway Integration | Separate Ingress/Service configuration | Native Gateway API integration |
| Scaling Management | Manual HPA configuration | Automatic management via InferencePool |
| KV Cache Utilization | Independent management per Pod | Cross-pod prefix reuse for reduced TTFT |
| Installation Method | Combining individual Helm charts | Unified helmfile deployment (single command) |
| Model Definition | Writing Deployment YAML directly | Declarative management via InferenceModel CRD |
Gateway API CRD
llm-d 使用 Kubernetes Gateway API 和 Inference Extension CRD。
默认部署配置
| Setting | Default Value | Description |
|---|---|---|
| Model | Qwen/Qwen3-32B | Apache 2.0, BF16 ~65GB VRAM |
| vLLM Version | v0.6+ | CUDA 12.x support, H100/H200 optimized |
| Tensor Parallelism | TP=2 | 2 GPUs per replica |
| Replicas | 8 | 16 GPUs total (2× p5.48xlarge) |
| Max Model Length | 32,768 | Maximum context length |
| GPU Memory Utilization | 0.90 | KV Cache allocation ratio |
Qwen3-32B 模型选定原因
Qwen3-32B 是 llm-d 的官方默认模型,Apache 2.0 许可商业使用自由。BF16 基准约 65GB VRAM,TP=2(2x GPU)可在 H100 80GB 上稳定服务。
KV Cache 感知路由
llm-d 的核心差异化是 KV Cache 状态感知的智能路由。
路由工作原理
- 请求接收:客户端向 Inference Gateway 发送推理请求
- Prefix 分析:Gateway 对请求的 prompt prefix 进行哈希识别
- Cache 查询:检查各 vLLM Pod 的 KV Cache 状态,搜索持有该 prefix 的 Pod
- 智能路由:Cache hit 时路由到该 Pod,miss 时基于负载进行负载均衡
- 响应返回:vLLM 通过 Gateway 将推理结果返回给客户端
KV Cache 感知路由效果
| Metric | Cache Miss (Traditional) | Cache Hit (llm-d) | Improvement |
|---|---|---|---|
| TTFT (Time To First Token) | High (full prefill required) | Low (prefill skipped) | 50-80% reduction |
| GPU Computation | Full prompt processing | Only new tokens processed | Computation savings |
| Throughput | Baseline | Improved | 1.5-3x improvement |
在使用相同系统 Prompt 的应用中 KV Cache 感知路由效果最大化。例如 RAG 流水线中反复引用相同上下文文档时,复用该 prefix 的 KV Cache 可显著缩短 TTFT。