Inference Gateway 部署指南

本文档涵盖基于 kgateway + Bifrost 的推理网关实战部署流程。架构概念和路由策略（Cascade、Semantic Router、2-Tier 结构）请参阅推理网关路由。

指南组成

本指南由 3 个文档组成。您可以按顺序学习，也可以选择需要的部分参考。

生产推理管道参考架构

基于 EKS Auto Mode 的生产推理管道完整请求流程。CloudFront（WAF/Shield）→ NLB → kgateway ExtProc 分析提示词决定 LLM 路由，经过 Bifrost 治理层和 llm-d KV Cache-aware 路由，将请求传递到最优模型。

部署步骤概览

1. 基础部署（必需）

在单个 NLB 端点后配置 kgateway + HTTPRoute + Bifrost，完成基础推理管道。

包含内容：

kgateway 安装及 Gateway API CRD 配置
GatewayClass、Gateway、HTTPRoute 资源定义
通过 ReferenceGrant 实现跨命名空间访问
Bifrost Gateway Mode 配置（config.json + PVC）
provider/model 格式及 IDE 兼容性（Aider、Cline、Continue.dev）
SQLite 初始化流程（config.json 变更时）

学习时间： 30分钟 | 部署时间： 45分钟

2. 高级功能（可选）

添加基于提示词的自动路由、生产安全层、Semantic Caching，强化成本优化和安全性。

包含内容：

LLM Classifier 部署（基于提示词的 SLM/LLM 自动分支）
CloudFront + WAF/Shield 安全层
Semantic Caching 实现选项（GPTCache、RedisVL、Portkey、Helicone）

学习时间： 45分钟 | 部署时间： 60-90分钟

3. 故障排除（参考）

涵盖部署和运营中发生的常见问题及解决方法。

包含内容：

404 Not Found（HTTPRoute/Gateway 配置错误）
Bifrost provider/model 错误
Bifrost 模型名标准化问题
Langfuse Sub-path 404
OTel Trace 未送达

参考频率： 部署时或问题发生时

学习路径

快速启动（开发/测试环境）

通过基础部署配置 kgateway + Bifrost
问题发生时参考故障排除

所需时间： 1-2小时

生产配置（完整管道）

通过基础部署配置基础架构
在高级功能中添加 LLM Classifier + CloudFront/WAF + Semantic Caching
运营中参考故障排除

所需时间： 3-4小时

前提条件

在进行所有部署步骤之前，请确认以下内容。

必需要求

EKS 集群（K8s 1.32+、DRA 1.35 GA）
kubectl 安装及集群访问权限
Helm 3.x 安装
vLLM 或 llm-d 基础模型服务 Pod 部署完成

建议事项

AWS Load Balancer Controller 安装（NLB 自动创建）
Langfuse 部署完成（参考 Langfuse 部署指南）
生产环境：ACM 证书颁发（用于 CloudFront + TLS）

下一步

开始： 前往基础部署开始 kgateway 安装。
理解架构： 部署前阅读推理网关路由了解整体结构。
准备监控： 参考 Langfuse 部署指南配置可观测性栈。

参考资料

推理网关路由 - kgateway 架构及路由策略详解
Langfuse 部署指南 - Helm 安装、OTel 集成、Redis/ClickHouse 配置
Agent 监控 - Langfuse 架构及组件
Kubernetes Gateway API 官方文档
kgateway 官方文档
Bifrost 官方文档

生产推理管道参考架构​

部署步骤概览​

1. 基础部署（必需）​

2. 高级功能（可选）​

3. 故障排除（参考）​

学习路径​

快速启动（开发/测试环境）​

生产配置（完整管道）​

前提条件​

必需要求​

建议事项​

下一步​

参考资料​

生产推理管道参考架构

部署步骤概览

1. 基础部署（必需）

2. 高级功能（可选）

3. 故障排除（参考）

学习路径

快速启动（开发/测试环境）

生产配置（完整管道）

前提条件

必需要求

建议事项

下一步

参考资料