Inference Gateway 部署指南
本文档涵盖基于 kgateway + Bifrost 的推理网关实战部署流程。架构概念和路由策略(Cascade、Semantic Router、2-Tier 结构)请参阅 推理网关路由。
指南组成
本指南由 3 个文档组成。您可以按顺序学习,也可以选择需要的部分参考。
生产推理管道参考架构
基于 EKS Auto Mode 的生产推理管道完整请求流程。CloudFront(WAF/Shield)→ NLB → kgateway ExtProc 分析提示词决定 LLM 路由,经过 Bifrost 治理层和 llm-d KV Cache-aware 路由,将请求传递到最优模型。
部署步骤概览
1. 基础部署(必需)
在单个 NLB 端点后配置 kgateway + HTTPRoute + Bifrost,完成基础推理管道。
包含内容:
- kgateway 安装及 Gateway API CRD 配置
- GatewayClass、Gateway、HTTPRoute 资源定义
- 通过 ReferenceGrant 实现跨命名空间访问
- Bifrost Gateway Mode 配置(config.json + PVC)
- provider/model 格式及 IDE 兼容性(Aider、Cline、Continue.dev)
- SQLite 初始化流程(config.json 变更时)
学习时间: 30分钟 | 部署时间: 45分钟
2. 高级 功能(可选)
添加基于提示词的自动路由、生产安全层、Semantic Caching,强化成本优化和安全性。
包含内容:
- LLM Classifier 部署(基于提示词的 SLM/LLM 自动分支)
- CloudFront + WAF/Shield 安全层
- Semantic Caching 实现选项(GPTCache、RedisVL、Portkey、Helicone)
学习时间: 45分钟 | 部署时间: 60-90分钟
3. 故障排除(参考)
涵盖部署和运营中发生的常见问题及解决方法。
包含内容:
- 404 Not Found(HTTPRoute/Gateway 配置错误)
- Bifrost provider/model 错误
- Bifrost 模型名标准化问题
- Langfuse Sub-path 404
- OTel Trace 未送达
参考频率: 部署时或问题发生时