跳到主要内容

Inference Gateway 部署指南

本文档涵盖基于 kgateway + Bifrost 的推理网关实战部署流程。架构概念和路由策略(Cascade、Semantic Router、2-Tier 结构)请参阅 推理网关路由

指南组成

本指南由 3 个文档组成。您可以按顺序学习,也可以选择需要的部分参考。

生产推理管道参考架构

基于 EKS Auto Mode 的生产推理管道完整请求流程。CloudFront(WAF/Shield)→ NLB → kgateway ExtProc 分析提示词决定 LLM 路由,经过 Bifrost 治理层和 llm-d KV Cache-aware 路由,将请求传递到最优模型。


部署步骤概览

1. 基础部署(必需)

在单个 NLB 端点后配置 kgateway + HTTPRoute + Bifrost,完成基础推理管道。

包含内容:

  • kgateway 安装及 Gateway API CRD 配置
  • GatewayClass、Gateway、HTTPRoute 资源定义
  • 通过 ReferenceGrant 实现跨命名空间访问
  • Bifrost Gateway Mode 配置(config.json + PVC)
  • provider/model 格式及 IDE 兼容性(Aider、Cline、Continue.dev)
  • SQLite 初始化流程(config.json 变更时)

学习时间: 30分钟 | 部署时间: 45分钟


2. 高级功能(可选)

添加基于提示词的自动路由、生产安全层、Semantic Caching,强化成本优化和安全性。

包含内容:

  • LLM Classifier 部署(基于提示词的 SLM/LLM 自动分支)
  • CloudFront + WAF/Shield 安全层
  • Semantic Caching 实现选项(GPTCache、RedisVL、Portkey、Helicone)

学习时间: 45分钟 | 部署时间: 60-90分钟


3. 故障排除(参考)

涵盖部署和运营中发生的常见问题及解决方法。

包含内容:

  • 404 Not Found(HTTPRoute/Gateway 配置错误)
  • Bifrost provider/model 错误
  • Bifrost 模型名标准化问题
  • Langfuse Sub-path 404
  • OTel Trace 未送达

参考频率: 部署时或问题发生时


学习路径

快速启动(开发/测试环境)

  1. 通过 基础部署 配置 kgateway + Bifrost
  2. 问题发生时参考 故障排除

所需时间: 1-2小时


生产配置(完整管道)

  1. 通过 基础部署 配置基础架构
  2. 高级功能 中添加 LLM Classifier + CloudFront/WAF + Semantic Caching
  3. 运营中参考 故障排除

所需时间: 3-4小时


前提条件

在进行所有部署步骤之前,请确认以下内容。

必需要求

  • EKS 集群(K8s 1.32+、DRA 1.35 GA)
  • kubectl 安装及集群访问权限
  • Helm 3.x 安装
  • vLLM 或 llm-d 基础模型服务 Pod 部署完成

建议事项

  • AWS Load Balancer Controller 安装(NLB 自动创建)
  • Langfuse 部署完成(参考 Langfuse 部署指南
  • 生产环境:ACM 证书颁发(用于 CloudFront + TLS)

下一步


参考资料