推理网关 & LLM Gateway 路由策略
撰写日期:2025-02-05 | 修订日期:2026-04-17 | 阅读时间:约 15 分钟
本文档涵盖 2-Tier 网关架构和路由策略(Cascade / Semantic Router / Hybrid)的设计原则。实际的 Helm 安装、HTTPRoute 清单、OTel 联动等部署步骤请参考推理网关配置指南。
概述
在大规模 AI 模型服务环境中,需要分离基础设施流量管理和 LLM 提供商抽象。单一 Gateway 复杂性急剧增加,各层优化困难。
2-Tier Gateway 架构:
- L1(Ingress Gateway):kgateway — Kubernetes Gateway API 标准、流量路由、mTLS、rate limiting
- L2-A(Inference Gateway):Bifrost/LiteLLM — 提供商集成、cascade routing、semantic caching
- L2-B(Data Plane):agentgateway — MCP/A2A 协议、stateful 会话管理
各层独立管理,分离基础设施和 AI 工作负载。
2-Tier Gateway 架构
Gateway 层次划分
LLM 推理平台需要明确区分 3 种不同的 Gateway 角色:
| Gateway 类型 | 作用 | 实现 | 位置 |
|---|---|---|---|
| Ingress Gateway | 接收外部流量 、TLS 终止、基于路径的路由 | kgateway(NLB 联动) | Tier 1 |
| Inference Gateway | 模型选择、智能路由、请求级联 | Bifrost / LiteLLM | Tier 2-A |
| Data Plane | MCP/A2A 协议、stateful 会话、工具路由 | agentgateway | Tier 2-B |
核心原则:
- Ingress Gateway (kgateway): 仅负责网络级别流量控制. 不包含模型选择逻辑
- Inference Gateway (Bifrost/LiteLLM): 分析请求复杂度 → 自动选择合适的模型 → 成本优化
- Data Plane (agentgateway): AI 专用协议 (MCP/A2A) 处理、维护 stateful 会话
整体结构
按 Tier 角色划分
| Tier | 组件 | 职责 | 协议 |
|---|---|---|---|
| Tier 1 | kgateway (Envoy 基础) | 流量路由, mTLS, rate limiting, 网络策略 | HTTP/HTTPS, gRPC |
| Tier 2-A | Bifrost / LiteLLM | 智能模型选择, 成本跟踪, request cascading, semantic caching | OpenAI-compatible API |
| Tier 2-B | agentgateway | MCP/A2A 会话管理, 自有推理基础设施路由, 防止 Tool Poisoning | HTTP, JSON-RPC, MCP, A2A |