跳到主要内容

分层网关架构

📅 撰写日期:2026-06-17 | 修订日期:2026-06-17 | ⏱️ 阅读时间:约 9 分钟

概述

Agentic AI 平台的网关层由具有不同职责的多个组件构成。此前,“推理网关(Inference Gateway)”一词同时指代集群内推理 Pod 路由外部 LLM 提供商代理两种不同对象,造成混淆。本文档对网关层的术语和角色进行统一定义,并提供各层应使用何种解决方案的判断标准。

本文档聚焦于定义与映射(map)。各层的详细比较和部署步骤请参考正文链接所指向的专用文档。

本文档的定位

网关层对应平台架构Layer 5(Gateway & Routing)。请求流向为 Layer 6(入口)→ Layer 5(网关)→ Layer 4(Agent),当 Agent 需要推理时再经由 Layer 5 调用 Layer 2(模型服务)。

网关层定义

平台全局使用以下术语。不再使用含糊的“推理网关”,而是将集群内路由与 LLM API 代理明确区分

层级名称角色代表实现
Tier 1Ingress / North-South Gateway外部流量接入、TLS 终止、路径路由、认证、Rate LimitingAWS LBC · Cilium · NGINX GF · Envoy Gateway · kGateway · Kong
Tier 2 ①Inference Routing(集群内)路由到集群内推理 Pod 组,KV 缓存/负载感知的端点选择Gateway API Inference Extension(InferencePool · EPP)
Tier 2 ②LLM API Gateway(提供商代理)外部/内部模型抽象、模型选择/Cascade、成本追踪、Semantic CachingBifrost · LiteLLM · OpenRouter · Portkey · Helicone · Kong AI Gateway
正交轴Agent Data PlaneMCP/A2A 协议、stateful 会话、工具路由agentgateway
核心区分 — Tier 2 ① vs ②
  • Tier 2 ① Inference Routing集群内部运行。HTTPRoute 将 InferencePool 作为后端引用,EPP(Endpoint Picker)综合 KV 缓存和负载选择 vLLM/llm-d Pod 端点。处理自托管模型基础设施。
  • Tier 2 ② LLM API Gateway 抽象模型 API。通过 OpenAI 兼容 API 将外部提供商(OpenAI · Anthropic · Bedrock)或自托管模型暴露为统一接口,执行基于复杂度的 Cascade、成本追踪和缓存。
  • 两者并非互斥。自托管推理用 ①、外部提供商集成用 ② 的混合配置较为常见。

Agent Data Plane(agentgateway)是正交轴,而非层级。因为它处理 AI 专用协议(MCP/A2A)和 stateful 会话而非 HTTP 流量,故不纳入 Tier 1–2 的线性分层。

整体结构

各层应使用何种方案

各层的方案选型、详细比较和部署步骤在专用文档中说明。本表是应在何处阅读什么的地图。

层级用什么填充详细参考
Tier 1 Ingress6 种通用 Gateway API 实现的比较与选型Gateway API 采用指南(EKS Best Practices)
Tier 2 ① Inference RoutingGateway API Inference Extension(InferencePool · EPP)路由策略 — Gateway API Inference Extension
Tier 2 ② LLM API GatewayBifrost·LiteLLM·OpenRouter 等的比较及 Cascade/Semantic 策略路由策略 — LLM Gateway 比较 · 部署指南
Agent Data Planeagentgateway(MCP/A2A)路由策略 — agentgateway 数据平面
Tier 1 与 Tier 2 的关系

Tier 1(通用网关) 从 EKS 网络视角深入讨论,负责包括 NGINX Ingress 退役应对在内的全部 North-South 流量。Tier 2 在其之上承担面向推理流量的专用路由。大多数 Agentic 平台会同时配置 Tier 1 和 Tier 2,而用何种方案组合填充这两层是设计的核心。

流量流向示例

  • 外部 LLM 调用:Client → Tier 1(kgateway)→ Tier 2 ②(Bifrost/LiteLLM,Cascade·缓存)→ 外部提供商 → 响应 + 成本记录
  • 自托管推理:Client → Tier 1(kgateway)→ Tier 2 ①(InferencePool·EPP)→ vLLM/llm-d Pod → 响应
  • 代理工具调用:Client → Tier 1(kgateway)→ Agent Data Plane(agentgateway,MCP/A2A)→ 工具·会话

参考资料

官方文档

相关文档(内部)