Production Ready · E2E Verified

Agentic AI Platform
推理管道

kgateway ExtProc 路由 · Bifrost 治理 · llm-d KV Cache · Langfuse OTel

Client
Cursor · VS Code · curl · OpenAI SDK — model: "auto"
POST /v1/chat/completions
AWS NLB internet-facing
Port 80 · us-east-2
kgateway v2.2.2 Gateway API + ExtProc LLM Router
Envoy ext_proc gRPC · 提示词分类 → 模型路由决策
步骤1 请求 body BUFFERED → 转发到 ExtProc gRPC
步骤2 提示词分析(关键词 · 长度 · 轮次) → strong/weak 分类
步骤3 model 字段转换 + x-model-tier 头部注入
步骤4 clear_route_cache=true → kgateway 基于头部重新路由
x-model-tier 头部路由分支
STRONG (复杂提示词)
Bifrost 治理
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
llm-d EPP KV Cache Routing
Prefix-aware · Load-aware
Redis KV Cache Index · NCCL
vLLM GLM-5
glm-4-9b-chat · p5en.48xlarge
H200×8 · TP=8 · 32K ctx · Spot
WEAK (简单提示词)
Bifrost 治理
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
vLLM Qwen3
Qwen2.5-Coder-3B · g6.xlarge
L4×1 · 8K ctx · Spot

可观测性与治理层

Bifrost · llm-d · Langfuse 集成

Governance + Observability Stack
Bifrost v1.4.11
  • Semantic Cache — Redis 相似度 0.85+ 匹配
  • Rate Limiting — 每分钟/每小时请求限制
  • Cost Tracking — 按模型计算 Token 成本
  • Provider 路由 — llmd-glm5, llmd-qwen3
  • OTel Trace → Langfuse 导出
llm-d v1.0.23
  • Prefix-aware 路由 (KV Cache 命中 87%+)
  • Load-aware 评分 (GPU 利用率)
  • Redis KV Cache Indexer
  • EPP — Endpoint Picker Provider
  • Session affinity(对话上下文保持)
Langfuse v3.162.0 — OTel Observability
  • OTel Trace 收集 (Bifrost → OTLP)
  • ClickHouse 分析引擎
  • 提示词/响应日志
  • PostgreSQL 元数据
  • 按模型 latency · Token · 成本仪表盘
  • Redis 缓存 + S3 Blob

基础设施

EKS Auto Mode "agentic-platform" · us-east-2

Auto Mode
general-purpose
kgateway · ExtProc · Bifrost · Langfuse
GPU MNG #1
p5en.48xlarge
H200×8 · Spot · GLM-5
GPU MNG #2
g6.xlarge
L4×1 · Spot · Qwen3
Gateway
kgateway v2.2.2
OCI · CRDs + ExtProc
存储
EBS gp3 (CSI)
ebs.csi.eks.amazonaws.com
附加 Addons
vpc-cni · coredns
kube-proxy · metrics-server