跳到主要内容

Reference Architecture

本节提供 Agentic AI Platform 的实战部署与配置指南。概念和设计原则请参阅文档章节,此处聚焦于实际集群部署和运维所需的具体配置、YAML 清单和验证流程。

Documentation vs Reference Architecture
区分DocumentationReference Architecture
重点架构概念、设计原则、技术对比实战部署流程、清单、验证
读者决策者、架构师平台工程师、DevOps
产出物架构文档、决策记录可部署的 YAML、脚本、检查清单
更新频率设计变更时部署/运维经验积累时

平台架构

Agentic AI Platform 的完整架构,包括基于 Ontology 的 Knowledge Feature Store、6 层结构、模型服务/微调管道。

在 draw.io 中编辑

在 draw.io 中打开 — 通过 GitHub 集成直接编辑。


整体架构概览

下图展示了 Reference Architecture 的 6 个领域及部署顺序。

部署顺序

Reference Architecture 按以下顺序配置。每个阶段依赖前一阶段的产出,因此必须按顺序执行

Phase 1:GPU 基础设施配置

配置 EKS 集群和 GPU 节点组。包含 Auto Mode 与 Standard Mode 的差异、GPU Operator 安装注意事项。

项目详情
EKS 版本1.32+(推荐 1.33)
节点组MNG p5en.48xlarge(Spot)
GPU OperatordevicePlugin.enabled=false(防止 Auto Mode 冲突)
监控代理DCGM Exporter、GFD、Node Status Exporter

Phase 2:模型部署

使用 vLLM 服务大型开源模型。涵盖自定义镜像构建、S3 模型缓存、多节点部署注意事项。

项目详情
服务引擎vLLM(自定义镜像)
模型缓存S3 → s5cmd → NVMe emptyDir
并行化Tensor Parallelism(推荐单节点)
验证OpenAI 兼容 API 端点

Phase 3:推理网关

配置基于 kgateway + Bifrost/LiteLLM 的 2-Tier 推理网关。包含基于复杂度的 Cascade Routing、Semantic Caching、Guardrails。

项目详情
L1 网关kgateway(Gateway API、mTLS、rate limiting)
L2-A 网关Bifrost(CEL Rules 条件路由、failover)或 LiteLLM(原生 complexity-based routing)
负载均衡器NLB(TCP/TLS)
路由策略基于复杂度的 Cascade(SLM → LLM)、Hybrid Routing、Fallback

Phase 4:监控与可观测性

配置基于 Prometheus + AMP + AMG + Langfuse 的监控栈。

项目详情
指标采集Prometheus → AMP(Pod Identity 认证)
仪表板AMG Grafana(SigV4 ec2_iam_role
LLM 可观测性Langfuse(OTel traces、成本追踪)
GPU 指标DCGM Exporter(GPU 利用率、VRAM、温度)

Phase 5:流水线

配置 LoRA Fine-tuning 和 Cascade Routing 流水线。

项目详情
Fine-tuningLoRA 适配器训练 → S3 存储 → vLLM 热加载
Cascade RoutingSLM(8B)→ LLM(744B)成本优化
评估Ragas + 自定义基准测试

Phase 6:编码工具对接

将 Aider、Cline 等 AI 编码工具连接到自托管模型。

项目详情
编码工具Aider、Cline、Continue.dev
协议OpenAI 兼容 API
连接路径编码工具 → NLB → kgateway → Bifrost/LiteLLM → vLLM
监控Bifrost/LiteLLM OTel → Langfuse(按请求追踪)

文档列表

核心设计原则

Reference Architecture 遵循以下原则。

1. 单节点优先(Single-Node First)

多节点分布式部署会显著增加复杂度和故障可能性。选择 VRAM 充足的实例(p5en、p6),优先在单节点上仅用 Tensor Parallelism 进行服务

2. 利用 Spot 实例

GPU Spot 实例比 On-Demand 便宜 80-85%。推理工作负载是无状态的,Spot 回收时可立即在新实例上重启。模型权重从 S3 快速恢复。

3. 标准工具链

尽可能使用 CNCF 和 Kubernetes 生态的标准工具。

领域标准工具替代方案
GPU 调度Karpenter / MNGAuto Mode NodePool
模型服务vLLMSGLang、llm-d
AI 网关Bifrost / LiteLLMOpenClaw、Helicone
指标Prometheus + AMPCloudWatch
LLM 可观测性LangfuseHelicone、LangSmith
分布式训练LeaderWorkerSet(LWS)KubeRay

4. 分层成本优化

成本优化采用分层方法而非单一技术。

前置条件

部署 Reference Architecture 的前置条件。

AWS 账户与权限

  • EKS 集群创建权限(IAM、VPC、EC2、EKS)
  • GPU 实例 Spot 配额(p5en.48xlarge:vCPU 192 个以上)
  • S3 存储桶创建权限
  • AMP/AMG 创建权限(监控配置时)
  • ECR 注册表创建权限(自定义镜像构建时)

工具

工具最低版本用途
eksctl0.200+EKS 集群管理
kubectl1.32+Kubernetes 资源管理
helm3.16+Chart 部署
aws CLI2.22+AWS 资源管理
docker27+自定义镜像构建
s5cmd2.2+高速 S3 同步

网络

  • 公有子网:NLB 部署用(编码工具外部访问时)
  • 私有子网:GPU 节点、vLLM、Bifrost 部署用
  • NAT Gateway:S3、ECR、HuggingFace Hub 访问用
  • VPC 端点(推荐):S3、ECR、AMP

下一步

关于概念和架构设计,请参阅以下文档:


反馈

本 Reference Architecture 基于实战部署经验持续更新。如有改进建议或额外案例,请提交 Issue。