Reference Architecture
本节提供 Agentic AI Platform 的实战部署与配置指南。概念和设计原则请参阅文档章节,此处聚焦于实际集群部署和运维所需的具体配置、YAML 清单和验证流程。
Documentation vs Reference Architecture
| 区分 | Documentation | Reference Architecture |
|---|---|---|
| 重点 | 架构概念、设计原则、技术对比 | 实战部署流程、清单、验证 |
| 读者 | 决策者、架构师 | 平台工程师、DevOps |
| 产出物 | 架构文档、决策记录 | 可部署的 YAML、脚本、检查清单 |
| 更新频率 | 设计变更时 | 部署/运维经验积累时 |
平台架构
Agentic AI Platform 的完整架构,包括基于 Ontology 的 Knowledge Feature Store、6 层结构、模型服务/微调管道。
在 draw.io 中编辑
在 draw.io 中打开 — 通过 GitHub 集成直接编辑。
整体架构概览
下图展示了 Reference Architecture 的 6 个领域及部署顺序。
部署顺序
Reference Architecture 按以下顺序配置。每个阶段依赖前一阶段的产出,因此必须按顺序执行。
Phase 1:GPU 基础设施配置
配置 EKS 集群和 GPU 节点组。包含 Auto Mode 与 Standard Mode 的差异、GPU Operator 安装注意事项。
| 项目 | 详情 |
|---|---|
| EKS 版本 | 1.32+(推荐 1.33) |
| 节点组 | MNG p5en.48xlarge(Spot) |
| GPU Operator | devicePlugin.enabled=false(防止 Auto Mode 冲突) |
| 监控代理 | DCGM Exporter、GFD、Node Status Exporter |