基于 EKS 的 Agentic AI 开放架构
📅 创建日期:2025-02-05 | 修改日期:2026-04-06 | ⏱️ 阅读时间:约 12 分钟
前置文档
阅读本文之前请先参阅以下文档:
- 平台架构 — Agentic AI Platform 的结构与核心层级
- 技术挑战 — 5 大核心挑战
- AWS Native 平台 — 基于托管服务的替代方案(对比参考)
Part 1:为什么选择 EKS 开放架构?
AWS Native 平台是快速启动的强大方案。但当出现以下需求时,就需要 EKS 开放架构:
核心信息:AWS Native → EKS 是互补关系。
| 标准 | AWS Native | EKS 开放架构 |
|---|---|---|
| 模型选择 | Bedrock 支持的模型 | 所有 Open Weight 模型 |
| GPU 管理 | 不需要(Serverless) | Karpenter 自动配置 |
| 成本优化 | 按用量计费 | Spot、MIG、Consolidation |
| 运维负担 | 最小 | 中等(Auto Mode 可减轻) |
| 混合 | 受限 | EKS Hybrid Nodes |
| 定制化 | 受限 | 完全灵活 |
现实的做法是从 AWS Native 开始,按需扩展到 EKS。两种方案可在同一 VPC 内共存。
Part 2:用 EKS Auto Mode 快速启动
EKS 集群配置选项:控制平面与数据平面
EKS 集群配置分为两个独立层。
Provisioned Control Plane (PCP)
PCP 是预先以固定 Tier 配置控制平面容量,保证 API Server 性能一致性的 Premium 选项。
PCP Tier 规格
| Tier | API 并发 (seats) | Pod 调度 | etcd DB | SLA | 费用 |
|---|---|---|---|---|---|
| Standard | 动态(AWS 自动调整) | 动态 | 8GB | 99.95% | $0.10/hr |
| XL | 1,700 | 167/sec | 16GB | 99.99% | - |
| 2XL | 3,400 | 283/sec | 16GB | 99.99% | - |
| 4XL | 6,800 | 400/sec | 16GB | 99.99% | - |
| 8XL | 13,600 | 400/sec | 16GB | 99.99% | - |
来源:AWS EKS Provisioned Control Plane 官方文档(K8s 1.30+ 基准)。PCP Tier 价格请参阅 AWS 官方定价页面。
Tier 选择标准:基于指标的判断
Worker 节点数不是 PCP Tier 选择标准
PCP Tier 应基于 Kubernetes 控制平面指标来选择。
核心监控指标:
| 指标 | Prometheus 查询 | 判断标准 |
|---|---|---|
| API Inflight Seats(最重要) | apiserver_flowcontrol_current_executing_seats_total | 持续超过 1,200 seats → XL 以上 |
| Pod Scheduling Rate | scheduler_schedule_attempts_SCHEDULED | 100/sec 以上 → XL, 200/sec 以上 → 2XL |
| etcd DB Size | apiserver_storage_size_bytes | 超过 10GB → 需要 XL 以上 |
PCP vs Auto Mode — 不同层
PCP 是控制平面容量选项,Auto Mode 是数据平面管理选项。两者可组合使用。