基于 EKS 的 Agentic AI 开放架构

📅 创建日期：2025-02-05 | 修改日期：2026-04-06 | ⏱️ 阅读时间：约 12 分钟

前置文档

阅读本文之前请先参阅以下文档：

平台架构 — Agentic AI Platform 的结构与核心层级
技术挑战 — 5 大核心挑战
AWS Native 平台 — 基于托管服务的替代方案（对比参考）

Part 1：为什么选择 EKS 开放架构？

AWS Native 平台是快速启动的强大方案。但当出现以下需求时，就需要 EKS 开放架构：

核心信息：AWS Native → EKS 是互补关系。

标准	AWS Native	EKS 开放架构
模型选择	Bedrock 支持的模型	所有 Open Weight 模型
GPU 管理	不需要（Serverless）	Karpenter 自动配置
成本优化	按用量计费	Spot、MIG、Consolidation
运维负担	最小	中等（Auto Mode 可减轻）
混合	受限	EKS Hybrid Nodes
定制化	受限	完全灵活

现实的做法是从 AWS Native 开始，按需扩展到 EKS。两种方案可在同一 VPC 内共存。

Part 2：用 EKS Auto Mode 快速启动

EKS 集群配置选项：控制平面与数据平面

EKS 集群配置分为两个独立层。

Provisioned Control Plane (PCP)

PCP 是预先以固定 Tier 配置控制平面容量，保证 API Server 性能一致性的 Premium 选项。

PCP Tier 规格

Tier	API 并发 (seats)	Pod 调度	etcd DB	SLA	费用
Standard	动态（AWS 自动调整）	动态	8GB	99.95%	$0.10/hr
XL	1,700	167/sec	16GB	99.99%	-
2XL	3,400	283/sec	16GB	99.99%	-
4XL	6,800	400/sec	16GB	99.99%	-
8XL	13,600	400/sec	16GB	99.99%	-

来源：AWS EKS Provisioned Control Plane 官方文档（K8s 1.30+ 基准）。PCP Tier 价格请参阅 AWS 官方定价页面。

Tier 选择标准：基于指标的判断

Worker 节点数不是 PCP Tier 选择标准

PCP Tier 应基于 Kubernetes 控制平面指标来选择。

核心监控指标：

指标	Prometheus 查询	判断标准
API Inflight Seats（最重要）	`apiserver_flowcontrol_current_executing_seats_total`	持续超过 1,200 seats → XL 以上
Pod Scheduling Rate	`scheduler_schedule_attempts_SCHEDULED`	100/sec 以上 → XL, 200/sec 以上 → 2XL
etcd DB Size	`apiserver_storage_size_bytes`	超过 10GB → 需要 XL 以上

PCP vs Auto Mode — 不同层

PCP 是控制平面容量选项，Auto Mode 是数据平面管理选项。两者可组合使用。

控制平面 × 数据平面对比及组合

⬆️ Control Plane: Standard vs Provisioned (PCP)

Feature	Standard (Default)	Provisioned Control Plane (PCP)
Scaling	Dynamic auto-scaling (AWS managed)	Fixed tier (pre-provisioned)
API Concurrency (seats)	Dynamic (AWS auto-adjusted)	XL: 1,700 / 2XL: 3,400 / 4XL: 6,800 / 8XL: 13,600
Pod Scheduling Rate	Dynamic	XL: 167 / 2XL: 283 / 4XL–8XL: 400 pods/sec
etcd DB Size	8 GB	16 GB
SLA	99.95%	99.99%
Cost	$0.10/hr ($73/mo)	Per-tier pricing (see AWS pricing page)
Tier Selection Criteria	-	API Inflight Seats + Pod Scheduling Rate + etcd DB Size (NOT node count)

⬇️ Data Plane: MNG vs Karpenter vs Auto Mode

Feature	Managed Node Groups	Karpenter	EKS Auto Mode
Node Provisioning	Manual (ASG-based)	Automatic (Pod-driven)	Fully automatic (AWS managed)
GPU Optimization	Manual instance selection	Auto GPU selection	Auto + default NodeClass
Scaling Speed	Slow (ASG → EC2)	Fast (direct EC2 API)	Fast (built-in Karpenter)
Add-on Mgmt	Manual (CNI, CSI, etc.)	Manual	✅ Automatic
Security Patches	Manual AMI update	Manual	✅ Automatic
Cost Optimization	Limited	Consolidation + Spot	Consolidation + 7.5% surcharge
Operational Burden	High	Medium	Low

🔗 Recommended Combination Matrix

Combination	Control Plane	Data Plane	Best For
General AI Service	Standard	Auto Mode	Small-mid inference, minimal ops
GPU-Optimized Platform	Standard	Karpenter	Multi-GPU, Spot, cost optimization
Large AI Platform	PCP (tier-xl+)	Auto Mode	API perf guaranteed (1,700+ seats) + auto ops
Ultra-Scale Training	PCP (tier-4xl+)	Karpenter	API concurrency 6,800+, fine GPU control

AI 平台按规模推荐配置

小规模（PoC/Demo）：Standard + Auto Mode — 最小运维负担，99.95% SLA
中规模（生产推理）：Standard + Karpenter — GPU 成本优化，99.95% SLA
大规模（企业级 AI）：PCP XL + Auto Mode — API seats ≤ 1,700，99.99% SLA
超大规模（训练集群）：PCP 4XL+ + Karpenter — API seats ≤ 6,800+，GPU 精细控制

Amazon EKS 与 Karpenter：最大化 Kubernetes 优势

Amazon EKS 与 Karpenter 的组合最大化 Kubernetes 优势，实现完全自动化的最优基础设施。

为什么选择 EKS + Karpenter？

EKS + Karpenter + AWS Infrastructure Layers

Aspect	Traditional Cluster Autoscaler	Karpenter on EKS
Scaling Speed	60-90 seconds (ASG-based)	10-30 seconds (direct EC2 API)
Instance Selection	Limited by ASG pre-configuration	Dynamic selection from 600+ EC2 types
GPU Workloads	Requires separate ASGs per GPU type	Single NodePool handles all GPU types
Spot Optimization	Manual fallback configuration	Automatic spot-to-on-demand fallback
Cost Efficiency	Limited consolidation	Aggressive bin-packing and consolidation
AWS Integration	Indirect via ASG	Direct EC2/Spot API calls
Configuration	ASG + IAM + Launch Templates	Simple NodePool CRD

Karpenter：AI 基础设施自动化的核心

Karpenter 克服了传统 Cluster Autoscaler 的局限，提供面向 AI 工作负载优化的节点配置。

Karpenter v1.0+ GA

Karpenter 在 v1.0 以上为 GA 状态。请使用 v1 API（karpenter.sh/v1）。

Cluster Autoscaler vs Karpenter Comparison

Feature	Benefit for Agentic AI
Zero-touch Nodes	No manual AMI updates or node group management
Automatic Scaling	Built-in autoscaling without Karpenter configuration
Security Patching	Automatic OS and Kubernetes security updates
Storage Automation	Dynamic PV provisioning for model caching and vector stores
Network Policies	Integrated network security for multi-tenant agents

Karpenter Key Features

Comparison	Cluster Autoscaler	Karpenter
Provisioning Time	5-10 min	2-3 min
Instance Selection	Fixed types in Node Group	Dynamic based on workload
GPU Support	Manual Node Group config	Automatic NodePool matching
Cost Optimization	Limited	Auto Spot, Consolidation

EKS Auto Mode：完全自动化的完成

EKS Auto Mode 自动配置和管理包括 Karpenter 在内的核心组件。

EKS Auto Mode vs 手动配置对比

EKS Auto Mode vs Manual Configuration

Your Situation	Recommendation
New EKS cluster for Agentic AI	Karpenter (native AWS integration)
Existing cluster with CA	Migrate to Karpenter (worth the effort)
Need GPU autoscaling	Karpenter (required for GPU efficiency)
Simple CPU-only workloads	EKS Auto Mode (easiest option)
Multi-tenant platform	Karpenter (better isolation and cost attribution)
Regulated industries	EKS Auto Mode (compliance-friendly)

GPU 工作负载的 EKS Auto Mode 设置

# 在 EKS Auto Mode 中添加 GPU NodePool
apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
  name: gpu-inference-pool
spec:
  template:
    metadata:
      labels:
        node-type: gpu-inference
        eks-auto-mode: "true"
    spec:
      requirements:
        - key: karpenter.sh/capacity-type
          operator: In
          values: ["spot", "on-demand"]
        - key: node.kubernetes.io/instance-type
          operator: In
          values:
            - g5.xlarge
            - g5.2xlarge
            - g5.4xlarge
            - g5.12xlarge
            - p4d.24xlarge
        - key: karpenter.k8s.aws/instance-gpu-count
          operator: Gt
          values: ["0"]
      nodeClassRef:
        group: karpenter.k8s.aws
        kind: EC2NodeClass
        name: default  # 利用 EKS Auto Mode 默认 NodeClass
  limits:
    nvidia.com/gpu: 50
  disruption:
    consolidationPolicy: WhenEmptyOrUnderutilized
    consolidateAfter: 30s

EKS Auto Mode 推荐事项

EKS Auto Mode 是构建新 AI 平台时推荐的选项。

Karpenter 安装和配置自动化可缩短 80% 初始构建时间
核心组件自动升级可大幅减少运维负担
只需自定义 GPU NodePool 即可立即部署 AI 工作负载

EKS Auto Mode 与 GPU 支持

EKS Auto Mode 完全支持包括 NVIDIA GPU 在内的加速计算实例。

re:Invent 2024/2025 新功能：

EKS Hybrid Nodes（GA）：将本地 GPU 基础设施集成到 EKS 集群
Enhanced Pod Identity v2：跨账户 IAM 角色支持
Native Inferentia/Trainium Support：Neuron SDK 自动配置
Provisioned Control Plane：大规模 AI 训练工作负载的预配置

Auto Mode 可部署的 Agentic AI 组件

在 EKS Auto Mode 上可以部署 Agentic AI 平台的所有核心组件。

推理：vLLM + llm-d

vLLM 是 LLM 推理专用引擎，llm-d 提供考虑 KV Cache 状态的智能路由。

模型服务栈构成

vLLM：LLM 推理专用（GPT、Claude、Llama 等）— 基于 PagedAttention 的 KV Cache 优化
Triton Inference Server：非 LLM 推理（嵌入、重排序、Whisper STT）
llm-d：通过 KV Cache 感知路由最大化 Prefix cache 命中率

详细配置请参阅 vLLM 模型服务和 llm-d 分布式推理。

网关：kgateway + Bifrost（2-Tier Gateway）

2-Tier Gateway 架构将流量管理和模型路由分离：

Tier 1（kgateway）：基于 Gateway API 的认证、Rate Limiting、流量管理
Tier 2（Bifrost）：模型抽象、Fallback、成本追踪、Cascade Routing

详细架构请参阅 Inference Gateway 路由。

Agent：LangGraph + NeMo Guardrails + MCP/A2A

EKS 中 Agent 工作流由以下组件构成：

LangGraph：多步骤 Agent 工作流定义、条件分支、并行执行
NeMo Guardrails：Prompt 注入防御、PII 泄露防护、输出验证
MCP：Agent Ready 应用以标准化方式提供 Tool
A2A：Agent 间安全高效通信
Redis（ElastiCache）：作为 LangGraph checkpointer 管理状态

Agent Pod 通过 KEDA 基于 Redis 队列长度自动伸缩。

详细内容请参阅 Kagent Agent 管理和 AWS Native 平台 — AgentCore & MCP。

RAG + 可观测性

Milvus：向量数据库 — RAG 系统核心（详情）
Langfuse：生产 LLM 链路追踪、Token 成本追踪（Self-hosted、MIT 许可）
Prometheus + Grafana：基础设施指标监控

EKS 快速部署

Deployment Time Comparison

Benefit	Description
Immediate Start	Deploy GPU workloads immediately after cluster creation without Karpenter installation/configuration
Automatic Upgrades	Automatic updates for core components like Karpenter, CNI, CSI
Automated Security Patching	Automatic application of security vulnerability patches
Extensible with Custom Configuration	Add custom settings like GPU NodePool, EFA NodeClass when needed

各方案的 EKS 部署方法

EKS Integration Benefits

Challenge	Kubernetes-Based	EKS Auto Mode + Karpenter	Expected Effect
GPU Monitoring	DCGM + Prometheus	NodePool-based integrated management	40% improved resource utilization
Dynamic Scaling	HPA + KEDA	Just-in-Time provisioning (auto-configured)	50% reduced provisioning time
Cost Control	Namespace Quota	Spot + Consolidation (auto-enabled)	50-70% cost reduction
FM Fine-tuning	Kubeflow Operator	Training NodePool + EFA	30% improved training efficiency

快速部署示例

部署指南请参阅 Reference Architecture。

GPU 成本优化详情

Spot 实例利用、Consolidation、基于时段的调度成本管理等 GPU 成本优化策略请参阅 GPU 资源管理文档。

GPU 安全与故障排除

GPU Pod 安全策略、Network Policy、IAM、MIG 隔离及 GPU 故障排除指南请参阅 EKS GPU 节点策略文档。

Part 3：通过 EKS Capability 最小化基础设施运维负担

什么是 EKS Capability？

EKS Capability 是 Amazon EKS 为有效运营特定工作负载而集成经验证的开源工具和 AWS 服务提供的平台级功能。

面向 Agentic AI 的核心 EKS Capability

EKS Advanced Capabilities

EKS Capability	역할	Agentic AI 활용	지원 방식
ACK (AWS Controllers for Kubernetes)	AWS 서비스의 Kubernetes 네이티브 관리	S3 모델 저장소, RDS 메타데이터, SageMaker 학습 작업	EKS Add-on
KRO (Kubernetes Resource Orchestrator)	복합 리소스 추상화 및 템플릿화	AI 추론 스택, 학습 파이프라인 원클릭 배포	EKS Add-on
Argo CD	GitOps 기반 지속적 배포	모델 서빙 배포 자동화, 롤백, 환경 동기화	EKS Add-on

Argo Workflows 需要单独安装

Argo Workflows 不是 EKS Capability 官方支持，需要自行安装。

部署指南请参阅 Argo Workflows 官方文档。

ACK（AWS Controllers for Kubernetes）

ACK 通过 Kubernetes Custom Resource 直接配置和管理 AWS 服务。可通过 EKS Add-on 简便安装。

AI 平台中 ACK 的应用场景：

ACK Controllers Usage

AWS 서비스	ACK Controller	Agentic AI 활용
S3	`s3.services.k8s.aws`	모델 아티팩트 저장소, 학습 데이터 버킷
RDS/Aurora	`rds.services.k8s.aws`	Langfuse 백엔드, 메타데이터 저장소
SageMaker	`sagemaker.services.k8s.aws`	모델 학습 작업, 엔드포인트 배포
Secrets Manager	`secretsmanager.services.k8s.aws`	API 키, 모델 자격증명 관리
ECR	`ecr.services.k8s.aws`	컨테이너 이미지 레지스트리

使用 ACK 创建 S3 存储桶示例：

apiVersion: s3.services.k8s.aws/v1alpha1
kind: Bucket
metadata:
  name: agentic-ai-models
  namespace: ai-platform
spec:
  name: agentic-ai-models-prod
  versioning:
    status: Enabled
  encryption:
    rules:
    - applyServerSideEncryptionByDefault:
        sseAlgorithm: aws:kms
  tags:
  - key: Project
    value: agentic-ai

KRO（Kubernetes Resource Orchestrator）

KRO 将多个 Kubernetes 资源和 AWS 资源组合为一个抽象化单元，简化复杂基础设施的部署。

用 KRO 以单一资源部署 AI 推理栈：

# 以单一资源部署完整栈
apiVersion: v1alpha1
kind: AIInferenceStack
metadata:
  name: llama-inference
  namespace: ai-platform
spec:
  modelName: llama-3-70b
  gpuType: g5.12xlarge
  minReplicas: 2
  maxReplicas: 20

基于 Argo 的 ML 流水线自动化

结合 Argo Workflows 和 Argo CD 可以以 GitOps 方式自动化整个 MLOps 流水线，从模型训练、评估到部署。

ACK + KRO + ArgoCD 集成架构

Automation Components

구성요소	역할	자동화 범위
Argo CD	GitOps 배포 자동화	애플리케이션 배포, 롤백, 동기화
Argo Workflows	ML 파이프라인 오케스트레이션	학습, 평가, 모델 등록 워크플로
KRO	복합 리소스 추상화	K8s + AWS 리소스를 단일 단위로 관리
ACK	AWS 리소스 선언적 관리	S3, RDS, SageMaker 등 AWS 서비스
Karpenter	GPU 노드 프로비저닝	Just-in-Time 인스턴스 프로비저닝

完全自动化的优势 — 将基础设施运维委托给 EKS，专注 Agent 开发

开发者：仅通过 Git push 即可部署模型
平台团队：最小化基础设施管理负担
成本优化：仅动态配置所需资源
一致性：所有环境使用相同部署方式

Part 4：总结 + 下一步

渐进式路径：AWS Native → Auto Mode → EKS Capability

EKS Auto Mode：推荐起步点

EKS Auto Mode Benefits

이점	설명
즉시 시작 가능	Karpenter 설치/구성 없이 클러스터 생성 즉시 GPU 워크로드 배포
자동 업그레이드	Karpenter, CNI, CSI 등 핵심 컴포넌트 자동 업데이트
보안 패치 자동화	보안 취약점 패치 자동 적용
커스텀 확장 가능	GPU NodePool, EFA NodeClass 등 필요시 커스텀 설정 추가

挑战解决方案总结

Challenge Solutions Summary

도전과제	Kubernetes 기반	EKS Auto Mode + Karpenter	기대 효과
GPU Resource Mgmt	DCGM + Prometheus	NodePool + MIG	40% utilization improvement
Inference Routing	kgateway + Bifrost	llm-d KV Cache-aware routing	50% faster provisioning
LLMOps Observability	LangSmith (Dev) + Langfuse (Prod)	Spot + Consolidation	50-70% cost reduction
Agent Orchestration	LangGraph + NeMo Guardrails	Agent Pod auto-scaling	Safety & scalability
Model Supply Chain	MLflow + Kubeflow + ArgoCD	Training NodePool + EFA	30% training efficiency

EKS Auto Mode GPU 限制与混合策略

EKS Auto Mode 最适合一般工作负载和基本 GPU 推理，但在 GPU 高级功能上存在限制。

工作负载类型	Auto Mode 适用性	原因
API Gateway、Agent Framework	适合	Non-GPU，自动伸缩足够
Observability Stack	适合	Non-GPU，管理负担最小化
基本 GPU 推理（完整 GPU）	适合	AWS 管理 GPU 栈足够
需要 MIG 分区	不适合	NodeClass 只读，无法进行 MIG 分割（GPU Operator 本身可安装）
Run:ai GPU 调度	可行	安装 GPU Operator 后禁用 Device Plugin 标签

推荐混合配置：在单一集群中运营 Auto Mode（一般工作负载）+ Karpenter（GPU 高级功能）。详细配置请参阅 EKS GPU 节点策略。

Gateway API 限制与绕过

EKS Auto Mode 的内置负载均衡器不直接支持 Kubernetes Gateway API。使用 kgateway 时需要通过独立的 Service（type: LoadBalancer）配置 NLB。

apiVersion: v1
kind: Service
metadata:
  name: kgateway-proxy
  namespace: kgateway-system
  annotations:
    service.beta.kubernetes.io/aws-load-balancer-type: "external"
    service.beta.kubernetes.io/aws-load-balancer-nlb-target-type: "ip"
    service.beta.kubernetes.io/aws-load-balancer-scheme: "internet-facing"
spec:
  type: LoadBalancer
  selector:
    app: kgateway-proxy
  ports:
    - name: https
      port: 443
      targetPort: 8443

2-Tier Gateway 架构的完整设计请参阅 LLM Gateway 2-Tier 架构。

核心建议

以 EKS Auto Mode 起步：新集群以 Auto Mode 创建，利用 Karpenter 自动配置
GPU 高级功能用 Karpenter 节点：需要 MIG、Run:ai 等 GPU Operator 时添加 Karpenter NodePool
自定义 GPU NodePool：按工作负载特性添加 GPU NodePool（推理/训练/实验分离）
积极使用 Spot 实例：70% 以上的推理工作负载用 Spot 运行
默认启用 Consolidation：利用 EKS Auto Mode 自动启用的 Consolidation
KEDA 联动：将基于指标的 Pod 伸缩与 Karpenter 节点配置联动

选择部署路径

EKS Auto Mode（大多数推荐）
EKS + Karpenter（最大控制）
混合（两种方式的优势结合）

适用场景：

初创公司和小团队
Kubernetes 初学者团队
标准 Agentic AI 工作负载

开始使用：

部署指南请参阅 EKS Auto Mode 官方文档。

优势： 零基础设施管理负担、AWS 优化默认设置、自动安全补丁

规模扩展参考文档

领域	文档	内容
GPU 节点策略	EKS GPU 节点策略	Auto Mode + Karpenter + Hybrid Node + 安全/故障排除
GPU 资源管理	GPU 资源管理	Karpenter 伸缩、KEDA、DRA、成本优化
NVIDIA GPU 栈	NVIDIA GPU 栈	GPU Operator、DCGM、MIG、Time-Slicing
模型服务	vLLM 模型服务	vLLM 配置、性能优化
分布式推理	llm-d 分布式推理	KV Cache 感知路由
训练基础设施	NeMo 框架	分布式训练、EFA 网络

Part 1：为什么选择 EKS 开放架构？​

Part 2：用 EKS Auto Mode 快速启动​

EKS 集群配置选项：控制平面与数据平面​

Provisioned Control Plane (PCP)​

PCP Tier 规格​

Tier 选择标准：基于指标的判断​

控制平面 × 数据平面对比及组合​

Amazon EKS 与 Karpenter：最大化 Kubernetes 优势​

为什么选择 EKS + Karpenter？​

Karpenter：AI 基础设施自动化的核心​

EKS Auto Mode：完全自动化的完成​

EKS Auto Mode vs 手动配置对比​

GPU 工作负载的 EKS Auto Mode 设置​

Auto Mode 可部署的 Agentic AI 组件​

推理：vLLM + llm-d​

网关：kgateway + Bifrost（2-Tier Gateway）​

Agent：LangGraph + NeMo Guardrails + MCP/A2A​

RAG + 可观测性​

EKS 快速部署​

各方案的 EKS 部署方法​

快速部署示例​

Part 3：通过 EKS Capability 最小化基础设施运维负担​

什么是 EKS Capability？​

面向 Agentic AI 的核心 EKS Capability​

ACK（AWS Controllers for Kubernetes）​

KRO（Kubernetes Resource Orchestrator）​

基于 Argo 的 ML 流水线自动化​

ACK + KRO + ArgoCD 集成架构​

Part 4：总结 + 下一步​

渐进式路径：AWS Native → Auto Mode → EKS Capability​

EKS Auto Mode：推荐起步点​

挑战解决方案总结​

EKS Auto Mode GPU 限制与混合策略​

Gateway API 限制与绕过​

核心建议​

选择部署路径​

规模扩展参考文档​

参考资料​

Kubernetes 及基础设施​

模型服务及网关​

LLM Observability 及 Agent​