跳到主要内容

基于 EKS 的 Agentic AI 开放架构

📅 创建日期:2025-02-05 | 修改日期:2026-04-06 | ⏱️ 阅读时间:约 12 分钟

前置文档

阅读本文之前请先参阅以下文档:


Part 1:为什么选择 EKS 开放架构?

AWS Native 平台是快速启动的强大方案。但当出现以下需求时,就需要 EKS 开放架构

核心信息:AWS Native → EKS 是互补关系。

标准AWS NativeEKS 开放架构
模型选择Bedrock 支持的模型所有 Open Weight 模型
GPU 管理不需要(Serverless)Karpenter 自动配置
成本优化按用量计费Spot、MIG、Consolidation
运维负担最小中等(Auto Mode 可减轻)
混合受限EKS Hybrid Nodes
定制化受限完全灵活

现实的做法是从 AWS Native 开始,按需扩展到 EKS。两种方案可在同一 VPC 内共存。


Part 2:用 EKS Auto Mode 快速启动

EKS 集群配置选项:控制平面与数据平面

EKS 集群配置分为两个独立层

Provisioned Control Plane (PCP)

PCP 是预先以固定 Tier 配置控制平面容量,保证 API Server 性能一致性的 Premium 选项。

PCP Tier 规格

TierAPI 并发 (seats)Pod 调度etcd DBSLA费用
Standard动态(AWS 自动调整)动态8GB99.95%$0.10/hr
XL1,700167/sec16GB99.99%-
2XL3,400283/sec16GB99.99%-
4XL6,800400/sec16GB99.99%-
8XL13,600400/sec16GB99.99%-

来源:AWS EKS Provisioned Control Plane 官方文档(K8s 1.30+ 基准)。PCP Tier 价格请参阅 AWS 官方定价页面。

Tier 选择标准:基于指标的判断

Worker 节点数不是 PCP Tier 选择标准

PCP Tier 应基于 Kubernetes 控制平面指标来选择。

核心监控指标:

指标Prometheus 查询判断标准
API Inflight Seats(最重要)apiserver_flowcontrol_current_executing_seats_total持续超过 1,200 seats → XL 以上
Pod Scheduling Ratescheduler_schedule_attempts_SCHEDULED100/sec 以上 → XL, 200/sec 以上 → 2XL
etcd DB Sizeapiserver_storage_size_bytes超过 10GB → 需要 XL 以上
PCP vs Auto Mode — 不同层

PCP 是控制平面容量选项,Auto Mode 是数据平面管理选项。两者可组合使用

控制平面 × 数据平面对比及组合

⬆️ Control Plane: Standard vs Provisioned (PCP)
FeatureStandard (Default)Provisioned Control Plane (PCP)
ScalingDynamic auto-scaling (AWS managed)Fixed tier (pre-provisioned)
API Concurrency (seats)Dynamic (AWS auto-adjusted)XL: 1,700 / 2XL: 3,400 / 4XL: 6,800 / 8XL: 13,600
Pod Scheduling RateDynamicXL: 167 / 2XL: 283 / 4XL–8XL: 400 pods/sec
etcd DB Size8 GB16 GB
SLA99.95%99.99%
Cost$0.10/hr ($73/mo)Per-tier pricing (see AWS pricing page)
Tier Selection Criteria-API Inflight Seats + Pod Scheduling Rate + etcd DB Size (NOT node count)
⬇️ Data Plane: MNG vs Karpenter vs Auto Mode
FeatureManaged Node GroupsKarpenterEKS Auto Mode
Node ProvisioningManual (ASG-based)Automatic (Pod-driven)Fully automatic (AWS managed)
GPU OptimizationManual instance selectionAuto GPU selectionAuto + default NodeClass
Scaling SpeedSlow (ASG → EC2)Fast (direct EC2 API)Fast (built-in Karpenter)
Add-on MgmtManual (CNI, CSI, etc.)Manual✅ Automatic
Security PatchesManual AMI updateManual✅ Automatic
Cost OptimizationLimitedConsolidation + SpotConsolidation + 7.5% surcharge
Operational BurdenHighMediumLow
🔗 Recommended Combination Matrix
CombinationControl PlaneData PlaneBest For
General AI ServiceStandardAuto ModeSmall-mid inference, minimal ops
GPU-Optimized PlatformStandardKarpenterMulti-GPU, Spot, cost optimization
Large AI PlatformPCP (tier-xl+)Auto ModeAPI perf guaranteed (1,700+ seats) + auto ops
Ultra-Scale TrainingPCP (tier-4xl+)KarpenterAPI concurrency 6,800+, fine GPU control
AI 平台按规模推荐配置
  • 小规模(PoC/Demo):Standard + Auto Mode — 最小运维负担,99.95% SLA
  • 中规模(生产推理):Standard + Karpenter — GPU 成本优化,99.95% SLA
  • 大规模(企业级 AI):PCP XL + Auto Mode — API seats ≤ 1,700,99.99% SLA
  • 超大规模(训练集群):PCP 4XL+ + Karpenter — API seats ≤ 6,800+,GPU 精细控制

Amazon EKS 与 Karpenter:最大化 Kubernetes 优势

Amazon EKS 与 Karpenter 的组合最大化 Kubernetes 优势,实现完全自动化的最优基础设施。

为什么选择 EKS + Karpenter?

EKS + Karpenter + AWS Infrastructure Layers
AspectTraditional Cluster AutoscalerKarpenter on EKS
Scaling Speed60-90 seconds (ASG-based)10-30 seconds (direct EC2 API)
Instance SelectionLimited by ASG pre-configurationDynamic selection from 600+ EC2 types
GPU WorkloadsRequires separate ASGs per GPU typeSingle NodePool handles all GPU types
Spot OptimizationManual fallback configurationAutomatic spot-to-on-demand fallback
Cost EfficiencyLimited consolidationAggressive bin-packing and consolidation
AWS IntegrationIndirect via ASGDirect EC2/Spot API calls
ConfigurationASG + IAM + Launch TemplatesSimple NodePool CRD

Karpenter:AI 基础设施自动化的核心

Karpenter 克服了传统 Cluster Autoscaler 的局限,提供面向 AI 工作负载优化的节点配置

Karpenter v1.0+ GA

Karpenter 在 v1.0 以上为 GA 状态。请使用 v1 API(karpenter.sh/v1)。

Cluster Autoscaler vs Karpenter Comparison
FeatureBenefit for Agentic AI
Zero-touch NodesNo manual AMI updates or node group management
Automatic ScalingBuilt-in autoscaling without Karpenter configuration
Security PatchingAutomatic OS and Kubernetes security updates
Storage AutomationDynamic PV provisioning for model caching and vector stores
Network PoliciesIntegrated network security for multi-tenant agents
Karpenter Key Features
ComparisonCluster AutoscalerKarpenter
Provisioning Time5-10 min2-3 min
Instance SelectionFixed types in Node GroupDynamic based on workload
GPU SupportManual Node Group configAutomatic NodePool matching
Cost OptimizationLimitedAuto Spot, Consolidation

EKS Auto Mode:完全自动化的完成

EKS Auto Mode 自动配置和管理包括 Karpenter 在内的核心组件。

EKS Auto Mode vs 手动配置对比

EKS Auto Mode vs Manual Configuration
Your SituationRecommendation
New EKS cluster for Agentic AI**Karpenter** (native AWS integration)
Existing cluster with CA**Migrate to Karpenter** (worth the effort)
Need GPU autoscaling**Karpenter** (required for GPU efficiency)
Simple CPU-only workloads**EKS Auto Mode** (easiest option)
Multi-tenant platform**Karpenter** (better isolation and cost attribution)
Regulated industries**EKS Auto Mode** (compliance-friendly)

GPU 工作负载的 EKS Auto Mode 设置

# 在 EKS Auto Mode 中添加 GPU NodePool
apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
name: gpu-inference-pool
spec:
template:
metadata:
labels:
node-type: gpu-inference
eks-auto-mode: "true"
spec:
requirements:
- key: karpenter.sh/capacity-type
operator: In
values: ["spot", "on-demand"]
- key: node.kubernetes.io/instance-type
operator: In
values:
- g5.xlarge
- g5.2xlarge
- g5.4xlarge
- g5.12xlarge
- p4d.24xlarge
- key: karpenter.k8s.aws/instance-gpu-count
operator: Gt
values: ["0"]
nodeClassRef:
group: karpenter.k8s.aws
kind: EC2NodeClass
name: default # 利用 EKS Auto Mode 默认 NodeClass
limits:
nvidia.com/gpu: 50
disruption:
consolidationPolicy: WhenEmptyOrUnderutilized
consolidateAfter: 30s
EKS Auto Mode 推荐事项

EKS Auto Mode 是构建新 AI 平台时推荐的选项

  • Karpenter 安装和配置自动化可缩短 80% 初始构建时间
  • 核心组件自动升级可大幅减少运维负担
  • 只需自定义 GPU NodePool 即可立即部署 AI 工作负载
EKS Auto Mode 与 GPU 支持

EKS Auto Mode 完全支持包括 NVIDIA GPU 在内的加速计算实例。

re:Invent 2024/2025 新功能:

  • EKS Hybrid Nodes(GA):将本地 GPU 基础设施集成到 EKS 集群
  • Enhanced Pod Identity v2:跨账户 IAM 角色支持
  • Native Inferentia/Trainium Support:Neuron SDK 自动配置
  • Provisioned Control Plane:大规模 AI 训练工作负载的预配置

Auto Mode 可部署的 Agentic AI 组件

在 EKS Auto Mode 上可以部署 Agentic AI 平台的所有核心组件。

推理:vLLM + llm-d

vLLM 是 LLM 推理专用引擎,llm-d 提供考虑 KV Cache 状态的智能路由。

模型服务栈构成
  • vLLM:LLM 推理专用(GPT、Claude、Llama 等)— 基于 PagedAttention 的 KV Cache 优化
  • Triton Inference Server:非 LLM 推理(嵌入、重排序、Whisper STT)
  • llm-d:通过 KV Cache 感知路由最大化 Prefix cache 命中率

详细配置请参阅 vLLM 模型服务llm-d 分布式推理

网关:kgateway + Bifrost(2-Tier Gateway)

2-Tier Gateway 架构将流量管理和模型路由分离:

  • Tier 1(kgateway):基于 Gateway API 的认证、Rate Limiting、流量管理
  • Tier 2(Bifrost):模型抽象、Fallback、成本追踪、Cascade Routing

详细架构请参阅 Inference Gateway 路由

Agent:LangGraph + NeMo Guardrails + MCP/A2A

EKS 中 Agent 工作流由以下组件构成:

  • LangGraph:多步骤 Agent 工作流定义、条件分支、并行执行
  • NeMo Guardrails:Prompt 注入防御、PII 泄露防护、输出验证
  • MCP:Agent Ready 应用以标准化方式提供 Tool
  • A2A:Agent 间安全高效通信
  • Redis(ElastiCache):作为 LangGraph checkpointer 管理状态

Agent Pod 通过 KEDA 基于 Redis 队列长度自动伸缩。

详细内容请参阅 Kagent Agent 管理AWS Native 平台 — AgentCore & MCP

RAG + 可观测性

  • Milvus:向量数据库 — RAG 系统核心(详情
  • Langfuse:生产 LLM 链路追踪、Token 成本追踪(Self-hosted、MIT 许可)
  • Prometheus + Grafana:基础设施指标监控

EKS 快速部署

Deployment Time Comparison
BenefitDescription
Immediate StartDeploy GPU workloads immediately after cluster creation without Karpenter installation/configuration
Automatic UpgradesAutomatic updates for core components like Karpenter, CNI, CSI
Automated Security PatchingAutomatic application of security vulnerability patches
Extensible with Custom ConfigurationAdd custom settings like GPU NodePool, EFA NodeClass when needed

各方案的 EKS 部署方法

EKS Integration Benefits
ChallengeKubernetes-BasedEKS Auto Mode + KarpenterExpected Effect
GPU MonitoringDCGM + PrometheusNodePool-based integrated management40% improved resource utilization
Dynamic ScalingHPA + KEDAJust-in-Time provisioning (auto-configured)50% reduced provisioning time
Cost ControlNamespace QuotaSpot + Consolidation (auto-enabled)50-70% cost reduction
FM Fine-tuningKubeflow OperatorTraining NodePool + EFA30% improved training efficiency

快速部署示例

部署指南请参阅 Reference Architecture

GPU 成本优化详情

Spot 实例利用、Consolidation、基于时段的调度成本管理等 GPU 成本优化策略请参阅 GPU 资源管理 文档。

GPU 安全与故障排除

GPU Pod 安全策略、Network Policy、IAM、MIG 隔离及 GPU 故障排除指南请参阅 EKS GPU 节点策略 文档。


Part 3:通过 EKS Capability 最小化基础设施运维负担

什么是 EKS Capability?

EKS Capability 是 Amazon EKS 为有效运营特定工作负载而集成经验证的开源工具和 AWS 服务提供的平台级功能

面向 Agentic AI 的核心 EKS Capability

EKS Advanced Capabilities
EKS Capability역할Agentic AI 활용지원 방식
ACK (AWS Controllers for Kubernetes)AWS 서비스의 Kubernetes 네이티브 관리S3 모델 저장소, RDS 메타데이터, SageMaker 학습 작업EKS Add-on
KRO (Kubernetes Resource Orchestrator)복합 리소스 추상화 및 템플릿화AI 추론 스택, 학습 파이프라인 원클릭 배포EKS Add-on
Argo CDGitOps 기반 지속적 배포모델 서빙 배포 자동화, 롤백, 환경 동기화EKS Add-on
Argo Workflows 需要单独安装

Argo Workflows 不是 EKS Capability 官方支持,需要自行安装

部署指南请参阅 Argo Workflows 官方文档


ACK(AWS Controllers for Kubernetes)

ACK 通过 Kubernetes Custom Resource 直接配置和管理 AWS 服务。可通过 EKS Add-on 简便安装

AI 平台中 ACK 的应用场景:

ACK Controllers Usage
AWS 서비스ACK ControllerAgentic AI 활용
S3`s3.services.k8s.aws`모델 아티팩트 저장소, 학습 데이터 버킷
RDS/Aurora`rds.services.k8s.aws`Langfuse 백엔드, 메타데이터 저장소
SageMaker`sagemaker.services.k8s.aws`모델 학습 작업, 엔드포인트 배포
Secrets Manager`secretsmanager.services.k8s.aws`API 키, 모델 자격증명 관리
ECR`ecr.services.k8s.aws`컨테이너 이미지 레지스트리

使用 ACK 创建 S3 存储桶示例:

apiVersion: s3.services.k8s.aws/v1alpha1
kind: Bucket
metadata:
name: agentic-ai-models
namespace: ai-platform
spec:
name: agentic-ai-models-prod
versioning:
status: Enabled
encryption:
rules:
- applyServerSideEncryptionByDefault:
sseAlgorithm: aws:kms
tags:
- key: Project
value: agentic-ai

KRO(Kubernetes Resource Orchestrator)

KRO 将多个 Kubernetes 资源和 AWS 资源组合为一个抽象化单元,简化复杂基础设施的部署。

用 KRO 以单一资源部署 AI 推理栈:

# 以单一资源部署完整栈
apiVersion: v1alpha1
kind: AIInferenceStack
metadata:
name: llama-inference
namespace: ai-platform
spec:
modelName: llama-3-70b
gpuType: g5.12xlarge
minReplicas: 2
maxReplicas: 20

基于 Argo 的 ML 流水线自动化

结合 Argo WorkflowsArgo CD 可以以 GitOps 方式自动化整个 MLOps 流水线,从模型训练、评估到部署。

ACK + KRO + ArgoCD 集成架构

Automation Components
구성요소역할자동화 범위
Argo CDGitOps 배포 자동화애플리케이션 배포, 롤백, 동기화
Argo WorkflowsML 파이프라인 오케스트레이션학습, 평가, 모델 등록 워크플로
KRO복합 리소스 추상화K8s + AWS 리소스를 단일 단위로 관리
ACKAWS 리소스 선언적 관리S3, RDS, SageMaker 등 AWS 서비스
KarpenterGPU 노드 프로비저닝Just-in-Time 인스턴스 프로비저닝
完全自动化的优势 — 将基础设施运维委托给 EKS,专注 Agent 开发
  • 开发者:仅通过 Git push 即可部署模型
  • 平台团队:最小化基础设施管理负担
  • 成本优化:仅动态配置所需资源
  • 一致性:所有环境使用相同部署方式

Part 4:总结 + 下一步

渐进式路径:AWS Native → Auto Mode → EKS Capability

EKS Auto Mode:推荐起步点

EKS Auto Mode Benefits
이점설명
즉시 시작 가능Karpenter 설치/구성 없이 클러스터 생성 즉시 GPU 워크로드 배포
자동 업그레이드Karpenter, CNI, CSI 등 핵심 컴포넌트 자동 업데이트
보안 패치 자동화보안 취약점 패치 자동 적용
커스텀 확장 가능GPU NodePool, EFA NodeClass 등 필요시 커스텀 설정 추가

挑战解决方案总结

Challenge Solutions Summary
도전과제Kubernetes 기반EKS Auto Mode + Karpenter기대 효과
GPU Resource MgmtDCGM + PrometheusNodePool + MIG40% utilization improvement
Inference Routingkgateway + Bifrostllm-d KV Cache-aware routing50% faster provisioning
LLMOps ObservabilityLangSmith (Dev) + Langfuse (Prod)Spot + Consolidation50-70% cost reduction
Agent OrchestrationLangGraph + NeMo GuardrailsAgent Pod auto-scalingSafety & scalability
Model Supply ChainMLflow + Kubeflow + ArgoCDTraining NodePool + EFA30% training efficiency

EKS Auto Mode GPU 限制与混合策略

EKS Auto Mode 最适合一般工作负载和基本 GPU 推理,但在 GPU 高级功能上存在限制。

工作负载类型Auto Mode 适用性原因
API Gateway、Agent Framework适合Non-GPU,自动伸缩足够
Observability Stack适合Non-GPU,管理负担最小化
基本 GPU 推理(完整 GPU)适合AWS 管理 GPU 栈足够
需要 MIG 分区不适合NodeClass 只读,无法进行 MIG 分割(GPU Operator 本身可安装)
Run:ai GPU 调度可行安装 GPU Operator 后禁用 Device Plugin 标签

推荐混合配置:在单一集群中运营 Auto Mode(一般工作负载)+ Karpenter(GPU 高级功能)。详细配置请参阅 EKS GPU 节点策略

Gateway API 限制与绕过

EKS Auto Mode 的内置负载均衡器不直接支持 Kubernetes Gateway API。使用 kgateway 时需要通过独立的 Service(type: LoadBalancer)配置 NLB。

apiVersion: v1
kind: Service
metadata:
name: kgateway-proxy
namespace: kgateway-system
annotations:
service.beta.kubernetes.io/aws-load-balancer-type: "external"
service.beta.kubernetes.io/aws-load-balancer-nlb-target-type: "ip"
service.beta.kubernetes.io/aws-load-balancer-scheme: "internet-facing"
spec:
type: LoadBalancer
selector:
app: kgateway-proxy
ports:
- name: https
port: 443
targetPort: 8443

2-Tier Gateway 架构的完整设计请参阅 LLM Gateway 2-Tier 架构

核心建议

  1. 以 EKS Auto Mode 起步:新集群以 Auto Mode 创建,利用 Karpenter 自动配置
  2. GPU 高级功能用 Karpenter 节点:需要 MIG、Run:ai 等 GPU Operator 时添加 Karpenter NodePool
  3. 自定义 GPU NodePool:按工作负载特性添加 GPU NodePool(推理/训练/实验分离)
  4. 积极使用 Spot 实例:70% 以上的推理工作负载用 Spot 运行
  5. 默认启用 Consolidation:利用 EKS Auto Mode 自动启用的 Consolidation
  6. KEDA 联动:将基于指标的 Pod 伸缩与 Karpenter 节点配置联动

选择部署路径

适用场景:

  • 初创公司和小团队
  • Kubernetes 初学者团队
  • 标准 Agentic AI 工作负载

开始使用:

部署指南请参阅 EKS Auto Mode 官方文档

优势: 零基础设施管理负担、AWS 优化默认设置、自动安全补丁

规模扩展参考文档

领域文档内容
GPU 节点策略EKS GPU 节点策略Auto Mode + Karpenter + Hybrid Node + 安全/故障排除
GPU 资源管理GPU 资源管理Karpenter 伸缩、KEDA、DRA、成本优化
NVIDIA GPU 栈NVIDIA GPU 栈GPU Operator、DCGM、MIG、Time-Slicing
模型服务vLLM 模型服务vLLM 配置、性能优化
分布式推理llm-d 分布式推理KV Cache 感知路由
训练基础设施NeMo 框架分布式训练、EFA 网络

参考资料

Kubernetes 及基础设施

模型服务及网关

LLM Observability 及 Agent