跳到主要内容

AWS Native Agentic AI Platform

创建日期:2026-03-18 | 修改日期:2026-03-20 | 状态:Draft

概述

利用 AWS 托管服务可以专注于 Agent 的业务逻辑而非基础设施运维。GPU 管理、弹性伸缩、可用性、安全由 AWS 处理,开发团队只需投入精力解决 Agent 要处理的问题。

AWS Agentic AI 技术栈由三大支柱(Pillar)构成。

Pillar服务角色
基础(Foundation)Amazon Bedrock模型访问、RAG、Guardrails、Prompt 缓存
开发(Development)Strands Agents SDKAgent 框架、MCP 原生、工具集成
运营(Operations)Amazon Bedrock AgentCoreServerless 部署、Memory、Gateway、Policy、评估
核心观点

本文档介绍 AWS 托管服务提供的 Agent 开发优化方案。托管服务能满足的领域交给 AWS,团队的能力集中在 Agent 业务逻辑上。但这只是多模型之旅的第一步。当流量增长带来成本压力、需要领域特化 SLM、出现数据主权要求时,可扩展到 EKS 开放架构,将自托管模型与 Bedrock 混合组合是现实的最优解。

挑战解决映射

通过 AWS Native 方案解决技术挑战中的 5 大核心问题:

挑战AWS Native 解决方案
GPU 资源管理及成本优化Bedrock Serverless 推理 — 无需 GPU 管理
智能推理路由及网关Bedrock Cross-Region Inference + AgentCore Gateway
LLMOps 可观测性及成本治理AgentCore Observability + CloudWatch
Agent 编排及安全性Strands SDK + Bedrock Guardrails + AgentCore Policy
模型供应链管理Bedrock Model Evaluation + Prompt Management
AWS Native 的核心价值

GPU 基础设施管理、弹性伸缩、可用性、安全由 AWS 处理,团队可以只专注于 Agent 业务逻辑。需要更精细控制时可与 EKS 开放架构 组合。


AWS Agentic AI 服务架构

3-Pillar 架构


Amazon Bedrock:基础层

Amazon Bedrock 提供 Agentic AI 平台的基础设施。通过单一 API 访问 100 多个基础模型,并以托管方式支持 RAG、Guardrails、Prompt 缓存。

核心功能

功能说明核心价值
模型访问Claude、Nova、Llama、Mistral 等 100+ 模型单一 API,模型切换无需代码变更
Knowledge Bases文档解析 → 分块 → 嵌入 → 索引 → 检索一键 RAG 流水线,只需上传 S3 文档
GuardrailsPII 过滤、Prompt 注入防御、主题限制控制台设置策略,无需代码变更
Prompt Caching重复上下文缓存成本最多降低 90%,延迟最多缩短 85%
Cross-Region Inference跨区域自动流量分发容量达限时自动回退,提升可用性
Prompt ManagementPrompt 版本管理、A/B 测试Prompt 历史追踪、回滚支持
Model Evaluation自动化模型评估、批处理LLM-as-a-judge、人工评估工作流
Prompt Caching 活用

使用长系统 Prompt 或重复工具定义的 Agent 应启用 Prompt Caching,可大幅降低成本和延迟。特别适合 RAG 上下文频繁重复的场景。


Strands Agents SDK:开发框架

Strands Agents SDK 是 AWS 以 Apache 2.0 开源的 Agent 框架。以最少代码实现生产级 Agent,Model-agnostic 设计支持 Bedrock 以外的多种模型 Provider。

最少代码 Agent 实现

from strands import Agent
from strands.models import BedrockModel

# 基础 Agent — 3 行代码完成
agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
tools=["calculator", "web_search"],
)
result = agent("请将首尔当前气温转换为摄氏和华氏")

MCP 原生支持

from strands import Agent
from strands.tools.mcp import MCPClient

# 连接 MCP 服务器 — 自动发现外部工具并集成到 Agent
mcp_client = MCPClient(server_url="http://mcp-server:8080")

agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
tools=[mcp_client], # MCP 工具自动发现与注册
)
result = agent("查询最近的订单记录并确认配送状态")

自定义工具定义

from strands import Agent, tool

@tool
def lookup_customer(customer_id: str) -> dict:
"""查询客户信息。"""
# 业务逻辑实现
return {"name": "张三", "tier": "GOLD", "since": "2023-01"}

@tool
def create_ticket(title: str, priority: str, description: str) -> dict:
"""创建客户咨询工单。"""
return {"ticket_id": "TK-2026-0042", "status": "OPEN"}

agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
tools=[lookup_customer, create_ticket],
system_prompt="你是客户服务 Agent。查询客户信息并在需要时创建工单。",
)

Strands SDK 核心特性

特性说明
Apache 2.0商业使用自由,可 Fork
Model-agnostic支持 Bedrock、OpenAI、Anthropic API、Ollama 等多种后端
Framework-agnostic可在 FastAPI、Flask、Lambda 等任何运行时执行
MCP 原生内置 Model Context Protocol 支持,无需额外适配器
AgentCore 集成一行 agentcore deploy 即可生产部署
流式响应Token 级流式,支持实时 UX

Amazon Bedrock AgentCore:运营平台

AgentCore 是以托管方式提供 Agent 生产运营所需一切 的平台。于 2025 年 GA(General Availability)发布,由 7 大核心服务组成。

7 大核心服务

1. Runtime — Serverless Agent 部署

AgentCore Runtime 提供基于 Firecracker MicroVM 的隔离执行环境。

项目规格
隔离级别Firecracker MicroVM(硬件级隔离)
会话持续最长 8 小时连续会话
伸缩从 0 自动扩展,无请求时缩至 0
部署agentcore deploy CLI 或 CloudFormation
冷启动数秒以内
# 将 Strands Agent 部署到 AgentCore
agentcore deploy \
--agent-name "customer-service" \
--entry-point "agent.py" \
--runtime python3.12 \
--memory 512 \
--timeout 3600

2. Memory — 短期/长期记忆管理

使 Agent 记住对话上下文和用户偏好的托管内存服务。

内存类型说明应用示例
短期内存会话内对话记录多轮对话中引用先前问题
长期内存跨会话持久化信息用户偏好、过往交互模式
自动摘要自动摘要长对话并存储超出上下文窗口时保留核心信息
用户画像个性化信息学习"该用户偏好简洁的回答"

3. Gateway — 智能工具路由

AgentCore Gateway 自动将 REST API 转换为 MCP 协议,通过语义工具搜索从数百个工具中筛选相关工具。

语义工具搜索

即使 Agent 注册了 300 个工具,Gateway 也会分析用户请求,仅将相关的 4 个工具传递给 Agent。这节省了 LLM 上下文窗口并提高了工具选择准确度。

功能说明
REST → MCP 转换自动将现有 REST API 包装为 MCP 工具
语义搜索300 个工具 → 自动筛选相关 4 个
工具注册表集中式工具注册与版本管理
认证传播安全传递用户认证信息到工具

4. Identity — 委托认证

功能说明
IdP 集成Okta、Amazon Cognito、OIDC 兼容 Provider
委托认证Agent 代表用户向工具认证(OAuth 2.0 Token 交换)
细粒度权限按工具、资源级访问控制
审计日志所有认证事件记录到 CloudTrail

5. Policy — 自然语言策略定义

以自然语言定义策略后编译为确定性运行时,保证一致的策略执行。

# 自然语言策略示例
策略:"仅允许金牌及以上等级客户进行退款处理"
→ 编译 → 确定性规则引擎执行(无需 LLM 调用)

策略:"调用外部 API 时必须对 PII 进行脱敏"
→ 编译 → 在 Gateway 层自动应用
特性说明
自然语言输入非开发人员也可定义策略
确定性执行编译后的策略无需 LLM 确定性应用
实时强制运行时对每个请求进行策略验证
审计追踪完整记录策略应用/拒绝历史

6. Observability — 统一监控

功能说明
CloudWatch 集成自动收集指标、日志、告警
OpenTelemetry标准检测兼容现有监控工具
逐步 Trace追踪 Agent 推理 → 工具调用 → 响应全过程
成本仪表板按模型、Agent、会话可视化成本

7. Evaluation — 持续质量监控

功能说明
LLM-as-judgeLLM 自动评估 Agent 响应质量
13 项评估标准准确性、相关性、有害性、一致性等
A/B 测试定量测量 Prompt/模型变更对质量的影响
持续监控在生产流量中实时追踪质量
人工评估工作流自动评估与专家评估并行

架构模式

Build → Deploy → Operate 工作流

简单 Agent 模式

适用于 FAQ、账单查询、状态检查等执行单一任务的 Agent。

复杂 Agent 模式(多步骤)

适用于顺序/并行调用多个工具,根据中间结果分支的 Agent。

多 Agent 模式

独立的 Agent 协作处理复杂业务流程。

from strands import Agent
from strands.models import BedrockModel
from strands.multiagent import MultiAgentOrchestrator

# 定义专业 Agent
research_agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
system_prompt="你是研究专家。",
tools=["web_search", "document_reader"],
)

analysis_agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
system_prompt="你是数据分析专家。",
tools=["calculator", "chart_generator"],
)

writer_agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
system_prompt="你是报告撰写专家。",
tools=["document_writer"],
)

# 多 Agent 编排
orchestrator = MultiAgentOrchestrator(
agents=[research_agent, analysis_agent, writer_agent],
strategy="sequential", # 顺序执行:研究 → 分析 → 撰写
)
result = orchestrator("请撰写 2026 年一季度市场趋势报告")

部署指南

AWS Native Agentic AI Platform 的实战部署方法包含以下三种方案:

部署方法概览

方案工具适用场景
CLI 部署agentcore deploy快速原型、单个 Agent 部署
IaC 部署CloudFormation / CDK生产环境、可重现基础设施
全栈模板FAST 模板全栈(Agent + API + UI)引导

Strands + AgentCore 概念

Strands Agent 结构:

from strands import Agent
from strands.models import BedrockModel

# 最少代码定义 Agent
agent = Agent(
model=BedrockModel(model_id="anthropic.claude-sonnet-4-20250514"),
tools=["calculator", "web_search"],
system_prompt="你是数学助手。",
)

# 包装为 Lambda Handler
def handler(event, context):
return agent(event["prompt"])

AgentCore 部署工作流:

  1. 编写 Agent 代码(Python)
  2. 执行 agentcore deploy → 自动部署到 Firecracker MicroVM
  3. 生成端点 → 可通过 REST API 调用 Agent
  4. Memory/Gateway/Policy 自动连接

CloudFormation IaC 模式

使用 AWS CloudFormation 可以声明式管理 Agent 及相关资源(Knowledge Base、Guardrails 等):

Resources:
CustomerServiceAgent:
Type: AWS::Bedrock::AgentCoreEndpoint
Properties:
AgentName: customer-service
Runtime: python3.12
EntryPoint: agent.py:handler
Environment:
Variables:
MODEL_ID: anthropic.claude-sonnet-4-20250514
KNOWLEDGE_BASE_ID: !Ref KnowledgeBase

KnowledgeBase:
Type: AWS::Bedrock::KnowledgeBase
Properties:
Name: customer-faq
StorageConfiguration:
Type: OPENSEARCH_SERVERLESS
实战部署指南

详细的 kubectl/helm 命令、完整 YAML 清单、Python boto3 部署脚本请参阅 Reference Architecture 章节。本文档聚焦于 AWS Native 方案的概念与模式


企业应用案例

Baemin(外卖平台):基于 RAG 的知识 Agent

项目内容
课题缩短客服人员内部政策搜索时间
架构Strands Agent + Bedrock Knowledge Bases + Claude
成果客服效率提升 30%,政策搜索时间缩短 90%
核心价值无需构建 RAG 流水线,仅上传 S3 文档即可完成知识 Agent

CJ OnStyle:多 Agent 直播电商

项目内容
课题直播期间实时客户问答自动化
架构多 Agent(商品信息 Agent + 订单 Agent + 推荐 Agent)
成果客户响应率提升 3 倍,实时处理延迟在 2 秒以内
核心价值AgentCore Runtime 的自动伸缩应对直播流量激增

Amazon Devices:制造 Agent

项目内容
课题制造产线品质检测模型微调自动化
架构Strands Agent + Bedrock Fine-tuning + AgentCore
成果微调耗时从数天缩短至 1 小时
核心价值Agent 自动编排数据预处理 → 微调 → 评估

成本结构

AgentCore 平台的成本遵循按用量付费的 Serverless 模型。

计费体系

服务计费依据特点
Bedrock 推理输入/输出 Token 数可选按需、预留吞吐量
AgentCore Runtime会话时间 + 内存使用量无请求时零计费,最长 8 小时会话
Knowledge Bases存储 + 查询数基于 OpenSearch Serverless
Guardrails处理的文本单位输入/输出分别计费
Prompt Caching缓存命中时 90% 折扣重复模式越多节省越多

运营成本节省要点

领域节省因素
GPU 管理无需 GPU 实例配置、补丁、弹性伸缩运维人员
基础设施运维Serverless 架构消除集群管理负担
安全合规利用 AWS 的 SOC 2、HIPAA、ISO 27001 认证
可用性管理多 AZ 自动部署、Cross-Region Inference 内置 DR
监控构建CloudWatch 原生集成,无需单独监控栈
成本优化建议
  • Prompt Caching:长系统 Prompt 的 Agent 务必启用
  • 预留吞吐量:稳定流量场景比按需最多节省 50%
  • Cross-Region Inference:特定区域容量达限时自动回退防止限流
  • Batch Inference:非实时的评估/分析任务使用批处理模式节省成本

MCP 协议与 EKS 集成

MCP(Model Context Protocol)概述

MCP 是 AI Agent 与工具之间的标准通信协议

  • 工具发现:Agent 动态发现可用工具
  • 上下文传递:以标准化格式传递执行上下文和状态
  • 结果返回:以结构化格式返回工具执行结果
  • Agent 间通信:通过 A2A 协议实现多 Agent 协作

EKS MCP Server 集成

AWS 提供 EKS 专用托管 MCP Server,支持 Kubernetes 集群与 AI Agent 的集成:

EKS MCP 服务器功能
Pod 日志查询
实时流式传输特定 Pod 的日志
K8s 事件查询
集群事件搜索和分析
CloudWatch 指标
集群指标查询和分析
资源状态检查
查询 Deployment、Service 等资源状态
故障排除
基于代理的自动诊断

EKS MCP Server 部署概念:

MCP Server 在 Kubernetes 集群内运行,使 Agent 无需执行 kubectl 命令即可查询集群状态和执行操作。

# 克隆 AWS MCP 服务器仓库
git clone https://github.com/awslabs/mcp.git
cd mcp/servers/eks

# 构建 Docker 镜像并部署到 EKS
docker build -t eks-mcp-server:latest .
kubectl apply -f k8s/deployment.yaml

AgentCore + MCP 集成模式:

Bedrock AgentCore 将 MCP Server 注册为 Action Group,使 Agent 可以使用 Kubernetes 工具:

import boto3

bedrock_agent = boto3.client('bedrock-agent')

# 创建 Agent
response = bedrock_agent.create_agent(
agentName='sre-agent',
foundationModel='anthropic.claude-sonnet-4-20250514',
instruction='You are an SRE agent for Kubernetes troubleshooting.',
agentResourceRoleArn='arn:aws:iam::ACCOUNT:role/BedrockAgentRole',
)

# 连接 MCP 工具(Action Group)
bedrock_agent.create_agent_action_group(
agentId=response['agent']['agentId'],
agentVersion='DRAFT',
actionGroupName='eks-mcp-tools',
actionGroupExecutor={'customControl': 'RETURN_CONTROL'},
apiSchema={
'payload': {
'openapi': '3.0.0',
'info': {'title': 'EKS MCP Tools', 'version': '1.0'},
'paths': {
'/pod-logs': {'post': {'description': 'Get pod logs'}},
'/k8s-events': {'post': {'description': 'Get K8s events'}},
}
}
}
)
实战部署详情

完整的 boto3 脚本、IAM 策略、YAML 清单请参阅 Reference Architecture 章节。

Self-hosted Agent 的混合策略

可以同时利用 EKS 上的 Self-hosted Agent 和 Bedrock AgentCore:

Kagent vs Bedrock AgentCore
比较项Kagent (自管理)Bedrock AgentCore
运行环境EKS PodAWS托管运行时
模型选择灵活 (vLLM, 外部 API)Bedrock模型
工具协议自定义 CRDMCP标准
扩展Karpenter/HPA自动扩展
成本GPU基础设施成本API调用成本
适用场景拥有 GPU,自定义模型快速生产部署

混合方案:高频率调用且成本敏感的用 EKS Self-hosted Agent,需要复杂推理的低频率调用用 Bedrock AgentCore 路由的策略非常有效。

多 Agent 编排

AgentCore 通过 MCP/A2A 支持 Agent 间协作:

多代理模式
Sequential
顺序代理调用
诊断 → 分析 → 解决
Parallel
并行代理调用
同时检查多个集群
Hierarchical
分层代理结构
主代理 + 专业代理
Collaborative
代理间协作
解决复杂问题

AWS MCP Server 生态系统

AWS 以开源形式提供官方 MCP Server(github.com/awslabs/mcp):

AWS MCP 服务器生态系统
EKS MCP Server
Kubernetes 集群管理
CloudWatch MCP Server
指标和日志查询
IAM Policy Autopilot
最小权限策略生成
S3 MCP Server
对象存储访问
RDS MCP Server
数据库管理

CloudWatch Gen AI Observability 集成

CloudWatch Gen AI Observability GA

CloudWatch Generative AI Observability 于 2025 年 10 月 GA。与 AgentCore 原生集成,无需额外配置,Agent 调用、工具执行、Token 使用量自动记录到 CloudWatch。

  • Agent 执行追踪:端到端 Tracing 可视化完整推理流程
  • 工具调用监控:按 MCP Server 追踪调用次数、延迟、错误率
  • Token 消费分析:按模型追踪输入输出 Token 使用量和成本
  • 异常检测:联动 CloudWatch Anomaly Detection 自动检测异常模式

下一步

参考资料