跳到主要内容

Agentic AI Platform

📅 撰写日期: 2025-02-05 | 修改日期: 2026-02-13 | ⏱️ 阅读时间: 约 3 分钟

现代生成式 AI 平台需要的不仅仅是简单的模型服务,还需要一个综合技术栈来满足复杂的代理系统、动态资源管理和成本效益运营的需求。基于 Amazon EKS 的 Agentic AI 平台是一种现代化方法,利用 Kubernetes 强大的编排能力来满足这些需求。该平台通过统一系统提供 GPU 资源的动态分配和扩展、多个 LLM 提供商之间的智能路由,以及通过实时监控进行成本优化。

Kubernetes 原生方法的核心理念是积极利用开源生态系统,同时确保企业级稳定性。通过 LiteLLM 和 vLLM 的模型服务、基于 LangGraph 的复杂代理工作流、使用 Milvus 的向量数据库集成,以及通过 Langfuse 的全流程监控,在 Kubernetes 集群上和谐运作。特别是,通过结合 Karpenter 的节点自动扩展和 NVIDIA GPU Operator,可以根据工作负载模式动态配置和释放 GPU 资源,从而大幅降低云成本。

作为生产环境构建的实践起点,AWS 提供了两个核心示例存储库。GenAI on EKS Starter Kit (aws-samples/sample-genai-on-eks-starter-kit) 提供了 LiteLLM、vLLM、SGLang、Langfuse、Milvus、Open WebUI、n8n、Strands Agents、Agno 等必要组件的集成配置,支持快速原型设计和开发。另一方面,Scalable Model Inference and Agentic AI (aws-solutions-library-samples/guidance-for-scalable-model-inference-and-agentic-ai-on-amazon-eks) 展示了包括 Karpenter 自动扩展、基于 llm-d 的分布式推理、LiteLLM 网关、基于 OpenSearch 的 RAG 系统,以及构建多代理系统所需的生产级架构模式。

这种技术栈组合有效解决了处理 Frontier Model 流量时面临的四个核心挑战。GPU 调度和资源隔离通过 MIG 和 Time-Slicing 在多租户环境中确保稳定性能,动态路由层执行考虑模型可用性和成本的智能请求分配。代理生命周期管理通过 Kagent CRD 声明式定义,整个系统的可观察性通过 Langfuse 和基于 Prometheus 的指标确保。所有这些与 Kubernetes 的自愈能力相结合,完成了一个可以 24/7 无中断运营的平台。

主要文档(实施顺序)

文档完整性

本节的所有 16 个文档已完成编写,提供了顺序学习路径。每个文档都基于前一个文档的概念构建,因此建议按顺序学习。

理解与设计

GPU 基础设施配置

模型服务(基础 → 高级)

推理路由和网关

RAG 数据层

AI 代理部署

运营和监控

评估与验证

Bedrock AgentCore 集成

MLOps 管道

🎯 学习目标

通过本节,您可以学习:

  • 理解构建 Agentic AI 平台时的 4 个核心技术挑战
  • 如何在 EKS 上构建可扩展的 GenAI 平台
  • 集成多个 LLM 提供商(OpenAI、Anthropic、Google 等)
  • 设计和实现复杂的 AI 工作流
  • GPU 资源的高效利用和优化策略
  • AI/ML 工作负载的自动扩展和资源管理
  • 在生产环境中部署和运营 AI 模型
  • 利用 Kagent、Kgateway、Milvus、Ragas、NeMo 等开源工具
  • 成本跟踪和优化
  • 性能监控和分析

🏗️ 架构模式

🔧 主要技术和工具

技术版本描述用途
Kagentv0.3+Kubernetes 代理管理基于 CRD 的代理生命周期
Kgatewayv1.2+Inference Gateway动态路由和负载均衡
Milvusv2.4+向量数据库RAG 管道支持
Ragasv0.1+RAG 评估框架质量测量和 CI/CD 集成
NeMov25.02LLM 训练框架微调和优化
LiteLLMv1.50+多 LLM 提供商集成LLM 路由和故障转移
LangGraphv0.2+AI 工作流编排复杂 AI 工作流实现
Langfusev2.70+GenAI 应用监控跟踪、监控、分析
NVIDIA GPU Operatorv24.9+GPU 资源管理GPU 驱动和运行时
Karpenterv1.0+ (GA)节点自动扩展成本效益资源管理
vLLMv0.6+高性能 LLM 服务基于 PagedAttention 的推理
llm-dv0.2+分布式推理调度器Prefix Caching 感知路由

💡 核心概念

LiteLLM 路由

  • 提供商抽象: 使用统一接口访问各种 LLM API
  • 故障转移机制: 当一个提供商失败时自动切换到另一个提供商
  • 负载均衡: 将请求分散到多个模型
  • 成本优化: 自动选择性价比高的模型

LangGraph 工作流

  • 状态管理: 清晰管理每个步骤的状态
  • 条件分支: 基于结果的动态流程控制
  • 并行处理: 同时执行独立任务
  • 错误处理: 稳定的异常处理机制

Langfuse 监控

  • 请求跟踪: 记录每个 API 调用的完整过程
  • 成本分析: 按模型、项目跟踪成本
  • 性能分析: 分析响应时间、准确度等指标
  • 用户反馈: 收集生成结果的反馈

GPU 资源优化

MIG (Multi-Instance GPU)

  • 单个 GPU 分割: 将一个 GPU 分割成多个实例
  • 资源隔离: 提供完全的计算隔离
  • 效率: 在多租户环境中稳定

Time-Slicing

  • 时间共享: GPU 时间被多个任务共享
  • 灵活性: 适合开发/测试环境
  • 成本: 比 MIG 便宜但性能共享

📊 性能和成本优化

模型选择标准

模型性能成本用途
GPT-4o最高中等复杂任务、平衡选择
GPT-4o mini中等需要快速响应时
Claude 3.5 Sonnet非常高中等编码、分析任务
Claude 3 Opus非常高非常高需要高精度时
Open Source (Llama 3)多样需要完全控制时

成本优化策略

  • 提示缓存: 缓存重复的提示
  • 批处理: 批处理非业务关键任务
  • 模型分层: 根据复杂度使用不同模型
  • 上下文最小化: 删除不必要的令牌

🔗 相关类别


提示

GenAI 工作负载使用大量 GPU 资源,因此请积极使用 Spot 实例和自动扩展来优化成本。另外,通过 Langfuse 跟踪成本并持续监控。

推荐学习路径

Agentic AI 平台构建路径:

  1. 1. 技术挑战 - 理解核心挑战
  2. 2. 基于 EKS 的解决方案 - Kubernetes 解决方案
  3. 3. 平台架构 - 架构设计
  4. 4. GPU 资源管理 - GPU 基础设施设置
  5. 9. Inference Gateway - 动态路由配置
  6. 12. 代理监控与运营 - 运营体系构建

GenAI 应用开发路径:

  1. 5. vLLM 模型服务 - 基础模型服务
  2. 9. Inference Gateway - LiteLLM 路由
  3. 10. Milvus 向量 DB - RAG 数据层
  4. 11. Kagent 代理管理 - 代理部署
  5. 13. Ragas 评估 - 质量评估
注意 - 成本管理

生成式 AI 服务的 API 调用成本可能会快速累积。初期请设置请求速率限制,并通过 Langfuse 持续监控成本。