运营与治理
为生产级 AI 平台的稳定运营提供监控、可观测性、质量评估、合规、领域特化运营指南。
本节综合涵盖以下领域:
- 监控与可观测性:Agent 状态追踪、LLM 链路追踪、Token 成本分析
- 质量评估:RAG 流水线评估框架(Ragas)
- Agent 管理:基于 Kubernetes 的 Agent 生命周期管理(Kagent)
- 企业运营:Playbook、合规、领域特化定制
- 向量数据库:Milvus 运维指南
实战部署指南
MLOps 流水线构建及 SageMaker-EKS 集成等实际部署架构请参阅 Reference Architecture 章节。
文档列表
相关章节
- Reference Architecture:MLOps 流水线、SageMaker-EKS 集成、实战部署指南
- AIDLC > AgenticOps:基于 AIOps 的自动化运营与预测性监控
- 设计与架构:平台整体架构设计文档