AI Agent 监控与运营
本文档从概念层面介绍 Agentic AI 应用的监控架构、核心指标设计和告警策略。
实战部署指南
Langfuse Helm 部署、AMP/AMG 配置、ServiceMonitor YAML、Grafana 仪表板 JSON 等实战配置请参阅 监控栈配置指南。
概述
Agentic AI 应用执行复杂的推理链和多种工具调用,仅靠传统 APM 工具难以获得充分的可见性 。Langfuse 和 LangSmith 等 LLM 专用可观测性工具提供以下核心功能:
- Trace 追踪:追踪 LLM 调用、工具执行、Agent 推理过程的完整流程
- Token 使用量分析:输入/输出 Token 数及成本计算
- 质量评估:响应质量评分和反馈收集
- 调试:通过 Prompt 和响应内容审查诊断问题
目标读者
本文档面向平台运维人员、MLOps 工程师、AI 开发者。需要对 Kubernetes 和 Python 有基本了解。
监控架构
Langfuse 架构概述
Langfuse v2.75.0 以上由以下组件构成:
AMP/AMG 集成数据流
监控数据层次
| 层次 | 采集工具 | 指标模式 | 可确认项目 |
|---|---|---|---|
| LLM 推理 | Langfuse | trace, generation | Token 使用量、成本、TTFT、按用户模式 |
| 模型服务器 | vLLM Prometheus | vllm_* | 请求数、批大小、KV cache 使用率、TPS |
| GPU | DCGM Exporter | DCGM_FI_DEV_* | GPU 利用率、温度、功耗、内存使用量 |
| 基础设施 | Node Exporter | node_* | CPU、内存、网络、磁盘 I/O |
| 网关 | kgateway | envoy_* | 请求数、延迟、错误率、上游状态 |
Langfuse vs LangSmith 对比
Langfuse vs LangSmith Comparison
| Feature | Langfuse | LangSmith |
|---|---|---|
| License | Open source (MIT) | Commercial (free tier) |
| Deployment | Self-hosted / Cloud | Cloud only |
| Data Sovereignty | Full control | LangChain servers |
| Integration | Multiple frameworks | LangChain optimized |
| Cost | Infrastructure only | Usage-based pricing |
| Scalability | Kubernetes native | Managed |
选择指南
- Langfuse:数据主权重要或需要成本优化时
- LangSmith:以 LangChain 开发为主力,需要快速启动时