AI Agent 监控与运营

本文档从概念层面介绍 Agentic AI 应用的监控架构、核心指标设计和告警策略。

实战部署指南

Langfuse Helm 部署、AMP/AMG 配置、ServiceMonitor YAML、Grafana 仪表板 JSON 等实战配置请参阅监控栈配置指南。

概述

Agentic AI 应用执行复杂的推理链和多种工具调用，仅靠传统 APM 工具难以获得充分的可见性。Langfuse 和 LangSmith 等 LLM 专用可观测性工具提供以下核心功能：

Trace 追踪：追踪 LLM 调用、工具执行、Agent 推理过程的完整流程
Token 使用量分析：输入/输出 Token 数及成本计算
质量评估：响应质量评分和反馈收集
调试：通过 Prompt 和响应内容审查诊断问题

目标读者

本文档面向平台运维人员、MLOps 工程师、AI 开发者。需要对 Kubernetes 和 Python 有基本了解。

监控架构

Langfuse 架构概述

Langfuse v2.75.0 以上由以下组件构成：

AMP/AMG 集成数据流

监控数据层次

层次	采集工具	指标模式	可确认项目
LLM 推理	Langfuse	trace, generation	Token 使用量、成本、TTFT、按用户模式
模型服务器	vLLM Prometheus	`vllm_*`	请求数、批大小、KV cache 使用率、TPS
GPU	DCGM Exporter	`DCGM_FI_DEV_*`	GPU 利用率、温度、功耗、内存使用量
基础设施	Node Exporter	`node_*`	CPU、内存、网络、磁盘 I/O
网关	kgateway	`envoy_*`	请求数、延迟、错误率、上游状态

Langfuse vs LangSmith 对比

Langfuse vs LangSmith Comparison

Feature	Langfuse	LangSmith
License	Open source (MIT)	Commercial (free tier)
Deployment	Self-hosted / Cloud	Cloud only
Data Sovereignty	Full control	LangChain servers
Integration	Multiple frameworks	LangChain optimized
Cost	Infrastructure only	Usage-based pricing
Scalability	Kubernetes native	Managed

选择指南

Langfuse：数据主权重要或需要成本优化时
LangSmith：以 LangChain 开发为主力，需要快速启动时

AWS 原生可观测性：CloudWatch Generative AI Observability

Amazon CloudWatch Generative AI Observability 是面向 LLM 和 AI Agent 监控的 AWS 原生方案：

基础设施无关监控：支持 Bedrock、EKS、ECS、本地等所有环境的 AI 工作负载
Agent/工具追踪：Agent、知识库、工具调用的默认视图
端到端追踪：跨整个 AI 栈的追踪
框架兼容：支持 LangChain、LangGraph、CrewAI 等外部框架

同时使用 Langfuse v2.75.0（自托管数据主权）和 CloudWatch Gen AI Observability（AWS 原生集成）可获得最全面的可观测性。

核心监控指标

定义 Agentic AI 应用中需要追踪的核心指标。

指标类别

Latency 指标

Latency Metrics

Metric	Description	Target	Alert Threshold
agent_request_duration_seconds	Total request processing time	P95 < 5s	P99 > 10s
llm_inference_duration_seconds	LLM inference time	P95 < 3s	P99 > 8s
tool_execution_duration_seconds	Tool execution time	P95 < 1s	P99 > 3s
vector_search_duration_seconds	Vector search time	P95 < 200ms	P99 > 500ms

Token Usage 指标

Token Usage Metrics

Metric	Description	Monitoring Purpose
llm_input_tokens_total	Total input tokens	Prompt optimization
llm_output_tokens_total	Total output tokens	Response length analysis
llm_total_tokens_total	Total tokens	Cost tracking
llm_cost_dollars_total	Estimated cost (USD)	Budget management

Error Rate 指标

Error Rate Metrics

Metric	Description	Alert Threshold
agent_errors_total	Total agent errors	Error rate > 5%
llm_rate_limit_errors_total	Rate Limit errors	> 10 per minute
tool_execution_errors_total	Tool execution errors	Error rate > 10%
agent_timeout_total	Timeout occurrences	> 5 per minute

PromQL 查询参考

GPU 指标

# 全部 GPU 平均利用率
avg(DCGM_FI_DEV_GPU_UTIL)

# 按节点 GPU 利用率
avg(DCGM_FI_DEV_GPU_UTIL) by (Hostname)

# GPU 内存使用率
avg(DCGM_FI_DEV_FB_USED / DCGM_FI_DEV_FB_FREE * 100) by (gpu)

vLLM 指标

# 全部 TPS（每秒生成 Token）
rate(vllm_generation_tokens_total[5m])

# 按模型 TPS
sum(rate(vllm_generation_tokens_total[5m])) by (model)

# TTFT P99 (Time to First Token)
histogram_quantile(0.99, rate(vllm_time_to_first_token_seconds_bucket[5m]))

# TTFT P95
histogram_quantile(0.95, rate(vllm_time_to_first_token_seconds_bucket[5m]))

# E2E 延迟 P99
histogram_quantile(0.99, rate(vllm_e2e_request_latency_seconds_bucket[5m]))

# 平均批大小
avg(vllm_num_requests_running)

Gateway 指标

# 5xx 错误率 (%)
rate(envoy_http_downstream_rq_xx{envoy_response_code_class="5"}[5m]) 
/ 
rate(envoy_http_downstream_rq_total[5m]) * 100

# 上游健康检查失败率
sum(rate(envoy_cluster_upstream_cx_connect_fail[5m])) by (envoy_cluster_name)

成本指标

# 每日总成本
sum(increase(llm_cost_dollars_total[24h]))

# 按租户每日成本
sum(increase(llm_cost_dollars_total[24h])) by (tenant_id)

# 按模型成本比例
sum(increase(llm_cost_dollars_total[24h])) by (model)
/ ignoring(model) group_left
sum(increase(llm_cost_dollars_total[24h]))

# 预算使用率（月度）
sum(increase(llm_cost_dollars_total[30d])) by (tenant_id)
/ on(tenant_id) group_left
tenant_monthly_budget_usd

告警策略

告警阈值设计

告警	条件	严重度	持续时间
Agent High Latency	P99 延迟大于 10 秒	Warning	5 分钟
Agent High Error Rate	错误率大于 5%	Critical	5 分钟
LLM Rate Limit	Rate limit 错误大于 10 次/5 分钟	Warning	2 分钟
Daily Cost Budget	每日成本大于 $100	Warning	立即
GPU High Temperature	GPU 温度大于 85 度	Warning	5 分钟
GPU Memory Full	GPU 内存大于 95%	Critical	3 分钟
vLLM High Latency	P99 E2E 延迟大于 30 秒	Warning	5 分钟

告警层次结构

基础设施层：GPU 温度、内存、功率异常
模型服务器层：vLLM 延迟增加、KV cache 不足
应用层：Agent 错误率、Rate limit
业务层：成本超支、SLA 违约

监控最佳实践

层级间指标关联：LLM 请求增加 -> GPU 利用率上升 -> 基础设施负载增加的相关性分析
异常检测：P99 延迟突然增加时同时检查 GPU 温度或内存使用量
容量规划：平均 GPU 利用率超过 70% 时考虑增加 GPU 节点
成本优化：优先使用低 TTFT 模型改善用户体验 + 提高吞吐量

成本追踪

成本追踪概念

按以下标准追踪 LLM 使用成本：

按模型：各模型总成本和请求数，识别最高成本模型
按租户：租户/团队每日 Token 使用量和预算使用率
按时间：峰值时段分析、成本趋势

按模型成本参考（2026 基准）

模型	输入（$/1K tok）	输出（$/1K tok）
GPT-4o	$0.0025	$0.01
GPT-4o-mini	$0.00015	$0.0006
Claude Sonnet 4	$0.003	$0.015
Claude 3.5 Haiku	$0.0008	$0.004

成本优化提示

模型选择优化：简单任务使用低成本模型（GPT-4o-mini、Claude 3.5 Haiku）
Prompt 优化：移除不必要上下文减少输入 Token
缓存利用：对重复查询缓存响应
Cascade Routing：先尝试低成本模型失败时再回退到高性能模型

运营检查清单

每日检查项目

Daily Checks

Check Item	How to Check	Normal Status
GPU Status	`kubectl get nodes -l nvidia.com/gpu.present=true`	All nodes Ready
Model Pods	`kubectl get pods -n inference`	Running state
Error Rate	Grafana dashboard	< 1%
Response Time	P99 latency	< 5 seconds
GPU Utilization	DCGM metrics	40-80%
Memory Usage	GPU memory	< 90%

每周检查项目

Weekly Checks

Check Item	How to Check	Action
Cost Analysis	Kubecost report	Identify anomalous costs
Capacity Planning	Resource trends	Plan scaling
Security Patches	Image scan	Patch vulnerabilities
Backup Validation	Recovery test	Verify backup policy

监控成熟度模型

Monitoring Maturity Model

Level 1

Basic

Log collection, basic metrics

Level 2

Standard

Langfuse/LangSmith tracing, Grafana dashboard

Level 3

Advanced

Cost tracking, quality assessment, automated alerts

Level 4

Optimized

A/B testing, auto-tuning, predictive analytics

下一步

监控栈配置指南 - AMP/AMG 部署、Langfuse Helm 安装、ServiceMonitor、Grafana 仪表板实战配置
LLMOps Observability 对比指南 - Langfuse vs LangSmith vs Helicone 深度对比
Agentic AI Platform 架构 - 整体平台设计
RAG 评估框架 - 利用 Ragas 的质量评估

概述​

监控架构​

Langfuse 架构概述​

AMP/AMG 集成数据流​

监控数据层次​

Langfuse vs LangSmith 对比​

AWS 原生可观测性：CloudWatch Generative AI Observability​

核心监控指标​

指标类别​

Latency 指标​

Token Usage 指标​

Error Rate 指标​

PromQL 查询参考​

GPU 指标​

vLLM 指标​

Gateway 指标​

成本指标​

告警策略​

告警阈值设计​

告警层次结构​

成本追踪​

成本追踪概念​

按模型成本参考（2026 基准）​

运营检查清单​

每日检查项目​

每周检查项目​

监控成熟度模型​

下一步​

参考资料​

概述