LLMOps Observability 对比指南
1. 概述
1.1 传统 APM 在 LLM 工作负载中不足的原因
传统 APM 工具无法满足 LLM 应用的特殊需求:
- Token 成本追踪不可:传统 APM 仅测量 CPU/内存使用量,无法追踪 LLM API 调用的实际成本(输入/输出 Token 数和 Provider 定价)
- Prompt 质量评估缺失:记录 HTTP 请求/响应正文,但缺乏 Prompt 模板版本管理、A/B 测试、质量评估指标
- 链追踪局限:LangChain/LlamaIndex 等框架的复杂链和 Agent 工作流通过简单 HTTP trace 难以获得可见性
- 语义上下文不足:仅测量 latency/throughput,无法评估"答案是否准确"、"是否产生幻觉"等语义质量
1.2 LLMOps Observability 的 4 大核心领域
- Tracing:追踪完整请求生命周期(Prompt -> LLM -> 响应),嵌套链/Agent 步骤级可见性
- Evaluation:通过自动/手动评估测量响应质量(准确度、忠实度、相关性、毒性等)
- Prompt Management:Prompt 模板版本管理、A/B 测试、生产部署流水线
- Cost Tracking:按 Provider/模型的 Token 成本实时汇总,团队/项目级预算管理
实战部署指南
Langfuse Helm 部署、Redis/ClickHouse 配置、kgateway sub-path 路由、Bifrost OTel 联动等实战配置请参阅 监控栈配置指南。