Agent 变更管理
为什么需要 Agent Change Management
与传统软件变更的差异
传统软件的变更管理针对代码、配置和基础设施变更。Agent 系统还增加了概率性组件:
| 变更类型 | 传统系统 | Agentic 系统 |
|---|---|---|
| 输出确定性 | 相同输入 → 相同输出 | 相同输入 → 概率分布 |
| 回归检测 | 单元测试、集成测试 | 统计评估(BLEU, Exact Match, LLM-as-Judge) |
| 回滚标准 | 功能故障、性能下降 | 准确率下降、幻觉增加、latency P99 |
| 变更单位 | 代码提交、二进制 | 提示词版本、模型替换、参数调整 |
为什么要像管理代码一样管理 Prompt 和 Model
-
Prompt 是逻辑的核心
"你是金融分析专家" → "你是保守型投资顾问" 这一行变更会改变整个输出模式。 -
模型替换等同于运行时替换
GPT-4 → Claude 4.7 Sonnet 切换时,即使使用相同提示词,响应风格、token 使用量和延迟也会不同。 -
没有变更追踪就无法回滚
当收到"昨天还好今天就不对了"的报告时,如果不知道谁在何时更改了哪个提示词,就无法恢复。 -
监管要求
金融、医疗和公共部门需要审计记录:"这个答案是由哪个提示词版本、哪个模型版本生成的",并保存审计日志。
三层 Change Management 体系
Agent 变更管理由三个层次组成:
1. 提示词·模型注册中心
像管理代码一样管理提示词和模型版本的中央存储库。使用 Langfuse、Bedrock Prompt Management、PromptLayer 等进行版本管理、标记和变更历史追踪。
2. 部署策略
Shadow Testing、Canary Rollout、A/B Testing、Blue-Green Deployment 等渐进式部署策略和基于 Feature Flag 的展开方式。
3. 治理·自动化
回归检测、自动回滚、审批工作流、审计证据、AIDLC 阶段应用方案。
核心原则
- 所有变更都要版本管理:提示词、模型、参数变更应该像 Git commit 一样可追踪。
- 渐进式部署:不要一次性更改全部流量。Canary → 逐步扩大。
- 自动回归检测:Golden Dataset 评估 + 实时指标监控,立即检测性能下降。
- 快速回滚:必须具备问题发生时 1 分钟内恢复的机制。
- 审计证据:金融·医疗·公共部门监管对应的 7 年保存体系。
相关文档
📄️ 提示词·模型注册中心
Langfuse、PromptLayer、Braintrust、AWS Bedrock Prompt Management 比较及构建指南
📄️ 部署策略
渐进式模型替换策略和基于 Feature Flag 的提示词展开方式
📄️ 治理·自动化
回归检测、自动回滚、审批工作流、审计证据、AIDLC 阶段应用方案
AIDLC 关联文档
- Evaluation Framework — 基于 Golden Dataset 的回归 检测
- Agent 监控 — 实时 observability
下一步
建立变更管理流程后:
- 提示词·模型注册中心 — 选择并构建 Langfuse/Bedrock PM
- 部署策略 — 选择 Canary/Shadow/A-B 中的合适策略
- 治理·自动化 — 构建自动回归检测和回滚体系