Google 工具 · · 9 min
生产环境中AI智能体的评估:如何不自欺欺人地衡量质量
缺乏持续评估,AI智能体会悄然退化——直到客户投诉你才知道。我们在所有Gemini Enterprise项目中使用的评估框架:黄金集、指标、监控与漂移检测。
Fabiano Brito
CEO & Founder
TL;DR
AI智能体不是确定性软件——它们会漂移,在模型更新时出现回归,并在边缘案例中悄然失效。没有正式的评估机制,你就是在黑暗中运行。实用框架:黄金集、4个核心指标、持续监控和人工抽样审查。
传统软件中,"通过测试"是二元的。AI中则是分布:92%的情况通过,8%退化,而今天的退化可能是明天的灾难。因此,评估不是一个阶段——它是一个持续循环。
4个评估维度
维度 1
忠实性(Faithfulness)
回答是否基于检索到的数据?这是反幻觉指标。
如何衡量:LLM-as-judge(Gemini Pro评估回答vs上下文)+ 每周人工抽样。
维度 2
相关性(Relevance)
回答是否切中问题?对正确但偏题的回答进行惩罚。
如何衡量:嵌入相似度 + LLM-as-judge。
维度 3
完整性(Completeness)
是否涵盖所有相关方面?对多部分问题至关重要。
如何衡量:人工评分或带明确标准的LLM-as-judge。
维度 4
安全性(Safety)
是否避免了禁止内容(PII泄露、偏见、不当建议)?
如何衡量:专用分类器 + 规则引擎 + 人工抽样。
忽略任何一个维度 = 生产中的惊喜。覆盖全部4个 = 坚实的基础。
黄金集:最被低估的资产
黄金集是由人工策划的(问题、预期答案)对集合。它是区分真正评估与"感觉正确"的分水岭。
如何构建
- 最小规模:试点阶段50–100个案例,生产阶段300–500个,关键系统1000+个。
- 多样性:涵盖所有主要意图、已知边缘案例和歧义情况。
- 预期答案不仅包含内容:还包括期望格式、引用和语气。
- 多评审员标注:每个案例两名人工审查,分歧由第三方仲裁。
- 版本控制:每个版本有哈希值、日期和负责人。
如何维护
- 生产中的每次真实回归都成为黄金集中的新案例。
- 每次业务规则变更都触发对受影响案例的审查。
- 季度审查:删除过时案例,添加新场景。
没有黄金集,你就是盯着Slack里的3个例子来迭代提示词。这是工程与猜测之间的区别。
何时评估
| 时机 | 运行内容 |
|---|---|
| 提示词更改 | 完整的自动化黄金集 |
| 模型升级(2.5 → 3) | 黄金集 + 100个案例的人工审查 |
| RAG变更(分块、重排) | 专注于检索的黄金集 |
| 每日生产 | 50–100次对话抽样 |
| 每周 | 漂移分析,质量下降最多的类别 |
| 每月 | 200个案例的深度人工审查 |
| 每季度 | 偏见审计,按细分市场进行公平性评估 |
LLM-as-judge:正确使用方法
用LLM评估LLM存在已知偏差(倾向于较长回答、同模型回答、语气肯定的回答)。正确使用方法:
- 尽可能使用与被测模型不同的模型。
- 明确的评分标准:有编号的标准,而非"它好吗?"。
- 针对人工进行校准:每200个案例,20个并行人工审查。一致性 < 80% → 修订评分标准。
- 多轮评估:使用不同随机种子进行3次评估,取中位数。
- 引用文本片段:评判者需要解释为何这样评分——便于审计。
漂移:无声的杀手
⚠️ 隐性漂移
1月运行正常的智能体在4月退化,因为问题分布发生了变化、RAG被更新,或Google更新了Gemini的快照。没有漂移监控,你只能等客服投诉才能发现问题。
如何检测:
- 问题嵌入监控:如果聚类发生变化,发出告警。
- 工具调用分布:如果以前常用的工具消失了,进行排查。
- 按意图的延迟:突然增加 = 行为变化。
- 回退率(智能体说"我不知道"):如果上升,RAG正在失去覆盖范围。
- 人工渠道投诉:滞后指标但可靠。
产品指标(不仅仅是模型指标)
在没有产品指标的情况下评估智能体是在为错误的目标优化:
- 自主解决率:无需人工干预完成的对话百分比。
- 对话后CSAT:结束时的单一问题。
- 解决时间:与人工基准对比。
- 回访率:用户24小时内带同样问题返回 = 初始回答不够。
- 每次对话成本:token × 价格 + 工具调用。
- 转化率(商业场景):请求报价、预约、购买。
Autenticare项目技术栈
- Vertex AI Evaluation:原生,直接接入Gemini Enterprise智能体。
- BigQuery:存储对话、评分、元数据。Ad-hoc SQL查询。
- Looker:质量和漂移仪表盘。
- Cloud Run jobs:每日运行黄金集,回归时发出告警。
- PagerDuty:关键指标低于阈值时发出人工告警。
- 每周Notebook:顾问深度分析50次真实对话并生成报告。
上线前最低检查清单
1
黄金集 > 100个案例,2+位评审员
意图多样性、边缘案例、歧义情况。
2
每次部署自动化流水线
在任何推送到生产前先运行黄金集。
3
4个带阈值的指标
忠实性、相关性、完整性、安全性。低于最低值 → 阻止部署。
4
实时仪表盘 + 告警
任何指标回归 > 5%触发PagerDuty。
5
每周人工审查 + 有权暂停的负责人
抽样50–100次对话,指定有权停止智能体运行的负责人。
缺少任何一项,智能体就还没准备好。
质量审计
您的智能体已在生产中运行却没有正式评估?
Autenticare在2周内完成审计:构建初始黄金集,配置4项指标,安装漂移仪表盘。我们交付运行中的循环,而不仅仅是报告。
