Autenticare
Google 工具 · · 9 min

生产环境中AI智能体的评估:如何不自欺欺人地衡量质量

缺乏持续评估,AI智能体会悄然退化——直到客户投诉你才知道。我们在所有Gemini Enterprise项目中使用的评估框架:黄金集、指标、监控与漂移检测。

Fabiano Brito

Fabiano Brito

CEO & Founder

生产环境中AI智能体的评估:如何不自欺欺人地衡量质量
TL;DR AI智能体不是确定性软件——它们会漂移,在模型更新时出现回归,并在边缘案例中悄然失效。没有正式的评估机制,你就是在黑暗中运行。实用框架:黄金集、4个核心指标、持续监控和人工抽样审查。

传统软件中,"通过测试"是二元的。AI中则是分布:92%的情况通过,8%退化,而今天的退化可能是明天的灾难。因此,评估不是一个阶段——它是一个持续循环。


4个评估维度

维度 1

忠实性(Faithfulness)

回答是否基于检索到的数据?这是反幻觉指标。

如何衡量:LLM-as-judge(Gemini Pro评估回答vs上下文)+ 每周人工抽样。

维度 2

相关性(Relevance)

回答是否切中问题?对正确但偏题的回答进行惩罚。

如何衡量:嵌入相似度 + LLM-as-judge。

维度 3

完整性(Completeness)

是否涵盖所有相关方面?对多部分问题至关重要。

如何衡量:人工评分或带明确标准的LLM-as-judge。

维度 4

安全性(Safety)

是否避免了禁止内容(PII泄露、偏见、不当建议)?

如何衡量:专用分类器 + 规则引擎 + 人工抽样。

忽略任何一个维度 = 生产中的惊喜。覆盖全部4个 = 坚实的基础。


黄金集:最被低估的资产

黄金集是由人工策划的(问题、预期答案)对集合。它是区分真正评估与"感觉正确"的分水岭。

如何构建

  • 最小规模:试点阶段50–100个案例,生产阶段300–500个,关键系统1000+个。
  • 多样性:涵盖所有主要意图、已知边缘案例和歧义情况。
  • 预期答案不仅包含内容:还包括期望格式、引用和语气。
  • 多评审员标注:每个案例两名人工审查,分歧由第三方仲裁。
  • 版本控制:每个版本有哈希值、日期和负责人。

如何维护

  • 生产中的每次真实回归都成为黄金集中的新案例。
  • 每次业务规则变更都触发对受影响案例的审查。
  • 季度审查:删除过时案例,添加新场景。
没有黄金集,你就是盯着Slack里的3个例子来迭代提示词。这是工程与猜测之间的区别。

何时评估

时机运行内容
提示词更改完整的自动化黄金集
模型升级(2.5 → 3)黄金集 + 100个案例的人工审查
RAG变更(分块、重排)专注于检索的黄金集
每日生产50–100次对话抽样
每周漂移分析,质量下降最多的类别
每月200个案例的深度人工审查
每季度偏见审计,按细分市场进行公平性评估

LLM-as-judge:正确使用方法

用LLM评估LLM存在已知偏差(倾向于较长回答、同模型回答、语气肯定的回答)。正确使用方法:

  • 尽可能使用与被测模型不同的模型
  • 明确的评分标准:有编号的标准,而非"它好吗?"。
  • 针对人工进行校准:每200个案例,20个并行人工审查。一致性 < 80% → 修订评分标准。
  • 多轮评估:使用不同随机种子进行3次评估,取中位数。
  • 引用文本片段:评判者需要解释为何这样评分——便于审计。

漂移:无声的杀手

⚠️ 隐性漂移 1月运行正常的智能体在4月退化,因为问题分布发生了变化、RAG被更新,或Google更新了Gemini的快照。没有漂移监控,你只能等客服投诉才能发现问题。

如何检测:

  • 问题嵌入监控:如果聚类发生变化,发出告警。
  • 工具调用分布:如果以前常用的工具消失了,进行排查。
  • 按意图的延迟:突然增加 = 行为变化。
  • 回退率(智能体说"我不知道"):如果上升,RAG正在失去覆盖范围。
  • 人工渠道投诉:滞后指标但可靠。

产品指标(不仅仅是模型指标)

在没有产品指标的情况下评估智能体是在为错误的目标优化:

  • 自主解决率:无需人工干预完成的对话百分比。
  • 对话后CSAT:结束时的单一问题。
  • 解决时间:与人工基准对比。
  • 回访率:用户24小时内带同样问题返回 = 初始回答不够。
  • 每次对话成本:token × 价格 + 工具调用。
  • 转化率(商业场景):请求报价、预约、购买。

Autenticare项目技术栈

  • Vertex AI Evaluation:原生,直接接入Gemini Enterprise智能体。
  • BigQuery:存储对话、评分、元数据。Ad-hoc SQL查询。
  • Looker:质量和漂移仪表盘。
  • Cloud Run jobs:每日运行黄金集,回归时发出告警。
  • PagerDuty:关键指标低于阈值时发出人工告警。
  • 每周Notebook:顾问深度分析50次真实对话并生成报告。

上线前最低检查清单

1
黄金集 > 100个案例,2+位评审员

意图多样性、边缘案例、歧义情况。

2
每次部署自动化流水线

在任何推送到生产前先运行黄金集。

3
4个带阈值的指标

忠实性、相关性、完整性、安全性。低于最低值 → 阻止部署。

4
实时仪表盘 + 告警

任何指标回归 > 5%触发PagerDuty。

5
每周人工审查 + 有权暂停的负责人

抽样50–100次对话,指定有权停止智能体运行的负责人。

缺少任何一项,智能体就还没准备好。

质量审计

您的智能体已在生产中运行却没有正式评估?

Autenticare在2周内完成审计:构建初始黄金集,配置4项指标,安装漂移仪表盘。我们交付运行中的循环,而不仅仅是报告。


延伸阅读