生产环境中AI智能体的评估：如何不自欺欺人地衡量质量

生产环境中AI智能体的评估是一个结合黄金集、四项核心指标与持续监控的持续循环机制。它能帮助企业防止智能体在模型更新时悄然失效或漂移，避免在黑暗中盲目运行。

TL;DR AI智能体不是确定性软件——它们会漂移，在模型更新时出现回归，并在边缘案例中悄然失效。没有正式的评估机制，你就是在黑暗中运行。实用框架：黄金集、4个核心指标、持续监控和人工抽样审查。

传统软件中，"通过测试"是二元的。AI中则是分布：92%的情况通过，8%退化，而今天的退化可能是明天的灾难。因此，评估不是一个阶段——它是一个持续循环。

4个评估维度

维度 1

忠实性（Faithfulness）

回答是否基于检索到的数据？这是反幻觉指标。

如何衡量：LLM-as-judge（Gemini Pro评估回答vs上下文）+ 每周人工抽样。

维度 2

完整性（Completeness）

是否涵盖所有相关方面？对多部分问题至关重要。

如何衡量：人工评分或带明确标准的LLM-as-judge。

维度 4

安全性（Safety）

是否避免了禁止内容（PII泄露、偏见、不当建议）？

如何衡量：专用分类器 + 规则引擎 + 人工抽样。

忽略任何一个维度 = 生产中的惊喜。覆盖全部4个 = 坚实的基础。

黄金集：最被低估的资产

黄金集是由人工策划的（问题、预期答案）对集合。它是区分真正评估与"感觉正确"的分水岭。

如何构建

最小规模：试点阶段50–100个案例，生产阶段300–500个，关键系统1000+个。
多样性：涵盖所有主要意图、已知边缘案例和歧义情况。
预期答案不仅包含内容：还包括期望格式、引用和语气。
多评审员标注：每个案例两名人工审查，分歧由第三方仲裁。
版本控制：每个版本有哈希值、日期和负责人。

如何维护

生产中的每次真实回归都成为黄金集中的新案例。
每次业务规则变更都触发对受影响案例的审查。
季度审查：删除过时案例，添加新场景。

没有黄金集，你就是盯着Slack里的3个例子来迭代提示词。这是工程与猜测之间的区别。

何时评估

时机	运行内容
提示词更改	完整的自动化黄金集
模型升级（2.5 → 3）	黄金集 + 100个案例的人工审查
RAG变更（分块、重排）	专注于检索的黄金集
每日生产	50–100次对话抽样
每周	漂移分析，质量下降最多的类别
每月	200个案例的深度人工审查
每季度	偏见审计，按细分市场进行公平性评估

LLM-as-judge：正确使用方法

用LLM评估LLM存在已知偏差（倾向于较长回答、同模型回答、语气肯定的回答）。正确使用方法：

尽可能使用与被测模型不同的模型。
明确的评分标准：有编号的标准，而非"它好吗？"。
针对人工进行校准：每200个案例，20个并行人工审查。一致性 < 80% → 修订评分标准。
多轮评估：使用不同随机种子进行3次评估，取中位数。
引用文本片段：评判者需要解释为何这样评分——便于审计。

漂移：无声的杀手

⚠️ 隐性漂移 1月运行正常的智能体在4月退化，因为问题分布发生了变化、RAG被更新，或Google更新了Gemini的快照。没有漂移监控，你只能等客服投诉才能发现问题。

如何检测：

问题嵌入监控：如果聚类发生变化，发出告警。
工具调用分布：如果以前常用的工具消失了，进行排查。
按意图的延迟：突然增加 = 行为变化。
回退率（智能体说"我不知道"）：如果上升，RAG正在失去覆盖范围。
人工渠道投诉：滞后指标但可靠。

产品指标（不仅仅是模型指标）

在没有产品指标的情况下评估智能体是在为错误的目标优化：

自主解决率：无需人工干预完成的对话百分比。
对话后CSAT：结束时的单一问题。
解决时间：与人工基准对比。
回访率：用户24小时内带同样问题返回 = 初始回答不够。
每次对话成本：token × 价格 + 工具调用。
转化率（商业场景）：请求报价、预约、购买。

Autenticare项目技术栈

Vertex AI Evaluation：原生，直接接入Gemini Enterprise智能体。
BigQuery：存储对话、评分、元数据。Ad-hoc SQL查询。
Looker：质量和漂移仪表盘。
Cloud Run jobs：每日运行黄金集，回归时发出告警。
PagerDuty：关键指标低于阈值时发出人工告警。
每周Notebook：顾问深度分析50次真实对话并生成报告。

上线前最低检查清单

黄金集 > 100个案例，2+位评审员

意图多样性、边缘案例、歧义情况。

每次部署自动化流水线

在任何推送到生产前先运行黄金集。

4个带阈值的指标

忠实性、相关性、完整性、安全性。低于最低值 → 阻止部署。

实时仪表盘 + 告警

任何指标回归 > 5%触发PagerDuty。

每周人工审查 + 有权暂停的负责人

抽样50–100次对话，指定有权停止智能体运行的负责人。

缺少任何一项，智能体就还没准备好。

常见问题 sobre 生产环境中AI智能体的评估：如何不自欺欺人地衡量质量

为什么持续评估对于生产环境中的 AI Agent 很重要？ AI Agent 不是确定性的，可能会出现漂移 (drift)、退化 (regression) 和静默失败 (silent failures)。持续评估确保质量得到监控和维护。

评估 AI Agent 的四个主要维度是什么？ 四个维度是：Faithfulness（答案是否基于数据）、Relevance（答案是否解决了问题）、Completeness（是否涵盖了所有相关方面）和 Safety（是否避免了禁止内容）。

什么是 ‘gold set’，为什么它很重要？ ‘gold set’ 是由人工整理的一组（问题，预期答案）对。它对于 AI Agent 的准确和客观评估至关重要。

我应该多久在生产环境中执行评估？ 建议每天使用对话样本执行评估，每周进行漂移 (drift) 分析，每月进行人工审核，每季度进行偏差 (viés) 审计。

质量审计

您的智能体已在生产中运行却没有正式评估？

Autenticare在2周内完成审计：构建初始黄金集，配置4项指标，安装漂移仪表盘。我们交付运行中的循环，而不仅仅是报告。

申请审计 → 使用Vertex AI Search构建RAG