Autenticare
Google 工具 · · 8 min

企业提示词工程:Agent 上线生产后有何不同

在演示中有效的提示词在生产环境中失效。来自真实 Gemini Enterprise Agent 的经过验证的模式——结构、护栏、few-shot、不确定性处理和版本管理。

Fabiano Brito

Fabiano Brito

CEO & Founder

企业提示词工程:Agent 上线生产后有何不同
TL;DR 企业提示词工程是一门学科,不是即兴创作。在 Gemini Enterprise 中,提示词是代码的一部分——进行版本管理、对照 gold set 测试、配备护栏和明确的不确定性指令。以下是模板和生产中代价高昂的错误。

"提示词工程"在 2024 年成了梗——"人人都能做"。在企业生产中,它是可靠 Agent 和令人难堪的 Agent 之间的分界线。本文分享我们在所有 Autenticare 项目中应用的模式。


企业提示词结构——7 个模块

每个生产提示词有 7 个模块,按此顺序:

1
角色与使命

Agent 是谁,范围是什么。没有这个,它会假设自己是"通用助手"。

2
企业背景

语调、价值观、品牌限制。这里"我们"变成了声音

3
能力与限制

Agent 能做什么,更重要的是,不能做什么。

4
不确定性规则

不知道时如何反应。这是企业提示词中最被低估的模块。

5
输出格式

JSON 或文本结构、强制引用、字数限制。

6
Few-shot 示例

2–5 个良好行为示例,包括 1 个"我不知道"的示例。

7
可用工具

清晰列出每个工具的使用时机和预期 schema。

缺少任何一个模块,在非显而易见的场景中行为就会退化。


最被低估的模块:不确定性规则

LLM 的默认行为是即使不知道也听起来很自信。在生产中,这就是伪装的幻觉。始终原文包含:

"如果检索的上下文中没有所需信息,回答'我没有在可用库中找到该信息'——不要编造,不要从自己的知识中泛化。如果问题模糊,在回答前请求澄清。"

在 Agent 确定的情况下,它回答。在不确定的情况下,升级到人工。这大幅减少了幻觉。更多内容见生产环境 AI Agent 评估


Few-shot:如何选择示例

选择不当的 few-shot 比没有示例更偏颇。标准:

  • 多样性:覆盖 3–5 个最常见的模式,而非同一个模式的 5 个变体。
  • 边界案例:包含 1 个"我没有信息"和 1 个"我需要澄清"的示例。
  • 格式对齐:每个示例都使用预期响应的精确格式。
  • 人工筛选:永远不要用 LLM 的输出作为 few-shot——这会变成偏差的回声。

有效模式 vs 反模式

推荐模式应避免的反模式
正面限制("用最多 3 段回答") 负面限制("不要回答太长")
明确结构("使用标题:摘要/背景/建议") "要清晰有条理"
强制引用(每个陈述末尾加 [doc:页]) "尽可能包含来源"
明确 PII 掩码(身份证号 → ***.***.***-12) "避免敏感数据"
回答前自检 无审核直接回答
ISO 8601 日期(2026-04-20 "本周"、"上个月"
⚠️ 4000 字提示词 模型在冗长的提示词中注意力分散,简洁结构化 > 冗长啰嗦。矛盾指令("简洁地详细说明一切")会相互抵消。

版本管理:提示词就是代码

生产提示词就是代码。最低要求:

  • 专用 git 仓库,配合 PR 和代码审查。
  • 每个版本都有哈希 + 作者 + 日期 + 修改原因。
  • 升级到 100% 前进行 A/B 测试。
  • 每个 PR 都对 gold set 进行自动评估。
  • 一键回滚。

没有这些,"有人改了提示词"就会变成生产噩梦。


模型:同一 Agent 中 Pro vs Flash

生产中的高效模式:

  • Gemini 2.5 Flash:分类、路由、短任务、schema 验证。
  • Gemini 2.5 Pro:复杂推理、主要生成、重度多模态。

成本降低 60–80%,而感知质量不下降——用户对 70% 的琐碎问题获得 Flash,对 30% 重要的问题获得 Pro。

提示词之外的护栏

仅靠提示词不够。配合:

  • 输入验证:大小限制、命令清理。
  • 输出过滤:用于 PII、禁止内容的正则/分类器。
  • 工具授权:每个工具有自己的 ACL。
  • 速率限制:按用户和按 Agent。
  • 置信度阈值:低于 X,升级到人工。
提示词审计

您的生产 Agent 有版本化的提示词吗?

我们审计当前提示词,按 7 个模块重新结构化,添加护栏并配置 gold set。两周交付。


延伸阅读