Google 工具 · · 8 min
企业提示词工程:Agent 上线生产后有何不同
在演示中有效的提示词在生产环境中失效。来自真实 Gemini Enterprise Agent 的经过验证的模式——结构、护栏、few-shot、不确定性处理和版本管理。
Fabiano Brito
CEO & Founder
TL;DR
企业提示词工程是一门学科,不是即兴创作。在 Gemini Enterprise 中,提示词是代码的一部分——进行版本管理、对照 gold set 测试、配备护栏和明确的不确定性指令。以下是模板和生产中代价高昂的错误。
"提示词工程"在 2024 年成了梗——"人人都能做"。在企业生产中,它是可靠 Agent 和令人难堪的 Agent 之间的分界线。本文分享我们在所有 Autenticare 项目中应用的模式。
企业提示词结构——7 个模块
每个生产提示词有 7 个模块,按此顺序:
1
角色与使命
Agent 是谁,范围是什么。没有这个,它会假设自己是"通用助手"。
2
企业背景
语调、价值观、品牌限制。这里"我们"变成了声音。
3
能力与限制
Agent 能做什么,更重要的是,不能做什么。
4
不确定性规则
不知道时如何反应。这是企业提示词中最被低估的模块。
5
输出格式
JSON 或文本结构、强制引用、字数限制。
6
Few-shot 示例
2–5 个良好行为示例,包括 1 个"我不知道"的示例。
7
可用工具
清晰列出每个工具的使用时机和预期 schema。
缺少任何一个模块,在非显而易见的场景中行为就会退化。
最被低估的模块:不确定性规则
LLM 的默认行为是即使不知道也听起来很自信。在生产中,这就是伪装的幻觉。始终原文包含:
"如果检索的上下文中没有所需信息,回答'我没有在可用库中找到该信息'——不要编造,不要从自己的知识中泛化。如果问题模糊,在回答前请求澄清。"
在 Agent 确定的情况下,它回答。在不确定的情况下,升级到人工。这大幅减少了幻觉。更多内容见生产环境 AI Agent 评估。
Few-shot:如何选择示例
选择不当的 few-shot 比没有示例更偏颇。标准:
- 多样性:覆盖 3–5 个最常见的模式,而非同一个模式的 5 个变体。
- 边界案例:包含 1 个"我没有信息"和 1 个"我需要澄清"的示例。
- 格式对齐:每个示例都使用预期响应的精确格式。
- 人工筛选:永远不要用 LLM 的输出作为 few-shot——这会变成偏差的回声。
有效模式 vs 反模式
| 推荐模式 | 应避免的反模式 |
|---|---|
| 正面限制("用最多 3 段回答") | 负面限制("不要回答太长") |
| 明确结构("使用标题:摘要/背景/建议") | "要清晰有条理" |
| 强制引用(每个陈述末尾加 [doc:页]) | "尽可能包含来源" |
| 明确 PII 掩码(身份证号 → ***.***.***-12) | "避免敏感数据" |
| 回答前自检 | 无审核直接回答 |
ISO 8601 日期(2026-04-20) |
"本周"、"上个月" |
⚠️ 4000 字提示词
模型在冗长的提示词中注意力分散,简洁结构化 > 冗长啰嗦。矛盾指令("简洁地详细说明一切")会相互抵消。
版本管理:提示词就是代码
生产提示词就是代码。最低要求:
- 专用 git 仓库,配合 PR 和代码审查。
- 每个版本都有哈希 + 作者 + 日期 + 修改原因。
- 升级到 100% 前进行 A/B 测试。
- 每个 PR 都对 gold set 进行自动评估。
- 一键回滚。
没有这些,"有人改了提示词"就会变成生产噩梦。
模型:同一 Agent 中 Pro vs Flash
生产中的高效模式:
- Gemini 2.5 Flash:分类、路由、短任务、schema 验证。
- Gemini 2.5 Pro:复杂推理、主要生成、重度多模态。
成本降低 60–80%,而感知质量不下降——用户对 70% 的琐碎问题获得 Flash,对 30% 重要的问题获得 Pro。
提示词之外的护栏
仅靠提示词不够。配合:
- 输入验证:大小限制、命令清理。
- 输出过滤:用于 PII、禁止内容的正则/分类器。
- 工具授权:每个工具有自己的 ACL。
- 速率限制:按用户和按 Agent。
- 置信度阈值:低于 X,升级到人工。
