治理与合规 · · 8 min
AI模型治理:模型卡、版本管理与ANPD可能提出的要求
模型悄然改变。没有版本管理、模型卡和基线,您的团队无法检测漂移,也没有内容可以出示给审计员。Gemini Enterprise模型治理的实用框架。
Fabiano Brito
CEO & Founder
TL;DR
2026年,ANPD和行业审计机构(BACEN、SUSEP、ANS)开始要求对用于自动化决策的AI模型提供正式文档。模型卡、版本管理、评估基线和审查计划已不再是"最佳实践",而是正在成为硬性要求。适用于Gemini Enterprise项目的实操方案。
在企业生产环境中运行Gemini、GPT、Claude或Llama的公司拥有一支"模型舰队"——每个模型都有自己的版本、行为、偏见和成本。没有治理,没有人知道哪个版本运行在哪里,审计将变成噩梦。
什么是模型卡(以及为何重要)
模型卡是模型的"技术规格表"。由Google于2019年发明,已成为事实标准。对每个生产中的模型,请记录:
- 标识:名称、精确版本、提供商、快照日期。
- 预期用途:用例、用户画像、支持的决策类型。
- 范围外用途:不属于可接受用例的内容。
- 训练数据:已知的来源信息(对于专有模型,是提供商公开的内容)。
- 评估指标:内部gold set、基准测试、基线。
- 已知限制:语言、领域、已识别的偏见。
- 缓解措施:提示词、护栏、人工交接。
- 技术负责人:谁来维护。
- 业务负责人:谁对决策负责。
- 审查日期:重新评估周期。
在Gemini Enterprise中,模型卡按智能体+按底层模型分别建立——可以是项目仓库中的Markdown文件。
明确版本管理
版本固定是强制性的。"Gemini Pro"不是版本——它是系列名。"Gemini 2.5 Pro snapshot 2026-04"才是版本。
实践要点:
- API调用始终指定明确的模型版本。
- 版本变更 = PR + 针对gold set重新评估。
- 记录回滚操作。
- 升级新版本前通知业务负责人。
不这样做,Google更新快照,行为改变,指标退步——没有人明白为什么。
基线与漂移
每个新版本都要与基线(当前生产版本)进行比较。指标包括:
- 忠实度、相关性、完整性、安全性(参见生产环境智能体评估)。
- p50/p95延迟。
- 每次执行成本。
- 人工交接率。
- 工具调用分布。
任何指标退步超过5% = 阻止上线直至调查完毕。
ANPD和审计员正在要求什么(2026年)
行业审查中的新兴模式(BACEN、SUSEP、ANS等已发布趋同的指导意见):
1
清单——用于自动化决策的AI系统动态清单,包含负责人、状态、关键性。
2
模型卡——每个系统的技术规格表,包含版本、限制、缓解措施。
3
DPIA,包含LLM特定风险矩阵(参见Gemini Enterprise项目DPIA)。
4
按敏感细分(性别、种族、地区、年龄)的季度偏见评估。
5
能够重建单个决策的审计日志——输入、上下文、响应、调用的工具。
6
可运作的人工审查权——有SLA的渠道,而不只是合同条款。
7
退役计划:如何在不中断运营的情况下关闭模型。
偏见评估:如何不流于形式
LLM中的偏见是真实且可测量的。审计方法:
- 定义与案例相关的敏感细分(例如:信贷中:地区、年龄、申报性别)。
- 按细分构建均衡样本案例。
- 在样本上运行智能体,比较各细分间的结果和语调。
- 指标:统计均等差异、机会均等差异。
- 每季度向董事会及风险委员会报告。
- 差异超过阈值时采取纠正措施(典型值:10%)。
自动化决策的情形(LGPD第20条)
若智能体做出具有法律或重大影响的决策(拒绝信贷、拒绝合同、拒绝服务),数据主体有权:
- 知晓该决策是自动化的。
- 获得标准说明。
- 要求自然人进行审查。
操作层面:
- UX明确说明:"此初步分析为自动化处理"。
- 决策时附上理由(不只是"已拒绝")。
- 设有定义了SLA的明确审查渠道。
- 对人工审查员进行培训。
内部AI委员会
在中大型组织中,建议成立包含以下成员的委员会:
- 数据保护官(DPO)。
- 法务(行业监管合规)。
- 每个智能体的技术负责人。
- 人力资源代表(劳动影响)。
- 业务代表。
- 每月召开会议,审查清单、偏见指标和事故情况。
没有论坛,AI决策就游离于IT与业务之间——出事时,无人负责。
退役计划
最容易被忽视,但至关重要:
- 如何在不中断运营的情况下关闭智能体?
- 手动操作能多快扩展?
- 谁来决定关闭?
- 关闭后日志保留多久?
两页文档。零成本。在事故中能救命。
最低治理技术栈
- 清单:动态电子表格或Notion/Confluence,记录每个智能体、模型、负责人、状态。
- 模型卡:仓库中每个智能体的MD文件。
- 版本管理:代码中固定版本,变更走PR。
- 持续评估:gold set流水线 + 指标看板。
- 审计日志:具有合规保留期的BigQuery/Cloud Logging。
- DPIA每年或发生重大变更时更新。
- 委员会公开会议纪要。
⚠️ 最佳实践
若智能体做出具有法律或重大影响的决策(信贷、合同、服务被拒),数据主体享有明确的人工审查权、获得标准说明的权利,以及知晓决策为自动化处理的权利。没有理由的"已拒绝"无法通过审查。培训人工审查员——他们需要理解智能体才能提出质疑。
模型治理不是法律表演。当出现问题时,它是区分"我们掌控全局"和"我们与投诉的数据主体一起发现问题"的关键所在。
AI治理工具包
3周内做好审计准备
清单 + 模型卡 + DPIA + 结构化委员会 + 偏见指标流水线。3周内交付,与技术实施并行,包含DPO和委员会培训。
