Autenticare
治理与合规 · · 8 min

AI模型治理:模型卡、版本管理与ANPD可能提出的要求

模型悄然改变。没有版本管理、模型卡和基线,您的团队无法检测漂移,也没有内容可以出示给审计员。Gemini Enterprise模型治理的实用框架。

Fabiano Brito

Fabiano Brito

CEO & Founder

AI模型治理:模型卡、版本管理与ANPD可能提出的要求
TL;DR 2026年,ANPD和行业审计机构(BACEN、SUSEP、ANS)开始要求对用于自动化决策的AI模型提供正式文档。模型卡、版本管理、评估基线和审查计划已不再是"最佳实践",而是正在成为硬性要求。适用于Gemini Enterprise项目的实操方案。

在企业生产环境中运行Gemini、GPT、Claude或Llama的公司拥有一支"模型舰队"——每个模型都有自己的版本、行为、偏见和成本。没有治理,没有人知道哪个版本运行在哪里,审计将变成噩梦。


什么是模型卡(以及为何重要)

模型卡是模型的"技术规格表"。由Google于2019年发明,已成为事实标准。对每个生产中的模型,请记录:

  • 标识:名称、精确版本、提供商、快照日期。
  • 预期用途:用例、用户画像、支持的决策类型。
  • 范围外用途属于可接受用例的内容。
  • 训练数据:已知的来源信息(对于专有模型,是提供商公开的内容)。
  • 评估指标:内部gold set、基准测试、基线。
  • 已知限制:语言、领域、已识别的偏见。
  • 缓解措施:提示词、护栏、人工交接。
  • 技术负责人:谁来维护。
  • 业务负责人:谁对决策负责。
  • 审查日期:重新评估周期。

在Gemini Enterprise中,模型卡按智能体+按底层模型分别建立——可以是项目仓库中的Markdown文件。


明确版本管理

版本固定是强制性的。"Gemini Pro"不是版本——它是系列名。"Gemini 2.5 Pro snapshot 2026-04"才是版本。

实践要点:

  • API调用始终指定明确的模型版本。
  • 版本变更 = PR + 针对gold set重新评估。
  • 记录回滚操作。
  • 升级新版本前通知业务负责人。

不这样做,Google更新快照,行为改变,指标退步——没有人明白为什么。


基线与漂移

每个新版本都要与基线(当前生产版本)进行比较。指标包括:

  • 忠实度、相关性、完整性、安全性(参见生产环境智能体评估)。
  • p50/p95延迟。
  • 每次执行成本。
  • 人工交接率。
  • 工具调用分布。

任何指标退步超过5% = 阻止上线直至调查完毕。


ANPD和审计员正在要求什么(2026年)

行业审查中的新兴模式(BACEN、SUSEP、ANS等已发布趋同的指导意见):

1
清单——用于自动化决策的AI系统动态清单,包含负责人、状态、关键性。
2
模型卡——每个系统的技术规格表,包含版本、限制、缓解措施。
3
DPIA,包含LLM特定风险矩阵(参见Gemini Enterprise项目DPIA)。
4
按敏感细分(性别、种族、地区、年龄)的季度偏见评估
5
能够重建单个决策的审计日志——输入、上下文、响应、调用的工具。
6
可运作的人工审查权——有SLA的渠道,而不只是合同条款。
7
退役计划:如何在不中断运营的情况下关闭模型。

偏见评估:如何不流于形式

LLM中的偏见是真实且可测量的。审计方法:

  • 定义与案例相关的敏感细分(例如:信贷中:地区、年龄、申报性别)。
  • 按细分构建均衡样本案例。
  • 在样本上运行智能体,比较各细分间的结果语调
  • 指标:统计均等差异机会均等差异
  • 每季度向董事会及风险委员会报告。
  • 差异超过阈值时采取纠正措施(典型值:10%)。

自动化决策的情形(LGPD第20条)

若智能体做出具有法律或重大影响的决策(拒绝信贷、拒绝合同、拒绝服务),数据主体有权:

  • 知晓该决策是自动化的。
  • 获得标准说明。
  • 要求自然人进行审查。

操作层面:

  • UX明确说明:"此初步分析为自动化处理"。
  • 决策时附上理由(不只是"已拒绝")。
  • 设有定义了SLA的明确审查渠道。
  • 对人工审查员进行培训。

内部AI委员会

在中大型组织中,建议成立包含以下成员的委员会:

  • 数据保护官(DPO)。
  • 法务(行业监管合规)。
  • 每个智能体的技术负责人。
  • 人力资源代表(劳动影响)。
  • 业务代表。
  • 每月召开会议,审查清单、偏见指标和事故情况。

没有论坛,AI决策就游离于IT与业务之间——出事时,无人负责。


退役计划

最容易被忽视,但至关重要:

  • 如何在不中断运营的情况下关闭智能体?
  • 手动操作能多快扩展?
  • 谁来决定关闭?
  • 关闭后日志保留多久?

两页文档。零成本。在事故中能救命。


最低治理技术栈

  • 清单:动态电子表格或Notion/Confluence,记录每个智能体、模型、负责人、状态。
  • 模型卡:仓库中每个智能体的MD文件。
  • 版本管理:代码中固定版本,变更走PR。
  • 持续评估:gold set流水线 + 指标看板。
  • 审计日志:具有合规保留期的BigQuery/Cloud Logging。
  • DPIA每年或发生重大变更时更新。
  • 委员会公开会议纪要。

⚠️ 最佳实践 若智能体做出具有法律或重大影响的决策(信贷、合同、服务被拒),数据主体享有明确的人工审查权、获得标准说明的权利,以及知晓决策为自动化处理的权利。没有理由的"已拒绝"无法通过审查。培训人工审查员——他们需要理解智能体才能提出质疑。
模型治理不是法律表演。当出现问题时,它是区分"我们掌控全局"和"我们与投诉的数据主体一起发现问题"的关键所在。
AI治理工具包

3周内做好审计准备

清单 + 模型卡 + DPIA + 结构化委员会 + 偏见指标流水线。3周内交付,与技术实施并行,包含DPO和委员会培训。


延伸阅读