Gobernanza de modelos de IA: model cards, versionado y lo que la ANPD puede pedir

TL;DR En 2026, la ANPD y los auditores sectoriales (BACEN, SUSEP, ANS) comienzan a exigir documentación formal sobre modelos de IA usados en decisión automatizada. Model card, versionado, baseline de evaluación y plan de revisión dejan de ser "buenas prácticas" para convertirse en requisitos. Receta práctica para proyectos Gemini Enterprise.

Las empresas que usan Gemini, GPT, Claude o Llama en producción corporativa tienen una "flota de modelos" — cada uno con su propia versión, comportamiento, sesgo y costo. Sin gobernanza, nadie sabe qué versión corre dónde, y la auditoría se convierte en pesadilla.

Qué es model card (y por qué importa)

Model card es la "ficha técnica" del modelo. Inventado por Google en 2019, se convirtió en el estándar de facto. Para cada modelo en producción, documente:

Identificación: nombre, versión exacta, proveedor, snapshot date.
Uso pretendido: caso de uso, perfil de usuario, decisión soportada.
Uso fuera de alcance: lo que no es caso aceptado.
Datos de entrenamiento: lo que se sabe sobre origen (en modelo propietario, lo que el proveedor publica).
Métricas de evaluación: gold set interno, benchmarks, baseline.
Limitaciones conocidas: idiomas, dominios, sesgos identificados.
Mitigación: prompt, guardrails, hand-off humano.
Owner técnico: quién mantiene.
Owner de negocio: quién responde por las decisiones.
Fecha de revisión: ciclo de reevaluación.

En Gemini Enterprise, model card es por agente + por modelo subyacente — puede ser archivo Markdown en el repositorio del proyecto.

Versionado explícito

El pin de versión es obligatorio. "Gemini Pro" no es versión — es familia. "Gemini 2.5 Pro snapshot 2026-04" sí es versión.

Prácticas:

Llamada API siempre con versión explícita del modelo.
Cambio de versión = PR + reevaluación contra gold set.
Rollback documentado.
Notificación al owner de negocio antes de promover nueva versión.

Sin esto, Google actualiza el snapshot, el comportamiento cambia, la métrica regresa — y nadie entiende por qué.

Baseline y drift

Toda nueva versión se compara con el baseline (versión actual en producción). Métricas:

Faithfulness, relevance, completeness, safety (ver evaluación de agentes en producción).
Latencia p50/p95.
Costo por ejecución.
Tasa de hand-off humano.
Distribución de tools llamadas.

Regresión de cualquier métrica en más de 5% = bloqueo a producción hasta investigar.

Lo que ANPD y auditores están pidiendo (2026)

Patrón emergente en fiscalizaciones sectoriales (BACEN, SUSEP, ANS y otros publicaron orientaciones convergentes):

Inventario de sistemas de IA usados en decisión automatizada — lista viva con owner, estado, criticidad.

Model card por sistema — ficha técnica con versión, limitaciones, mitigaciones.

RIPD con matriz de riesgos LLM-específicos (ver RIPD para proyectos Gemini Enterprise).

Evaluación de sesgo trimestral por segmento sensible (género, raza, región, edad).

Audit log capaz de reconstruir decisión individual — entrada, contexto, respuesta, tools llamadas.

Derecho a revisión humana operante — canal con SLA, no solo cláusula en contrato.

Plan de descomisionado: cómo apagar el modelo sin ruptura operacional.

Evaluación de sesgo: cómo hacer sin teatro

El sesgo en LLM es real y medible. Cómo auditar:

Definir segmentos sensibles relevantes al caso (ej.: en crédito: región, edad, género declarado).
Construir muestra balanceada de casos por segmento.
Correr el agente sobre la muestra, comparar outcome y tono entre segmentos.
Métrica: statistical parity difference, equal opportunity difference.
Reportar trimestralmente a directorio + comité de riesgo.
Acción correctiva cuando la diferencia excede el threshold (típico: 10%).

El caso de la decisión automatizada (Art. 20 LGPD)

Si el agente toma decisiones con efectos jurídicos o relevantes (crédito negado, contrato rechazado, atención negada), el titular tiene derecho a:

Saber que la decisión fue automatizada.
Tener explicación de los criterios.
Solicitar revisión por persona natural.

Operacionalmente:

UX deja claro: "este análisis inicial es automatizado".
Justificación entregada con la decisión (no solo "negado").
Canal explícito de revisión con SLA definido.
Capacitación de los revisores humanos.

Comité interno de IA

En organizaciones medianas/grandes, se recomienda comité con:

DPO.
Jurídico (compliance regulatorio del sector).
Owner técnico de cada agente.
Representante de RR. HH. (impacto laboral).
Representante de negocio.
Reuniones mensuales para revisar inventario, métricas de sesgo, incidentes.

Sin foro, la decisión sobre IA queda suelta entre TI y negocio — cuando explota, nadie es responsable.

Plan de descomisionado

El más ignorado de todos, pero esencial:

¿Cómo apagar el agente sin ruptura operacional?
¿En cuánto tiempo escala la operación manual?
¿Quién decide el apagado?
¿Cuánto tiempo de retención de logs tras el apagado?

Documento de 2 páginas. Cuesta nada. Salva en incidente.

Stack mínimo para gobernanza

Inventario: planilla viva o Notion/Confluence con cada agente, modelo, owner, estado.
Model cards: archivo MD por agente en el repositorio.
Versionado: pin de versión en código, PR para cambio.
Evaluación continua: pipeline gold set + dashboard de métricas.
Audit log: BigQuery/Cloud Logging con retención compatible.
RIPD actualizado anualmente o en cambio material.
Comité con acta pública.

⚠️ Buenas prácticas Si el agente toma decisiones con efectos jurídicos o relevantes (crédito, contrato, atención negada), el titular tiene derecho explícito a revisión por persona natural, explicación de criterios y conocimiento de que la decisión fue automatizada. "Negado" sin justificación no pasa. Capacite a los revisores humanos — necesitan entender el agente para poder cuestionarlo.

La gobernanza de modelos no es teatro jurídico. Es lo que separa "teníamos control" de "lo descubrimos junto con el titular reclamante" cuando algo sale mal.

Kit Gobernanza IA

3 semanas para estar listo para auditoría

Inventario + model cards + RIPD + comité estructurado + pipeline de métricas de sesgo. Entrega en 3 semanas, en paralelo con la implementación técnica, con capacitación del DPO y del comité.

Solicitar kit → RIPD Gemini Enterprise