Gobernanza de modelos de IA: model cards, versionado y lo que la ANPD puede pedir
Los modelos cambian silenciosamente. Sin versionado, model card y baseline, su equipo no detecta drift y no tiene qué mostrar a auditoría. Marco práctico para gobernanza de modelos en Gemini Enterprise.
Fabiano Brito
CEO & Founder
Las empresas que usan Gemini, GPT, Claude o Llama en producción corporativa tienen una "flota de modelos" — cada uno con su propia versión, comportamiento, sesgo y costo. Sin gobernanza, nadie sabe qué versión corre dónde, y la auditoría se convierte en pesadilla.
Qué es model card (y por qué importa)
Model card es la "ficha técnica" del modelo. Inventado por Google en 2019, se convirtió en el estándar de facto. Para cada modelo en producción, documente:
- Identificación: nombre, versión exacta, proveedor, snapshot date.
- Uso pretendido: caso de uso, perfil de usuario, decisión soportada.
- Uso fuera de alcance: lo que no es caso aceptado.
- Datos de entrenamiento: lo que se sabe sobre origen (en modelo propietario, lo que el proveedor publica).
- Métricas de evaluación: gold set interno, benchmarks, baseline.
- Limitaciones conocidas: idiomas, dominios, sesgos identificados.
- Mitigación: prompt, guardrails, hand-off humano.
- Owner técnico: quién mantiene.
- Owner de negocio: quién responde por las decisiones.
- Fecha de revisión: ciclo de reevaluación.
En Gemini Enterprise, model card es por agente + por modelo subyacente — puede ser archivo Markdown en el repositorio del proyecto.
Versionado explícito
El pin de versión es obligatorio. "Gemini Pro" no es versión — es familia. "Gemini 2.5 Pro snapshot 2026-04" sí es versión.
Prácticas:
- Llamada API siempre con versión explícita del modelo.
- Cambio de versión = PR + reevaluación contra gold set.
- Rollback documentado.
- Notificación al owner de negocio antes de promover nueva versión.
Sin esto, Google actualiza el snapshot, el comportamiento cambia, la métrica regresa — y nadie entiende por qué.
Baseline y drift
Toda nueva versión se compara con el baseline (versión actual en producción). Métricas:
- Faithfulness, relevance, completeness, safety (ver evaluación de agentes en producción).
- Latencia p50/p95.
- Costo por ejecución.
- Tasa de hand-off humano.
- Distribución de tools llamadas.
Regresión de cualquier métrica en más de 5% = bloqueo a producción hasta investigar.
Lo que ANPD y auditores están pidiendo (2026)
Patrón emergente en fiscalizaciones sectoriales (BACEN, SUSEP, ANS y otros publicaron orientaciones convergentes):
Evaluación de sesgo: cómo hacer sin teatro
El sesgo en LLM es real y medible. Cómo auditar:
- Definir segmentos sensibles relevantes al caso (ej.: en crédito: región, edad, género declarado).
- Construir muestra balanceada de casos por segmento.
- Correr el agente sobre la muestra, comparar outcome y tono entre segmentos.
- Métrica: statistical parity difference, equal opportunity difference.
- Reportar trimestralmente a directorio + comité de riesgo.
- Acción correctiva cuando la diferencia excede el threshold (típico: 10%).
El caso de la decisión automatizada (Art. 20 LGPD)
Si el agente toma decisiones con efectos jurídicos o relevantes (crédito negado, contrato rechazado, atención negada), el titular tiene derecho a:
- Saber que la decisión fue automatizada.
- Tener explicación de los criterios.
- Solicitar revisión por persona natural.
Operacionalmente:
- UX deja claro: "este análisis inicial es automatizado".
- Justificación entregada con la decisión (no solo "negado").
- Canal explícito de revisión con SLA definido.
- Capacitación de los revisores humanos.
Comité interno de IA
En organizaciones medianas/grandes, se recomienda comité con:
- DPO.
- Jurídico (compliance regulatorio del sector).
- Owner técnico de cada agente.
- Representante de RR. HH. (impacto laboral).
- Representante de negocio.
- Reuniones mensuales para revisar inventario, métricas de sesgo, incidentes.
Sin foro, la decisión sobre IA queda suelta entre TI y negocio — cuando explota, nadie es responsable.
Plan de descomisionado
El más ignorado de todos, pero esencial:
- ¿Cómo apagar el agente sin ruptura operacional?
- ¿En cuánto tiempo escala la operación manual?
- ¿Quién decide el apagado?
- ¿Cuánto tiempo de retención de logs tras el apagado?
Documento de 2 páginas. Cuesta nada. Salva en incidente.
Stack mínimo para gobernanza
- Inventario: planilla viva o Notion/Confluence con cada agente, modelo, owner, estado.
- Model cards: archivo MD por agente en el repositorio.
- Versionado: pin de versión en código, PR para cambio.
- Evaluación continua: pipeline gold set + dashboard de métricas.
- Audit log: BigQuery/Cloud Logging con retención compatible.
- RIPD actualizado anualmente o en cambio material.
- Comité con acta pública.
La gobernanza de modelos no es teatro jurídico. Es lo que separa "teníamos control" de "lo descubrimos junto con el titular reclamante" cuando algo sale mal.
3 semanas para estar listo para auditoría
Inventario + model cards + RIPD + comité estructurado + pipeline de métricas de sesgo. Entrega en 3 semanas, en paralelo con la implementación técnica, con capacitación del DPO y del comité.
