Multimodalidad corporativa con Gemini 2.5: video, audio, PDF e imagen en producción
Multimodal salió de la demo. En proyectos reales, Gemini 2.5 lee PDFs manchados, transcribe audio con acento, describe fotos técnicas y analiza video. Lo que funciona y lo que aún requiere cuidado.
Fabiano Brito
CEO & Founder
Hace dos años, "multimodal" significaba "OCR + transcripción + clasificador, frankensteinado". Hoy, con Gemini 2.5, es una llamada única que lee todo. En proyectos Autenticare, eso se tradujo en ganancias de calidad, costo y simplicidad.
Este post es el panorama práctico: qué funciona, casos reales y dónde aún tropieza.
Lo que Gemini 2.5 procesa nativamente
| Modalidad | Límite (2.5 Pro) | Calidad en producción |
|---|---|---|
| Texto | 2M tokens (contexto) | State of the art |
| ~1.000 páginas/llamada | Excelente, incluso escaneados | |
| Imagen | ~3.000 imágenes/llamada | Excelente para descripción, lectura, comparación |
| Audio | ~9 horas/llamada | Muy bueno en PT-BR/ES estándar |
| Video | ~2 horas/llamada | Bueno para análisis; resolución temporal limitada |
PDF: lo que cambia
Antes
Pipeline: PDF → OCR (Vision API o Tesseract) → texto sucio → regex/parser → estructura. 30% de retrabajo en documentos de baja calidad.
Ahora
PDF directo a Gemini 2.5: "extraiga: número de contrato, partes, valor, plazo, jurisdicción". Devuelve JSON estructurado.
Donde brilla
- Estatutos sociales (estructura variada).
- Facturas en formatos antiguos.
- Informes médicos manchados.
- Denuncias policiales fotografiadas.
- Certificados notariales y documentos oficiales.
Donde aún tropieza
- Tablas complejas con celdas combinadas (revisar salida).
- Sellos sobre texto crítico.
- Layout multi-columna sin separación visual clara.
- PDFs de formulario interactivo (campos vacíos pueden confundir).
Patrón Autenticare: siempre validar el JSON extraído contra un schema con pydantic o zod. Reprocesar con prompt más detallado cuando el schema falla.
Imagen: más allá de describir
Casos reales
- Catálogo de producto (vea case marketplace): atributos extraídos de fotos.
- Inspección de seguros: foto de daño → estimación de severidad + reporte.
- Compliance visual: foto de planograma de tienda → cumplimiento con el estándar.
- Salud: foto de receta médica manuscrita → texto estructurado (con revisión obligatoria del farmacéutico).
- Ingeniería: foto de placa de equipo → código + modelo + datasheet vía RAG.
Donde tropieza
- Imágenes de muy baja resolución.
- Identificar personas específicas (intencional — bloqueo de seguridad).
- Letra muy caligráfica (médico, escritura rápida).
- Imágenes con elementos superpuestos densamente.
Audio: el punto de inflexión de 2026
Casos reales
- Reunión comercial: grabación → acta + sentimiento por momento + objeciones identificadas.
- Call center: audio → resumen + categoría + score de satisfacción + flag de revisión.
- Salud: médico dictando evolución → texto estructurado listo para historia clínica.
- Inspección en campo: técnico narra inspección → reporte estructurado.
- Siniestros (vea case aseguradora): audio WhatsApp del asegurado → hechos extraídos.
Donde tropieza
- Acentos regionales fuertes aún pierden términos específicos.
- Múltiples voces simultáneas (overlap real de habla).
- Ruido industrial pesado.
- Jerga técnica rara (medicina especializada, química).
Patrón Autenticare: la diarización (separación de hablantes) aún funciona mejor con pre-procesamiento dedicado. Para uso corporativo general, Gemini 2.5 solo cubre bien.
Video: lo que funciona
Casos reales
- Capacitación: video de clase → resumen + capítulos + quiz.
- Marketing: video del competidor → análisis de mensaje + diferenciales.
- Inspección: video de drone en obra → reporte de avance y desvíos.
- Demo de producto: video de uso → manual de texto generado.
- Compliance: video de evento → verificación de adherencia al guión.
Límites prácticos
- Resolución temporal: Gemini muestrea frames — eventos rápidos (1-2 segundos) pueden escaparse.
- Análisis frame a frame de defecto microscópico: use Vision AI dedicado.
- Video con doblaje de audio diferente al original: tratar por separado.
Patrón de arquitectura multimodal
- Pipeline de ingesta: recibir archivo → validar formato/tamaño → bucket en GCS.
- Pre-procesamiento condicional: ¿PDF sobre límite? Chunk. ¿Audio más de 9h? Dividir.
- Llamada a Gemini: prompt específico al tipo de documento.
- Validación de schema: JSON estricto o zod.
- Fallback de calidad: baja confianza → segunda llamada con modelo "verificador".
- Hand-off humano: cuando el schema falla 2 veces, va al revisor.
- Almacenamiento: archivo original + JSON extraído + metadata + audit log.
Costo: el trade-off real
Multimodal es más caro que texto puro. Estrategias para controlar el costo:
- Routing de modelo: clasificación simple → Gemini Flash; análisis profundo → Pro.
- Cache de contexto: documento largo consultado varias veces, use context caching de la API.
- Pre-resumen: antes de RAG, resumir una vez e indexar resumen + original.
- Compresión de imagen: 1024px generalmente alcanza; alta resolución solo cuando sea necesario.
En proyectos Autenticare, el costo de Vertex AI representa típicamente el 5-15% del total — el resto es licencia + implementación.
Gobernanza
- DLP en ingesta multimodal: especialmente audio y video, donde los datos personales aparecen inesperadamente.
- Retención: archivos originales con política definida (ej. 30 días, después solo el JSON estructurado).
- Consentimiento: para audio/video de personas, base legal explícita.
- Evaluación: gold set multimodal sigue el mismo patrón que evaluación de agentes en producción.
Multimodal nativo no es OCR "mejor". Es una arquitectura nueva: un pipeline de 4 componentes se convierte en una llamada única, y el prompt se vuelve la interfaz de extracción.
¿Los documentos no textuales se convirtieron en un cuello de botella? 1 día para saber si tiene solución.
El diagnóstico Autenticare evalúa si Gemini 2.5 multimodal resuelve su caso — incluyendo POC con sus archivos reales (PDF manchado, audio con acento, video de inspección). Entregamos estimación de calidad, costo y arquitectura.
