Autenticare
Herramientas Google · · 8 min

Multimodalidad corporativa con Gemini 2.5: video, audio, PDF e imagen en producción

Multimodal salió de la demo. En proyectos reales, Gemini 2.5 lee PDFs manchados, transcribe audio con acento, describe fotos técnicas y analiza video. Lo que funciona y lo que aún requiere cuidado.

Fabiano Brito

Fabiano Brito

CEO & Founder

Multimodalidad corporativa con Gemini 2.5: video, audio, PDF e imagen en producción
TL;DR Gemini 2.5 Pro procesa nativamente PDF, imagen, audio y video en una sola llamada — reemplazando la stack "OCR + transcripción + clasificador" que dominó los últimos 5 años. Pero aún existen límites prácticos (tamaño, acento, contenido encriptado) que necesitan ser arquitecturados, no ignorados.

Hace dos años, "multimodal" significaba "OCR + transcripción + clasificador, frankensteinado". Hoy, con Gemini 2.5, es una llamada única que lee todo. En proyectos Autenticare, eso se tradujo en ganancias de calidad, costo y simplicidad.

Este post es el panorama práctico: qué funciona, casos reales y dónde aún tropieza.


Lo que Gemini 2.5 procesa nativamente

ModalidadLímite (2.5 Pro)Calidad en producción
Texto2M tokens (contexto)State of the art
PDF~1.000 páginas/llamadaExcelente, incluso escaneados
Imagen~3.000 imágenes/llamadaExcelente para descripción, lectura, comparación
Audio~9 horas/llamadaMuy bueno en PT-BR/ES estándar
Video~2 horas/llamadaBueno para análisis; resolución temporal limitada

PDF: lo que cambia

Antes

Pipeline: PDF → OCR (Vision API o Tesseract) → texto sucio → regex/parser → estructura. 30% de retrabajo en documentos de baja calidad.

Ahora

PDF directo a Gemini 2.5: "extraiga: número de contrato, partes, valor, plazo, jurisdicción". Devuelve JSON estructurado.

Donde brilla

  • Estatutos sociales (estructura variada).
  • Facturas en formatos antiguos.
  • Informes médicos manchados.
  • Denuncias policiales fotografiadas.
  • Certificados notariales y documentos oficiales.

Donde aún tropieza

  • Tablas complejas con celdas combinadas (revisar salida).
  • Sellos sobre texto crítico.
  • Layout multi-columna sin separación visual clara.
  • PDFs de formulario interactivo (campos vacíos pueden confundir).

Patrón Autenticare: siempre validar el JSON extraído contra un schema con pydantic o zod. Reprocesar con prompt más detallado cuando el schema falla.


Imagen: más allá de describir

Casos reales

  • Catálogo de producto (vea case marketplace): atributos extraídos de fotos.
  • Inspección de seguros: foto de daño → estimación de severidad + reporte.
  • Compliance visual: foto de planograma de tienda → cumplimiento con el estándar.
  • Salud: foto de receta médica manuscrita → texto estructurado (con revisión obligatoria del farmacéutico).
  • Ingeniería: foto de placa de equipo → código + modelo + datasheet vía RAG.

Donde tropieza

  • Imágenes de muy baja resolución.
  • Identificar personas específicas (intencional — bloqueo de seguridad).
  • Letra muy caligráfica (médico, escritura rápida).
  • Imágenes con elementos superpuestos densamente.

Audio: el punto de inflexión de 2026

Casos reales

  • Reunión comercial: grabación → acta + sentimiento por momento + objeciones identificadas.
  • Call center: audio → resumen + categoría + score de satisfacción + flag de revisión.
  • Salud: médico dictando evolución → texto estructurado listo para historia clínica.
  • Inspección en campo: técnico narra inspección → reporte estructurado.
  • Siniestros (vea case aseguradora): audio WhatsApp del asegurado → hechos extraídos.

Donde tropieza

  • Acentos regionales fuertes aún pierden términos específicos.
  • Múltiples voces simultáneas (overlap real de habla).
  • Ruido industrial pesado.
  • Jerga técnica rara (medicina especializada, química).

Patrón Autenticare: la diarización (separación de hablantes) aún funciona mejor con pre-procesamiento dedicado. Para uso corporativo general, Gemini 2.5 solo cubre bien.


Video: lo que funciona

Casos reales

  • Capacitación: video de clase → resumen + capítulos + quiz.
  • Marketing: video del competidor → análisis de mensaje + diferenciales.
  • Inspección: video de drone en obra → reporte de avance y desvíos.
  • Demo de producto: video de uso → manual de texto generado.
  • Compliance: video de evento → verificación de adherencia al guión.

Límites prácticos

  • Resolución temporal: Gemini muestrea frames — eventos rápidos (1-2 segundos) pueden escaparse.
  • Análisis frame a frame de defecto microscópico: use Vision AI dedicado.
  • Video con doblaje de audio diferente al original: tratar por separado.

Patrón de arquitectura multimodal

  1. Pipeline de ingesta: recibir archivo → validar formato/tamaño → bucket en GCS.
  2. Pre-procesamiento condicional: ¿PDF sobre límite? Chunk. ¿Audio más de 9h? Dividir.
  3. Llamada a Gemini: prompt específico al tipo de documento.
  4. Validación de schema: JSON estricto o zod.
  5. Fallback de calidad: baja confianza → segunda llamada con modelo "verificador".
  6. Hand-off humano: cuando el schema falla 2 veces, va al revisor.
  7. Almacenamiento: archivo original + JSON extraído + metadata + audit log.

Costo: el trade-off real

Multimodal es más caro que texto puro. Estrategias para controlar el costo:

  • Routing de modelo: clasificación simple → Gemini Flash; análisis profundo → Pro.
  • Cache de contexto: documento largo consultado varias veces, use context caching de la API.
  • Pre-resumen: antes de RAG, resumir una vez e indexar resumen + original.
  • Compresión de imagen: 1024px generalmente alcanza; alta resolución solo cuando sea necesario.

En proyectos Autenticare, el costo de Vertex AI representa típicamente el 5-15% del total — el resto es licencia + implementación.


Gobernanza

  • DLP en ingesta multimodal: especialmente audio y video, donde los datos personales aparecen inesperadamente.
  • Retención: archivos originales con política definida (ej. 30 días, después solo el JSON estructurado).
  • Consentimiento: para audio/video de personas, base legal explícita.
  • Evaluación: gold set multimodal sigue el mismo patrón que evaluación de agentes en producción.

Multimodal nativo no es OCR "mejor". Es una arquitectura nueva: un pipeline de 4 componentes se convierte en una llamada única, y el prompt se vuelve la interfaz de extracción.
POC multimodal

¿Los documentos no textuales se convirtieron en un cuello de botella? 1 día para saber si tiene solución.

El diagnóstico Autenticare evalúa si Gemini 2.5 multimodal resuelve su caso — incluyendo POC con sus archivos reales (PDF manchado, audio con acento, video de inspección). Entregamos estimación de calidad, costo y arquitectura.


Lea también