Multimodalidade corporativa com Gemini 2.5: vídeo, áudio, PDF e imagem em produção
Multimodal saiu da demo. Em projetos reais, Gemini 2.5 lê PDF rasurado, transcreve áudio com sotaque, descreve foto técnica e analisa vídeo. O que funciona e o que ainda exige cuidado.
Fabiano Brito
CEO & Founder
Há dois anos, "multimodal" significava "OCR + transcrição + classificador, juntos no Frankenstein". Hoje, com Gemini 2.5, é uma única chamada que lê tudo. Em projetos Autenticare, isso virou ganho de qualidade, custo e simplicidade.
Este post é o panorama prático: o que funciona, casos reais e onde ainda tropeça.
O que Gemini 2.5 processa nativamente
| Modalidade | Limite (2.5 Pro) | Qualidade em produção |
|---|---|---|
| Texto | 2M tokens (contexto) | Estado da arte |
| ~1.000 páginas/chamada | Excelente, inclusive escaneados | |
| Imagem | ~3.000 imagens/chamada | Excelente p/ descrição, leitura, comparação |
| Áudio | ~9 horas/chamada | Muito bom em PT-BR padrão |
| Vídeo | ~2 horas/chamada | Bom p/ análise; resolução temporal limitada |
PDF: o que muda
Antes
Pipeline: PDF → OCR (Vision API ou Tesseract) → texto sujo → regex/parser → estrutura. 30% de retrabalho em documento de qualidade ruim.
Agora
PDF direto para Gemini 2.5: "extraia: número do contrato, partes, valor, vigência, foro". Devolve JSON estruturado.
Onde brilha
- Contratos sociais (estrutura variada).
- Notas fiscais (modelos antigos).
- Laudos médicos rasurados.
- Boletins de ocorrência fotografados.
- Certidões e documentos cartoriais.
Onde ainda tropeça
- Tabelas complexas com células mescladas (revisar).
- Carimbos sobre texto crítico.
- Documentos com layout multi-coluna sem separação visual clara.
- PDF com formulário interativo (campos vazios podem confundir).
Padrão Autenticare: sempre validar JSON extraído contra schema com pydantic ou zod. Reprocessar com prompt mais detalhado quando schema falha.
Imagem: além de descrever
Casos reais
- Catálogo de produto (ver case marketplace): atributos extraídos de fotos.
- Inspeção de seguros: foto de avaria → estimativa de severidade + relatório.
- Compliance visual: foto de planograma de loja → conformidade com padrão.
- Saúde: foto de receita médica manuscrita → texto estruturado (com revisão obrigatória do farmacêutico).
- Engenharia: foto de placa de equipamento → código + modelo + datasheet via RAG.
Onde tropeça
- Imagens com baixíssima resolução.
- Identificação de pessoas específicas (intencional — bloqueio de safety).
- Texto manuscrito muito caligráfico (médico, escrita rápida).
- Imagens com elementos sobrepostos densamente.
Áudio: a virada de 2026
Casos reais
- Reunião comercial: gravação → ata + sentimento por momento + objeções identificadas.
- Atendimento (call center): áudio → resumo + categoria + score de satisfação + flag para revisão.
- Saúde: áudio do médico ditando evolução → texto estruturado pronto para prontuário.
- Vistoria: técnico narra inspeção em campo → relatório estruturado.
- Sinistro (ver case seguradora): áudio WhatsApp do segurado → fatos extraídos.
Onde tropeça
- Sotaques regionais fortes (nordestino fechado, gauchês interior) ainda erra termos específicos.
- Múltiplas vozes simultâneas (overlap real de fala).
- Ruído industrial pesado.
- Jargão técnico raro (medicina especializada, química).
Padrão Autenticare: diarização (separação de falantes) ainda funciona melhor com pré-processamento dedicado. Para uso corporativo geral, Gemini 2.5 sozinho cobre bem.
Vídeo: o que funciona
Casos reais
- Treinamento: vídeo de aula → resumo + capítulos + quiz.
- Marketing: vídeo do concorrente → análise de mensagem + diferenciais.
- Inspeção: vídeo de drone em obra → relatório de progresso e desvios.
- Demonstração de produto: vídeo de uso → manual textual gerado.
- Compliance: vídeo de evento → verificação de aderência a roteiro.
Limites práticos
- Resolução temporal: Gemini amostra frames — eventos rápidos (1-2 segundos) podem passar.
- Análise frame-a-frame de defeito microscópico: usar Vision AI dedicado.
- Vídeo com dublagem de áudio diferente do original: tratar separadamente.
Padrão de arquitetura multimodal
- Pipeline de ingest: receba arquivo → valide formato/tamanho → bucket no GCS.
- Pré-processamento condicional: PDF maior que limite? Quebra em chunks. Áudio mais que 9h? Divide.
- Chamada Gemini: prompt específico por tipo de documento.
- Validação de schema: JSON estrito ou zod.
- Fallback de qualidade: se confiança baixa, segunda chamada com modelo "verificador".
- Hand-off humano: quando schema falha 2x, vai para revisor.
- Storage: arquivo original + JSON extraído + metadata + audit log.
Custo: o trade-off real
Multimodal é mais caro que texto puro. Estratégias para controlar:
- Roteamento por modelo: classificação simples → Gemini Flash; análise profunda → Pro.
- Cache de contexto: documento longo consultado várias vezes, use context caching da API.
- Pré-resumo: antes de RAG, resumir uma vez e indexar resumo + original.
- Compressão de imagem: 1024px geralmente basta; alta resolução só quando necessário.
Em projetos Autenticare, custo de Vertex AI tipicamente representa 5-15% do total — o resto é licença + implantação.
Governança
- DLP em ingest multimodal: especialmente áudio e vídeo, onde dados pessoais aparecem inesperadamente.
- Retenção: arquivos originais com política definida (ex.: 30 dias, depois apenas o JSON estruturado).
- Consentimento: para áudio/vídeo de pessoas, base legal explícita.
- Avaliação: gold set multimodal segue mesmo padrão de avaliação de agentes em produção.
Multimodal nativo não é OCR "melhor". É arquitetura nova: pipeline de 4 componentes vira chamada única, e o prompt se torna a interface de extração.
Documentos não-textuais viraram gargalo? 1 dia para saber se resolve.
Diagnóstico Autenticare avalia se Gemini 2.5 multimodal resolve seu caso — incluindo POC com seus arquivos reais (PDF rasurado, áudio com sotaque, vídeo de inspeção). Sai com estimativa de qualidade, custo e arquitetura.
