Autenticare
Ferramentas Google · · 8 min

Multimodalidade corporativa com Gemini 2.5: vídeo, áudio, PDF e imagem em produção

Multimodal saiu da demo. Em projetos reais, Gemini 2.5 lê PDF rasurado, transcreve áudio com sotaque, descreve foto técnica e analisa vídeo. O que funciona e o que ainda exige cuidado.

Fabiano Brito

Fabiano Brito

CEO & Founder

Multimodalidade corporativa com Gemini 2.5: vídeo, áudio, PDF e imagem em produção
TL;DR Gemini 2.5 Pro processa nativamente PDF, imagem, áudio e vídeo em uma única chamada — substitui a stack "OCR + transcrição + classificador" que dominou os últimos 5 anos. Mas ainda há limites práticos (tamanho, sotaque, conteúdo cifrado) que precisam ser arquitetados, não ignorados.

Há dois anos, "multimodal" significava "OCR + transcrição + classificador, juntos no Frankenstein". Hoje, com Gemini 2.5, é uma única chamada que lê tudo. Em projetos Autenticare, isso virou ganho de qualidade, custo e simplicidade.

Este post é o panorama prático: o que funciona, casos reais e onde ainda tropeça.


O que Gemini 2.5 processa nativamente

ModalidadeLimite (2.5 Pro)Qualidade em produção
Texto2M tokens (contexto)Estado da arte
PDF~1.000 páginas/chamadaExcelente, inclusive escaneados
Imagem~3.000 imagens/chamadaExcelente p/ descrição, leitura, comparação
Áudio~9 horas/chamadaMuito bom em PT-BR padrão
Vídeo~2 horas/chamadaBom p/ análise; resolução temporal limitada

PDF: o que muda

Antes

Pipeline: PDF → OCR (Vision API ou Tesseract) → texto sujo → regex/parser → estrutura. 30% de retrabalho em documento de qualidade ruim.

Agora

PDF direto para Gemini 2.5: "extraia: número do contrato, partes, valor, vigência, foro". Devolve JSON estruturado.

Onde brilha

  • Contratos sociais (estrutura variada).
  • Notas fiscais (modelos antigos).
  • Laudos médicos rasurados.
  • Boletins de ocorrência fotografados.
  • Certidões e documentos cartoriais.

Onde ainda tropeça

  • Tabelas complexas com células mescladas (revisar).
  • Carimbos sobre texto crítico.
  • Documentos com layout multi-coluna sem separação visual clara.
  • PDF com formulário interativo (campos vazios podem confundir).

Padrão Autenticare: sempre validar JSON extraído contra schema com pydantic ou zod. Reprocessar com prompt mais detalhado quando schema falha.


Imagem: além de descrever

Casos reais

  • Catálogo de produto (ver case marketplace): atributos extraídos de fotos.
  • Inspeção de seguros: foto de avaria → estimativa de severidade + relatório.
  • Compliance visual: foto de planograma de loja → conformidade com padrão.
  • Saúde: foto de receita médica manuscrita → texto estruturado (com revisão obrigatória do farmacêutico).
  • Engenharia: foto de placa de equipamento → código + modelo + datasheet via RAG.

Onde tropeça

  • Imagens com baixíssima resolução.
  • Identificação de pessoas específicas (intencional — bloqueio de safety).
  • Texto manuscrito muito caligráfico (médico, escrita rápida).
  • Imagens com elementos sobrepostos densamente.

Áudio: a virada de 2026

Casos reais

  • Reunião comercial: gravação → ata + sentimento por momento + objeções identificadas.
  • Atendimento (call center): áudio → resumo + categoria + score de satisfação + flag para revisão.
  • Saúde: áudio do médico ditando evolução → texto estruturado pronto para prontuário.
  • Vistoria: técnico narra inspeção em campo → relatório estruturado.
  • Sinistro (ver case seguradora): áudio WhatsApp do segurado → fatos extraídos.

Onde tropeça

  • Sotaques regionais fortes (nordestino fechado, gauchês interior) ainda erra termos específicos.
  • Múltiplas vozes simultâneas (overlap real de fala).
  • Ruído industrial pesado.
  • Jargão técnico raro (medicina especializada, química).

Padrão Autenticare: diarização (separação de falantes) ainda funciona melhor com pré-processamento dedicado. Para uso corporativo geral, Gemini 2.5 sozinho cobre bem.


Vídeo: o que funciona

Casos reais

  • Treinamento: vídeo de aula → resumo + capítulos + quiz.
  • Marketing: vídeo do concorrente → análise de mensagem + diferenciais.
  • Inspeção: vídeo de drone em obra → relatório de progresso e desvios.
  • Demonstração de produto: vídeo de uso → manual textual gerado.
  • Compliance: vídeo de evento → verificação de aderência a roteiro.

Limites práticos

  • Resolução temporal: Gemini amostra frames — eventos rápidos (1-2 segundos) podem passar.
  • Análise frame-a-frame de defeito microscópico: usar Vision AI dedicado.
  • Vídeo com dublagem de áudio diferente do original: tratar separadamente.

Padrão de arquitetura multimodal

  1. Pipeline de ingest: receba arquivo → valide formato/tamanho → bucket no GCS.
  2. Pré-processamento condicional: PDF maior que limite? Quebra em chunks. Áudio mais que 9h? Divide.
  3. Chamada Gemini: prompt específico por tipo de documento.
  4. Validação de schema: JSON estrito ou zod.
  5. Fallback de qualidade: se confiança baixa, segunda chamada com modelo "verificador".
  6. Hand-off humano: quando schema falha 2x, vai para revisor.
  7. Storage: arquivo original + JSON extraído + metadata + audit log.

Custo: o trade-off real

Multimodal é mais caro que texto puro. Estratégias para controlar:

  • Roteamento por modelo: classificação simples → Gemini Flash; análise profunda → Pro.
  • Cache de contexto: documento longo consultado várias vezes, use context caching da API.
  • Pré-resumo: antes de RAG, resumir uma vez e indexar resumo + original.
  • Compressão de imagem: 1024px geralmente basta; alta resolução só quando necessário.

Em projetos Autenticare, custo de Vertex AI tipicamente representa 5-15% do total — o resto é licença + implantação.


Governança

  • DLP em ingest multimodal: especialmente áudio e vídeo, onde dados pessoais aparecem inesperadamente.
  • Retenção: arquivos originais com política definida (ex.: 30 dias, depois apenas o JSON estruturado).
  • Consentimento: para áudio/vídeo de pessoas, base legal explícita.
  • Avaliação: gold set multimodal segue mesmo padrão de avaliação de agentes em produção.

Multimodal nativo não é OCR "melhor". É arquitetura nova: pipeline de 4 componentes vira chamada única, e o prompt se torna a interface de extração.
POC multimodal

Documentos não-textuais viraram gargalo? 1 dia para saber se resolve.

Diagnóstico Autenticare avalia se Gemini 2.5 multimodal resolve seu caso — incluindo POC com seus arquivos reais (PDF rasurado, áudio com sotaque, vídeo de inspeção). Sai com estimativa de qualidade, custo e arquitetura.


Leia também