Autenticare
Engenharia Agêntica · · 10 min

Gemini Embedding 2: RAG Multimodal Unificado

Primeiro embedding multimodal da família Gemini: texto, imagem, vídeo e áudio em um único espaço vetorial de 3072 dimensões. Veja o impacto.

Fabiano Brito

Fabiano Brito

CEO & Founder

Gemini Embedding 2: RAG Multimodal Unificado
TL;DR O gemini-embedding-2-preview mapeia texto, imagens, vídeos, áudio e PDFs em um único espaço vetorial de 3072 dimensões. Suporta Matryoshka (768/1536/3072), janela de 8.192 tokens, novos recordes em MTEB (84.0 código / 69.9 multilingual) e integração nativa com LangChain, LlamaIndex, Vertex AI Vector Search e os principais bancos vetoriais.

Por anos, montar um pipeline de busca semântica multimodal significou manter modelos separados por tipo de dado — um para texto, outro para imagem, outro para áudio — e tentar alinhar esses espaços vetoriais com camadas de fusão frágeis. Em 10 de março de 2026 o Google encerrou essa era com o lançamento do Gemini Embedding 2: o primeiro modelo de embedding nativamente multimodal da família Gemini, em Public Preview via Gemini API e Vertex AI.

Os números que justificam a migração

84.0
MTEB Code
novo recorde absoluto
69.9
MTEB Multilingual
100+ idiomas nativos
8.192
tokens de contexto
2× a maioria dos concorrentes

O problema que ele resolve

A realidade dos dados corporativos é multimodal. Suporte ao cliente envolve tickets de texto, gravações de chamadas, capturas de tela e manuais em PDF. Um sistema de análise de produtos lida com vídeos de demonstração, especificações escritas e imagens de catálogo. Indexar isso semanticamente exigia pipelines separados — e a qualidade caía na junção entre modalidades.

O Gemini Embedding 2 resolve na camada fundamental: ao treinar um único modelo para todas as modalidades, a distância vetorial entre “uma gravação de áudio de um cliente reclamando de lentidão” e “um artigo de base de conhecimento sobre otimização de performance” fica semanticamente coerente — sem nenhuma camada de tradução intermediária.

"The bridge between different media types has finally been built. Use this with complex document similarity tasks, and the results in semantic proximity should be a massive leap forward for RAG pipelines."

— Eric Dong, Engineer @ Google Cloud AI

O que está nas specs

O modelo gemini-embedding-2-preview é construído sobre a arquitetura Gemini e herda sua compreensão multimodal. Os limites por modalidade são claros:

ModalidadeLimite por requisiçãoFormatos suportados
Texto8.192 tokensQualquer texto UTF-8
ImagemAté 6 imagensPNG, JPEG
ÁudioAté 80 segundosMP3, WAV
VídeoAté 128 segundosMP4, MOV (H264, H265, AV1, VP9)
Documento (PDF)Até 6 páginasPDF (visual + textual)

Detalhe arquitetural relevante: o modelo aceita entrada interleaved — você combina múltiplas modalidades em uma única requisição (texto + imagem + áudio) e recebe um embedding agregado que captura a relação entre elas. Diferente de gerar embeddings separados e combinar por média.

Matryoshka: flexibilidade sem sacrifício

O Gemini Embedding 2 incorpora Matryoshka Representation Learning (MRL) — informação semântica aninhada hierarquicamente no vetor. Os primeiros 768 valores já contêm uma representação útil; os 1536 seguintes adicionam nuance; e os 3072 completos oferecem máxima fidelidade.

Você escolhe a dimensionalidade em tempo de inferência via parâmetro output_dimensionality:

Python
from google import genai
from google.genai import types

client = genai.Client()

Embedding com dimensão reduzida (economia de 75% de armazenamento)

result = client.models.embed_content( model=“gemini-embedding-2-preview”, contents=“Relatório de performance Q1 2026”, config=types.EmbedContentConfig(output_dimensionality=768) ) print(f”Dimensões: {len(result.embeddings[0].values)}”) # 768

Impacto em armazenamento para um corpus de 10 milhões de documentos:

DimensionalidadeArmazenamento (10M docs)Caso de uso recomendado
3072 (padrão)~117 GBRAG de alta precisão, busca jurídica/médica, deduplicação
1536~58 GBBusca semântica geral, classificação de conteúdo
768~29 GBRecomendação em tempo real, filtragem de baixa latência
Re-indexação obrigatória O Gemini Embedding 2 não é retrocompatível com vetores do gemini-embedding-001. Espaços vetoriais de modelos diferentes não são comparáveis — se migrar, planeje custo e tempo de re-indexação do corpus inteiro.

Multimodal RAG na prática

O impacto mais imediato está na simplificação do pipeline. O padrão anterior exigia múltiplos modelos, lógica de fusão customizada e espaços vetoriais separados por modalidade. O novo padrão é radicalmente mais limpo:

Python — RAG Multimodal com Gemini Embedding 2
from google import genai
from google.genai import types

client = genai.Client()

Indexar PDF diretamente (sem OCR manual)

with open(‘relatorio_financeiro.pdf’, ‘rb’) as f: pdf_bytes = f.read() pdf_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=pdf_bytes, mime_type=‘application/pdf’)] )

Indexar áudio de reunião (sem transcrição)

with open(‘reuniao_board.mp3’, ‘rb’) as f: audio_bytes = f.read() audio_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=audio_bytes, mime_type=‘audio/mpeg’)] )

Buscar com query de texto — compara com PDF e áudio no mesmo espaço

query_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=“Quais foram as metas de receita discutidas no Q4?” )

Todos os vetores estão no mesmo espaço — busca unificada

O ponto crítico: a query de texto é comparada diretamente com embeddings de PDF e áudio — sem nenhuma camada de tradução intermediária.

Casos de uso de alto valor

A combinação de multimodalidade nativa, janela de 8.192 tokens e suporte a 100+ idiomas (português incluso) abre casos antes inviáveis ou economicamente proibitivos:

SetorCaso de usoO que muda
JurídicoContratos + audiências gravadasPDFs e áudios no mesmo índice; busca por cláusula recupera ambos
SaúdeProntuário eletrônico multimodalLaudos PDF, exames de imagem e anotações de voz indexados juntos
VarejoBusca visual + textualCliente envia foto e recebe resultados por similaridade visual e descrição
EducaçãoRepositório de aulasVídeos, slides e transcrições no mesmo espaço; aluno busca por conceito
FinanceiroEarnings calls + relatóriosCorrelação entre conference calls e PDFs sem pipeline de transcrição

Onde você pode usar hoje

Disponível via Gemini API (desenvolvimento) e Vertex AI (produção com SLA, VPC Service Controls e Vector Search). Suporte documentado nas principais bibliotecas:

  • LangChain e LlamaIndex — integração nativa via classe de embedding do Google
  • Haystack — componente disponível no hub
  • Weaviate, Qdrant, ChromaDB — módulo de vetorização Google
  • Vertex AI Vector Search — integração gerenciada com escala automática

Para times no Google Cloud, a combinação Gemini Embedding 2 + Vertex AI Vector Search + Gemini 2.5 Pro forma um stack RAG completamente gerenciado, sem dependências externas.

Checklist de prontidão para adoção

1
Inventário de modalidades

Mapeie quais tipos de dados (texto, imagem, áudio, vídeo, PDF) estão no corpus e o volume por tipo.

2
Avaliação de re-indexação

Estime custo e tempo para re-indexar corpus existente se migrar do gemini-embedding-001.

3
Escolha de dimensionalidade

Defina se 768, 1536 ou 3072 atendem o trade-off qualidade/custo do seu caso.

4
Ambiente de deploy

Gemini API para desenvolvimento/preview; Vertex AI para produção com SLA.

5
Avaliação de retrieval

Crie um conjunto de avaliação (queries + documentos relevantes) para medir a melhoria real no seu domínio antes de migrar tudo.

Migração e arquitetura RAG

Avaliando Gemini Embedding 2 para sua arquitetura?

Trabalhamos com clientes em saúde, jurídico, educação e financeiro — setores onde dados multimodais são a norma. Conduzimos a análise de viabilidade, custo de re-indexação e arquitetura final.


Leia também