Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

A Zyphra acaba de abrir o código do Zamba2-VL, uma família de modelos de visão-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. Disponível em três tamanhos — 1.2B, 2.7B e 7B parâmetros — sob licença Apache 2.0, o grande diferencial está na velocidade: o tempo até o primeiro token (TTFT) é reduzido em cerca de uma ordem de magnitude em contextos visuais longos.

Arquitetura Híbrida Mamba2-Transformer

Enquanto VLMs tradicionais usam atenção densa de Transformer — que escala quadraticamente com o comprimento da sequência — o Zamba2-VL adota uma abordagem mista:

Camadas Mamba2 (state-space): Carregam o grosso da computação de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
Blocos Transformer compartilhados: Preservam a capacidade de recuperação em contexto que modelos puramente SSM perdem. Cada bloco de atenção carrega um adaptador LoRA único por camada para adicionar expressividade.
Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resolução dinâmica.
Tokenizer: Mistral v0.1.

O modelo foi treinado com 100 bilhões de tokens de dados visão-texto e texto puro de datasets web abertos.

"A atenção de Transformer escala quadraticamente com o comprimento da sequência. Inputs multimodais tornam sequências muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenção, herdando prefill near-linear e estado recorrente de tamanho fixo."

Performance em Benchmarks

O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:

Benchmark	Zamba2-VL-2.7B	Qwen3-VL-2B	InternVL3.5-2B
DocVQA	90.9	93.3	89.4
CountBenchQA	87.5	87.9	70.0
PixMoCount	82.5	55.7	32.8
ChartQA	79.6	78.7	81.6
MathVista	51.0	51.8	61.4
MMMU	37.7	40.9	49.9

Destaques: Performance excepcional em contagem visual — no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B também impressiona com 62.5 no mesmo benchmark. Em compreensão de documentos (DocVQA), fica competitivo com 90.9.

Limitações: Desempenho mais fraco em raciocínio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos líderes da categoria.

Vantagem de Velocidade

O principal argumento de venda é a velocidade de inferência. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuação do Zamba2-VL com latência similar. A diferença é mais dramática nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.

Uma imagem de alta resolução (~3.400 tokens) já mostra paridade computacional no prefill, mas com sequências mais longas (ex: PDFs de múltiplas páginas, clipes de vídeo curtos), o design híbrido se torna dramaticamente mais barato — escalando O(n) contra O(n²) dos Transformers puros.

Casos de Uso

Extração de documentos e formulários: Faturas, recibos — forte performance em DocVQA.
Inventário e contagem visual: Destaque em PixMoCount e CountBenchQA para cenários de varejo.
Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
Inputs visuais longos: PDFs de múltiplas páginas e vídeos curtos se beneficiam do prefill linear.

Com este lançamento, a Zyphra demonstra que arquiteturas híbridas state-space/Transformer são uma alternativa viável e eficiente para VLMs, especialmente quando latência e deployment em dispositivos são prioridades.