Voltar para o blog
Notícias de Tecnologia

Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

12 de junho de 2026
07:50
open-sourcezyphrazambavisao-computacionalmamba
Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

A Zyphra acaba de abrir o código do Zamba2-VL, uma família de modelos de visão-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. Disponível em três tamanhos — 1.2B, 2.7B e 7B parâmetros — sob licença Apache 2.0, o grande diferencial está na velocidade: o tempo até o primeiro token (TTFT) é reduzido em cerca de uma ordem de magnitude em contextos visuais longos.

Arquitetura Híbrida Mamba2-Transformer

Enquanto VLMs tradicionais usam atenção densa de Transformer — que escala quadraticamente com o comprimento da sequência — o Zamba2-VL adota uma abordagem mista:

  • Camadas Mamba2 (state-space): Carregam o grosso da computação de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
  • Blocos Transformer compartilhados: Preservam a capacidade de recuperação em contexto que modelos puramente SSM perdem. Cada bloco de atenção carrega um adaptador LoRA único por camada para adicionar expressividade.
  • Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resolução dinâmica.
  • Tokenizer: Mistral v0.1.

O modelo foi treinado com 100 bilhões de tokens de dados visão-texto e texto puro de datasets web abertos.

"A atenção de Transformer escala quadraticamente com o comprimento da sequência. Inputs multimodais tornam sequências muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenção, herdando prefill near-linear e estado recorrente de tamanho fixo."

Performance em Benchmarks

O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:

Benchmark Zamba2-VL-2.7B Qwen3-VL-2B InternVL3.5-2B
DocVQA 90.9 93.3 89.4
CountBenchQA 87.5 87.9 70.0
PixMoCount 82.5 55.7 32.8
ChartQA 79.6 78.7 81.6
MathVista 51.0 51.8 61.4
MMMU 37.7 40.9 49.9

Destaques: Performance excepcional em contagem visual — no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B também impressiona com 62.5 no mesmo benchmark. Em compreensão de documentos (DocVQA), fica competitivo com 90.9.

Limitações: Desempenho mais fraco em raciocínio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos líderes da categoria.

Vantagem de Velocidade

O principal argumento de venda é a velocidade de inferência. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuação do Zamba2-VL com latência similar. A diferença é mais dramática nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.

Uma imagem de alta resolução (~3.400 tokens) já mostra paridade computacional no prefill, mas com sequências mais longas (ex: PDFs de múltiplas páginas, clipes de vídeo curtos), o design híbrido se torna dramaticamente mais barato — escalando O(n) contra O(n²) dos Transformers puros.

Casos de Uso

  • Extração de documentos e formulários: Faturas, recibos — forte performance em DocVQA.
  • Inventário e contagem visual: Destaque em PixMoCount e CountBenchQA para cenários de varejo.
  • Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
  • Inputs visuais longos: PDFs de múltiplas páginas e vídeos curtos se beneficiam do prefill linear.

Com este lançamento, a Zyphra demonstra que arquiteturas híbridas state-space/Transformer são uma alternativa viável e eficiente para VLMs, especialmente quando latência e deployment em dispositivos são prioridades.