Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

A Zyphra acaba de abrir o código do Zamba2-VL, uma família de modelos de visão-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. Disponível em três tamanhos — 1.2B, 2.7B e 7B parâmetros — sob licença Apache 2.0, o grande diferencial está na velocidade: o tempo até o primeiro token (TTFT) é reduzido em cerca de uma ordem de magnitude em contextos visuais longos.
Arquitetura Híbrida Mamba2-Transformer
Enquanto VLMs tradicionais usam atenção densa de Transformer — que escala quadraticamente com o comprimento da sequência — o Zamba2-VL adota uma abordagem mista:
- Camadas Mamba2 (state-space): Carregam o grosso da computação de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
- Blocos Transformer compartilhados: Preservam a capacidade de recuperação em contexto que modelos puramente SSM perdem. Cada bloco de atenção carrega um adaptador LoRA único por camada para adicionar expressividade.
- Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resolução dinâmica.
- Tokenizer: Mistral v0.1.
O modelo foi treinado com 100 bilhões de tokens de dados visão-texto e texto puro de datasets web abertos.
"A atenção de Transformer escala quadraticamente com o comprimento da sequência. Inputs multimodais tornam sequências muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenção, herdando prefill near-linear e estado recorrente de tamanho fixo."
Performance em Benchmarks
O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:
| Benchmark | Zamba2-VL-2.7B | Qwen3-VL-2B | InternVL3.5-2B |
|---|---|---|---|
| DocVQA | 90.9 | 93.3 | 89.4 |
| CountBenchQA | 87.5 | 87.9 | 70.0 |
| PixMoCount | 82.5 | 55.7 | 32.8 |
| ChartQA | 79.6 | 78.7 | 81.6 |
| MathVista | 51.0 | 51.8 | 61.4 |
| MMMU | 37.7 | 40.9 | 49.9 |
Destaques: Performance excepcional em contagem visual — no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B também impressiona com 62.5 no mesmo benchmark. Em compreensão de documentos (DocVQA), fica competitivo com 90.9.
Limitações: Desempenho mais fraco em raciocínio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos líderes da categoria.
Vantagem de Velocidade
O principal argumento de venda é a velocidade de inferência. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuação do Zamba2-VL com latência similar. A diferença é mais dramática nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.
Uma imagem de alta resolução (~3.400 tokens) já mostra paridade computacional no prefill, mas com sequências mais longas (ex: PDFs de múltiplas páginas, clipes de vídeo curtos), o design híbrido se torna dramaticamente mais barato — escalando O(n) contra O(n²) dos Transformers puros.
Casos de Uso
- Extração de documentos e formulários: Faturas, recibos — forte performance em DocVQA.
- Inventário e contagem visual: Destaque em PixMoCount e CountBenchQA para cenários de varejo.
- Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
- Inputs visuais longos: PDFs de múltiplas páginas e vídeos curtos se beneficiam do prefill linear.
Com este lançamento, a Zyphra demonstra que arquiteturas híbridas state-space/Transformer são uma alternativa viável e eficiente para VLMs, especialmente quando latência e deployment em dispositivos são prioridades.