Google AI27 jun, 20264 min

Google acelera Gemini Nano no Pixel com Predição Multitoken congelada

A Google Research anunciou uma nova técnica para acelerar modelos de linguagem no dispositivo, especificamente o Gemini Nano v3, rodando em…

Por Redação IA em FocoAtualizado em 27 de junho de 2026, 13:09

Google acelera Gemini Nano no Pixel com Predição Multitoken congelada — Imagem de apoio. Fonte: Google Research.

A Google Research anunciou uma nova técnica para acelerar modelos de linguagem no dispositivo, especificamente o Gemini Nano v3, rodando em smartphones Pixel 9 e 10. O método, chamado de Multi-Token Prediction (MTP) congelado, permite que o modelo gere múltiplos tokens por vez sem a necessidade de modelos auxiliares separados, economizando memória e energia.

O problema: gargalo da geração autoregressiva

Modelos de linguagem grandes (LLMs) em dispositivos móveis enfrentam restrições severas de memória e energia. A geração autoregressiva tradicional — um token por vez — exige múltiplas passadas pelo modelo, subutilizando o processador e sobrecarregando a largura de banda da memória. Isso resulta em latência alta e maior consumo de bateria.

Método: MTP com backbone congelado

A abordagem da Google adapta a técnica de speculative decoding para o ambiente móvel. Em vez de usar um modelo drafter separado (como era comum), eles adicionam uma cabeça MTP leve (um pequeno transformador) às últimas camadas do modelo principal Gemini Nano v3. Essa cabeça utiliza os estados ocultos já calculados pelo backbone para prever múltiplos tokens futuros de uma só vez.

O backbone permanece congelado — seus pesos não são alterados. Apenas a cabeça MTP é treinada para minimizar o erro de predição. Isso garante que as capacidades originais do modelo e seu alinhamento de segurança sejam preservados. Como os rascunhos incorretos são descartados durante a verificação, a saída final é idêntica à do modelo original.

Arquitetura zero-copy: economia de memória

Para evitar a duplicação de memória, a cabeça MTP utiliza uma arquitetura zero-copy. Em vez de manter seu próprio cache de chave-valor (KV cache), ela faz cross-attention diretamente ao cache do backbone. Isso elimina a latência de preenchimento do drafter e reduz o uso de memória em até 130 MB por instância em comparação com um drafter independente.

Resultados: ganhos de velocidade e aceitação de tokens

Em testes com o Pixel 9, o MTP congelado apresentou:

Mais de 50% de aceleração na geração de texto em tarefas como sumarização e revisão, em comparação com drafters independentes de tamanho similar.
Até 55% de melhoria na aceitação de tokens em tarefas com estrutura previsível (ex.: respostas inteligentes), pois a cabeça MTP aprendeu os padrões sintáticos do modelo principal.
Em cargas de trabalho reais (como AI Notification Summaries e Proofread), o MTP prevê corretamente quase dois tokens adicionais por passada.

Benchmark e comparação

Os resultados foram comparados com o desempenho dos mesmos dispositivos antes da atualização MTP. A Google não divulgou números absolutos de latência, mas afirma que a aceleração é perceptível para o usuário final, com menor consumo de energia.

Limitações

O método atual assume uma única trajetória futura de tokens — a abordagem padrão de speculative decoding. Em contextos ambíguos, a aceitação de sequências longas pode ser menor. A Google está explorando variações que permitam explorar múltiplas possibilidades em paralelo e também uma verificação mais flexível (não exigindo correspondência exata de tokens) para aumentar a eficiência.

Por que isso importa no mundo real

Para usuários de Pixel, isso significa que funcionalidades de IA no dispositivo — como sumarização de notificações e revisão de texto — ficam mais rápidas e consomem menos bateria. Para desenvolvedores, a técnica elimina a necessidade de treinar e implantar modelos drafters separados para cada tarefa, reduzindo a complexidade e o uso de memória. A abordagem é retrocompatível: pode ser aplicada a modelos já implantados sem retreinamento completo.

A Google planeja integrar o MTP em futuros dispositivos Pixel e explorar arquiteturas alternativas, como decodificação paralela e paradigmas sem cabeças auxiliares, para reduzir ainda mais a latência e aumentar a verificação simultânea de tokens sob restrições móveis.

O problema: gargalo da geração autoregressiva

Método: MTP com backbone congelado

Arquitetura zero-copy: economia de memória

Resultados: ganhos de velocidade e aceitação de tokens

Benchmark e comparação

Limitações

Por que isso importa no mundo real

Links úteis

ConlangCrafter: IA gera línguas artificiais mais diversas e consistentes que modelos genéricos

A24 Sabe que Você Está Furioso com a Parceria de IA com o Google

Pesquisadores de IA Continuam Deixando o Google para Trabalhar em Rivais