A Google Research anunciou uma nova técnica para acelerar modelos de linguagem no dispositivo, especificamente o Gemini Nano v3, rodando em smartphones Pixel 9 e 10. O método, chamado de Multi-Token Prediction (MTP) congelado, permite que o modelo gere múltiplos tokens por vez sem a necessidade de modelos auxiliares separados, economizando memória e energia.
O problema: gargalo da geração autoregressiva
Modelos de linguagem grandes (LLMs) em dispositivos móveis enfrentam restrições severas de memória e energia. A geração autoregressiva tradicional — um token por vez — exige múltiplas passadas pelo modelo, subutilizando o processador e sobrecarregando a largura de banda da memória. Isso resulta em latência alta e maior consumo de bateria.
Método: MTP com backbone congelado
A abordagem da Google adapta a técnica de speculative decoding para o ambiente móvel. Em vez de usar um modelo drafter separado (como era comum), eles adicionam uma cabeça MTP leve (um pequeno transformador) às últimas camadas do modelo principal Gemini Nano v3. Essa cabeça utiliza os estados ocultos já calculados pelo backbone para prever múltiplos tokens futuros de uma só vez.
O backbone permanece congelado — seus pesos não são alterados. Apenas a cabeça MTP é treinada para minimizar o erro de predição. Isso garante que as capacidades originais do modelo e seu alinhamento de segurança sejam preservados. Como os rascunhos incorretos são descartados durante a verificação, a saída final é idêntica à do modelo original.
Arquitetura zero-copy: economia de memória
Para evitar a duplicação de memória, a cabeça MTP utiliza uma arquitetura zero-copy. Em vez de manter seu próprio cache de chave-valor (KV cache), ela faz cross-attention diretamente ao cache do backbone. Isso elimina a latência de preenchimento do drafter e reduz o uso de memória em até 130 MB por instância em comparação com um drafter independente.
Resultados: ganhos de velocidade e aceitação de tokens
Em testes com o Pixel 9, o MTP congelado apresentou:
- Mais de 50% de aceleração na geração de texto em tarefas como sumarização e revisão, em comparação com drafters independentes de tamanho similar.
- Até 55% de melhoria na aceitação de tokens em tarefas com estrutura previsível (ex.: respostas inteligentes), pois a cabeça MTP aprendeu os padrões sintáticos do modelo principal.
- Em cargas de trabalho reais (como AI Notification Summaries e Proofread), o MTP prevê corretamente quase dois tokens adicionais por passada.
Benchmark e comparação
Os resultados foram comparados com o desempenho dos mesmos dispositivos antes da atualização MTP. A Google não divulgou números absolutos de latência, mas afirma que a aceleração é perceptível para o usuário final, com menor consumo de energia.
Limitações
O método atual assume uma única trajetória futura de tokens — a abordagem padrão de speculative decoding. Em contextos ambíguos, a aceitação de sequências longas pode ser menor. A Google está explorando variações que permitam explorar múltiplas possibilidades em paralelo e também uma verificação mais flexível (não exigindo correspondência exata de tokens) para aumentar a eficiência.
Por que isso importa no mundo real
Para usuários de Pixel, isso significa que funcionalidades de IA no dispositivo — como sumarização de notificações e revisão de texto — ficam mais rápidas e consomem menos bateria. Para desenvolvedores, a técnica elimina a necessidade de treinar e implantar modelos drafters separados para cada tarefa, reduzindo a complexidade e o uso de memória. A abordagem é retrocompatível: pode ser aplicada a modelos já implantados sem retreinamento completo.
A Google planeja integrar o MTP em futuros dispositivos Pixel e explorar arquiteturas alternativas, como decodificação paralela e paradigmas sem cabeças auxiliares, para reduzir ainda mais a latência e aumentar a verificação simultânea de tokens sob restrições móveis.



