Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

A startup americana Subquadratic saiu do modo stealth no mês passado com uma afirmação ambiciosa: resolveram o gargalo matemático que tem limitado os grandes modelos de linguagem (LLMs) há quase uma década. Agora, a empresa sediada em Miami começa a apresentar evidências independentes que tornam suas alegações muito mais difíceis de ignorar.

O problema da atenção quadrática

Para entender por que as alegações da Subquadratic são tão impactantes, é preciso mergulhar em como os LLMs funcionam. O mecanismo central de um LLM é um tipo de rede neural chamada transformer, que executa um processo conhecido como atenção densa ("dense attention"). Quando um transformer processa um texto, ele codifica cada palavra (ou token) com um número e depois multiplica cada número por todos os outros números daquele texto. Um texto de 10.000 palavras dispara quase 50 milhões de multiplicações individuais.

Conforme o texto aumenta, o número de cálculos dispara de forma quadrática — dobre o número de palavras e você quadruplica os cálculos. É por isso que os LLMs são notórios devoradores de energia e dinheiro.

SubQ: atenção esparsa e velocidade 56x maior

A solução da Subquadratic é abandonar a atenção densa em favor da atenção esparsa ("sparse attention"), que reduz drasticamente os cálculos. Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente quais pares de tokens são relevantes para o contexto específico.

"Se você está lendo um livro, você não vai comparar a primeira e a segunda palavra, primeira e terceira — isso é insano", explica Alex Whedon, CTO e cofundador da Subquadratic.

O modelo se chama SubQ e, segundo testes independentes conduzidos pela empresa Appen, é 56 vezes mais rápido que modelos que usam FlashAttention (a técnica anterior de atenção esparsa). Em benchmarks de código como o LiveCodeBench, o SubQ atingiu 89,7% de precisão — competitivo com os melhores modelos de codificação do mercado.

Custo e capacidade de contexto sem precedentes

O SubQ possui uma janela de contexto de até 12 milhões de tokens — 12 vezes maior que a maioria dos modelos atuais, limitados a cerca de 1 milhão. Em uma demonstração, o SubQ processou e raciocinou sobre 400 documentos simultâneos em segundos. Quando o Perplexity recebeu a mesma tarefa, sequer conseguiu carregar todos os documentos.

Em termos de custo, a diferença é ainda mais gritante: executar o Opus 4.6 da Anthropic no teste RULER 128 custa cerca de US$ 2.600. O SubQ? Oito dólares.

Nos testes de "needle-in-a-haystack", o SubQ obteve 98% de precisão com janelas de contexto de 6 e 12 milhões de tokens — praticamente perfeito em escalas que poucos modelos sequer testam.

Ceticismo justificado

Apesar dos números impressionantes, o ceticismo é compreensível. A Subquadratic é uma empresa pequena com recursos limitados, e o modelo ainda não está amplamente disponível para testes públicos. Dezenas de milhares já se inscreveram na lista de espera, incluindo mais de 500 clientes empresariais, mas poucos tiveram acesso até agora.

Outro ponto levantado por pesquisadores: a Subquadratic reutilizou pesos de um modelo open-source chinês (Qwen) para inicializar o SubQ, em vez de treinar do zero. Embora seja uma prática comum na indústria, isso enfraquece a alegação de terem reinventado completamente o funcionamento dos LLMs.

"A evidência pública ainda não justifica a alegação mais forte de que eles resolveram o gargalo da atenção quadrática", pondera Will Depue, pesquisador independente que trabalhou anteriormente na OpenAI.

Uma nova era de eficiência?

A Subquadratic insiste que a reinvenção é o único caminho para startups competirem com gigantes. "Esperamos estar iniciando uma nova era de eficiência", diz Justin Dangel, CEO e cofundador. "Achamos que ninguém estará construindo em cima de transformers daqui a alguns anos."

Se o SubQ cumprir o que promete, a equação da IA generativa pode mudar radicalmente — mais rápida, mais barata e capaz de processar volumes de dados antes impensáveis. O copo está meio cheio de evidências, mas o gole final ainda depende de acesso público e testes independentes em larga escala.

Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

O problema da atenção quadrática

SubQ: atenção esparsa e velocidade 56x maior

Custo e capacidade de contexto sem precedentes

Ceticismo justificado

Uma nova era de eficiência?

Leia também

Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

EUA acusam ASML de enviar máquina de chips EUV para a China; empresa nega

Ensaios de interfaces cérebro-computador disparam: número de voluntários mais que dobra

Barret Zoph deixa a OpenAI novamente após apenas cinco meses