Subquadratic afirma ter resolvido o gargalo matemático dos transformers — e tem benchmarks independentes para provar

A startup de Miami Subquadratic saiu do stealth com uma afirmação ousada: resolveu um gargalo matemático que limita os modelos de linguagem há quase uma década. Um mês depois, a empresa começou a mostrar as provas.
O problema é a atenção densa (dense attention), o mecanismo central dos transformers. Quando um LLM processa texto, cada token precisa ser multiplicado por todos os outros tokens. Isso gera uma expansão quadrática de computações — dobre o texto e você quadruplica os cálculos. É por isso que rodar modelos como GPT-4 e Claude custa caro, consome energia absurda e fica lento com contextos longos.
A Subquadratic diz ter resolvido isso com atenção esparsa dinâmica (sparse attention). Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente apenas as relações importantes. "Atenção esparsa diz que nem todas essas relações são importantes, porque elas não são", explica Alex Whedon, CTO e cofundador. "Se você está lendo um livro, não vai comparar a primeira com a segunda palavra, primeira com a terceira — isso é insano."
O resultado é o SubQ, um LLM que segundo a empresa é até 56 vezes mais rápido que modelos usando FlashAttention, processa 12 vezes mais texto de uma vez e consome muito menos energia — tudo isso igualando o desempenho dos melhores modelos de OpenAI, Google DeepMind e Anthropic em tarefas como código.
A comunidade recebeu com ceticismo. Dan McAteer, engenheiro de IA, resumiu o clima no X: "SubQ é o maior avanço desde o Transformer... ou é a Theranos da IA."
Mas a Subquadratic contratou a Appen, empresa independente que avalia modelos, para rodar seus testes. Os resultados parecem validar as afirmações. "Fiquei tipo 'uau, isso pode mudar o jogo'", disse Jeanine Sinanan-Singh, diretora de pesquisa em IA generativa da Appen. "Modelos sofrem com velocidade e ineficiência."
O SubQ não substitui os modelos atuais em todas as tarefas, mas pode oferecer ganhos enormes de velocidade por uma fração do custo para tarefas específicas — como analisar centenas de documentos ou bases de código inteiras.
O CEO Justin Dangel é ambicioso: "Esperamos estar iniciando uma nova era de eficiência. Achamos que ninguém vai continuar construindo sobre transformers densos."
A startup ainda não liberou o SubQ para testes públicos, mas prometeu divulgar benchmarks verificados antes de qualquer anúncio futuro. O artigo completo da MIT Technology Review tem todos os detalhes técnicos: A startup claims it broke through a bottleneck that's holding back LLMs.



