Por que a IA do Google erra na grafia até do próprio nome

Erros de ortografia surpreendem em IA do Google
Recentemente, a inteligência artificial (IA) integrada ao mecanismo de busca do Google tem apresentado erros básicos de ortografia, incluindo a grafia incorreta do próprio nome da empresa. Em uma série de exemplos divulgados, a IA contou erroneamente a quantidade de letras em palavras comuns, como “Google”, “poop” e “journalism”, além de escrever incorretamente nomes próprios como “Trump”.
Contexto e histórico dos problemas com IA e ortografia
Esse tipo de erro não é novidade para os modelos de linguagem de grande escala (LLMs, na sigla em inglês). Desde as primeiras implementações de IA em buscas, o Google já enfrentava problemas, como quando sua IA passou a citar posts satíricos do The Onion e Reddit, com recomendações absurdas como comer pedras ou passar cola na pizza.

Com a aposta da empresa em transformar a IA generativa no centro do seu produto principal, as falhas acabaram se tornando ainda mais evidentes e motivo de embaraço.
Por que a IA do Google não consegue soletrar corretamente?
O motivo principal está na arquitetura dos modelos de linguagem atuais, que não "leem" o texto como humanos, mas sim o dividem em unidades chamadas tokens. Esses tokens podem ser palavras inteiras, sílabas ou até letras, dependendo do modelo, e são convertidos em representações numéricas para processamento.
Segundo Matthew Guzdial, pesquisador de IA da Universidade de Alberta, a IA entende o significado de palavras como um todo, mas não reconhece suas letras individualmente. Isso explica por que a contagem de letras dentro de palavras é um desafio conhecido para esses modelos.
Sheridan Feucht, doutorando em interpretabilidade de LLMs, complementa que não existe um tokenizador perfeito, pois a definição exata do que constitui uma palavra é ambígua e os modelos tendem a fragmentar ainda mais o texto para otimizar seu funcionamento.
Impactos práticos e lições dessa limitação
Embora esses erros de ortografia possam parecer triviais, eles ressaltam que a IA não é infalível e que suas respostas devem ser sempre verificadas, especialmente em contextos que demandam precisão.
O Google já corrigiu alguns problemas recentes, como a exibição incorreta da definição da palavra "disregard" na busca, mas a dificuldade com a ortografia permanece um desafio técnico complexo.
Essa situação também reforça a importância de diversificar as fontes e ferramentas usadas na internet, já que a confiabilidade da IA, mesmo em gigantes tecnológicos, pode ser limitada.