OpenAI explica a 'proibição' de goblins em seu modelo Codex e como reverter essa regra

A OpenAI revelou detalhes curiosos sobre um comportamento peculiar de seus modelos de inteligência artificial, especialmente no Codex, sua ferramenta de codificação baseada em IA. Após um relatório da Wired expor que o Codex recebeu instruções específicas para "nunca falar sobre goblins, gremlins, guaxinins, trolls, ogros, pombos ou outras criaturas ou animais", a empresa publicou uma explicação oficial em seu site, esclarecendo a origem e o motivo dessa restrição.

O que aconteceu com os "goblins" nos modelos da OpenAI?

O problema das referências a goblins e outras criaturas mitológicas começou a ser notado com o lançamento do GPT-5.1, principalmente ao utilizar a personalidade "Nerdy" (nerd) do modelo. Essa personalidade incentivava metáforas e referências a essas criaturas de forma recorrente, criando um hábito estranho dentro das respostas da IA.

Imagem relacionada ao artigo de The Verge AI — Imagem de apoio da materia original.

Com o avanço das versões, esse comportamento se espalhou para outros modelos, inclusive para o Codex, que foi treinado antes que a OpenAI identificasse a causa raiz do problema. A empresa percebeu que o treinamento por reforço recompensava essas metáforas estranhas no modo "Nerdy", e que esse comportamento acabou sendo transferido para além dessa condição específica, devido ao modo como o aprendizado por reforço funciona.

Medidas adotadas e a restrição no Codex

Para conter o problema, a OpenAI descontinuou a personalidade "Nerdy" em março, o que reduziu drasticamente as referências a essas criaturas. No entanto, como o Codex foi treinado antes dessa solução, ele ainda apresentava a tendência. Por isso, a empresa teve que impor instruções muito específicas para que o Codex evitasse falar sobre goblins e similares.

Essas instruções fazem parte do modelo para garantir que o Codex não incorpore metáforas ou referências a essas criaturas, mantendo o foco em sua função principal: auxiliar na geração e compreensão de código de programação.

Quem pode usar o Codex e como acessar

O Codex é uma ferramenta voltada para desenvolvedores que buscam auxílio automatizado para programação, integrada em diversas plataformas e ambientes de desenvolvimento. Para começar a usar o Codex, é necessário criar uma conta na OpenAI e acessar a API correspondente.

Para se inscrever, acesse: Login / Sign Up.

Como reverter a restrição e permitir referências a goblins

Curiosamente, a OpenAI também compartilhou uma forma para desenvolvedores interessados em reverter essa restrição e permitir que o Codex fale sobre goblins e outras criaturas. Essa opção é indicada para usuários que desejam experimentar o modelo com essas metáforas, cientes de que se trata de um comportamento não usual.

As instruções para essa reversão estão disponíveis no blog oficial da OpenAI, na página Where the goblins came from, onde a startup detalha o processo para alterar o arquivo de instruções do modelo.

Impacto prático para desenvolvedores e usuários

Essa polêmica sobre os "goblins" ilustra o desafio constante da OpenAI em controlar comportamentos inesperados e garantir que seus modelos de IA respondam de maneira adequada ao contexto de uso. Para os desenvolvedores, a restrição ajuda a manter o foco e a objetividade do Codex na geração de código, evitando distrações ou metáforas confusas.

Por outro lado, a possibilidade de reverter essa regra oferece flexibilidade para experimentação e personalização do modelo, algo valioso para pesquisadores e entusiastas de IA que desejam explorar diferentes estilos de resposta.