Pesquisadores da Universidade da Califórnia, Berkeley, Carnegie Mellon e Universidade de Tel Aviv desenvolveram um modelo de IA chamado ConlangCrafter, capaz de criar línguas construídas (conlangs) com diversidade e consistência superiores às geradas por grandes modelos de linguagem (LLMs) de propósito geral. Em artigo publicado em 27 de junho nos Proceedings of the Association for Computational Linguistics, a equipe demonstra que o sistema pode gerar línguas que seguem regras fonológicas, morfossintáticas e lexicais definidas pelo usuário — ou inventadas pelo próprio modelo.
O problema: criar línguas artificiais é difícil até para especialistas
Criar uma língua do zero é uma tarefa complexa, que exige consistência interna e criatividade. Conlangs famosas como Klingon, Dothraki e as línguas élficas foram desenvolvidas ao longo de anos por profissionais. Modelos de IA genéricos, como o Gemini-2.5-Pro, conseguem gerar línguas, mas com baixa diversidade e frequentes contradições internas. O ConlangCrafter foi projetado para superar essas limitações.

Método: como o ConlangCrafter funciona
O sistema combina três componentes principais:
- Geração baseada em regras linguísticas: o usuário pode escolher entre regras predefinidas de fonologia, morfossintaxe e vocabulário, ou pedir que o modelo invente suas próprias regras. É possível, por exemplo, criar uma língua mista entre japonês e esperanto.
- Variação controlada por gerador de números aleatórios: a cada execução, um gerador aleatório introduz variações, garantindo que cada língua gerada seja diferente das anteriores.
- Loop de edição automática: após a geração, um módulo de revisão verifica se há contradições nas regras e as corrige, assegurando consistência interna.
O modelo também é capaz de criar sistemas de comunicação não convencionais, como uma “língua de cores” para uma espécie de cefalópode, que usa mudanças cromáticas e gestos em vez de sons. Embora não corresponda a uma língua real de polvos, o exemplo ilustra o potencial para estudar linguagens não centradas em humanos.
Resultados: diversidade e consistência superiores
A equipe comparou as línguas geradas pelo ConlangCrafter com as produzidas por LLMs de uso geral (Gemini-2.5-Pro). As métricas avaliadas foram:

- Diversidade: medida pela diferença entre as línguas geradas em aspectos como ordem básica das palavras. O ConlangCrafter obteve cerca de duas vezes mais diversidade.
- Consistência: verificada pela capacidade de traduzir frases de volta para a língua inventada seguindo suas próprias regras. O sistema foi quase 70% mais consistente que o modelo genérico.
“Nosso sistema completo pode ser cerca de duas vezes mais diverso e quase 70% mais consistente do que simplesmente pedir a um LLM que invente uma nova língua”, afirma Morris Alper, pós-doutorando na Carnegie Mellon e coautor do estudo.
Limitações atuais
Os próprios pesquisadores apontam que o ConlangCrafter ainda é limitado em dimensões linguísticas mais complexas, como semântica, uso contextual e conversacional da língua, e aspectos visuais da escrita. O sistema foca em regras estruturais (fonologia, morfossintaxe, léxico), mas não modela significados ou pragmática.
Por que essa pesquisa importa
David Mortensen, professor assistente no Language Technologies Institute da Carnegie Mellon (não envolvido no estudo), destaca que o ConlangCrafter pode ajudar pesquisadores de processamento de linguagem natural (PLN) a investigar como a estrutura de uma língua afeta o desempenho de modelos. “Há um corpo substancial de pesquisa sugerindo que a estrutura linguística – tanto no treinamento quanto no teste – afeta o desempenho do modelo. No entanto, hipóteses nessa área têm sido muito difíceis de avaliar”, diz Mortensen. Ferramentas como o ConlangCrafter permitem experimentos controlados sobre tipologia e léxico.
O pesquisador principal, Gašper Beguš, planeja expandir o trabalho para estudar a hipótese Sapir-Whorf (a ideia de que a língua influencia o pensamento), simulando mundos com línguas diferentes e observando impactos nas sociedades virtuais.


