Google AI27 jun, 20264 min

ConlangCrafter: IA gera línguas artificiais mais diversas e consistentes que modelos genéricos

Pesquisadores da Universidade da Califórnia, Berkeley, Carnegie Mellon e Universidade de Tel Aviv desenvolveram um modelo de IA chamado…

Por Redação IA em FocoAtualizado em 27 de junho de 2026, 13:10

ConlangCrafter: IA gera línguas artificiais mais diversas e consistentes que modelos genéricos — Imagem de apoio. Fonte: IEEE Spectrum AI.

Pesquisadores da Universidade da Califórnia, Berkeley, Carnegie Mellon e Universidade de Tel Aviv desenvolveram um modelo de IA chamado ConlangCrafter, capaz de criar línguas construídas (conlangs) com diversidade e consistência superiores às geradas por grandes modelos de linguagem (LLMs) de propósito geral. Em artigo publicado em 27 de junho nos Proceedings of the Association for Computational Linguistics, a equipe demonstra que o sistema pode gerar línguas que seguem regras fonológicas, morfossintáticas e lexicais definidas pelo usuário — ou inventadas pelo próprio modelo.

O problema: criar línguas artificiais é difícil até para especialistas

Criar uma língua do zero é uma tarefa complexa, que exige consistência interna e criatividade. Conlangs famosas como Klingon, Dothraki e as línguas élficas foram desenvolvidas ao longo de anos por profissionais. Modelos de IA genéricos, como o Gemini-2.5-Pro, conseguem gerar línguas, mas com baixa diversidade e frequentes contradições internas. O ConlangCrafter foi projetado para superar essas limitações.

Imagem relacionada a materia de IEEE Spectrum AI — Imagem de apoio da publicacao original: IEEE Spectrum AI.

Método: como o ConlangCrafter funciona

O sistema combina três componentes principais:

Geração baseada em regras linguísticas: o usuário pode escolher entre regras predefinidas de fonologia, morfossintaxe e vocabulário, ou pedir que o modelo invente suas próprias regras. É possível, por exemplo, criar uma língua mista entre japonês e esperanto.
Variação controlada por gerador de números aleatórios: a cada execução, um gerador aleatório introduz variações, garantindo que cada língua gerada seja diferente das anteriores.
Loop de edição automática: após a geração, um módulo de revisão verifica se há contradições nas regras e as corrige, assegurando consistência interna.

O modelo também é capaz de criar sistemas de comunicação não convencionais, como uma “língua de cores” para uma espécie de cefalópode, que usa mudanças cromáticas e gestos em vez de sons. Embora não corresponda a uma língua real de polvos, o exemplo ilustra o potencial para estudar linguagens não centradas em humanos.

Resultados: diversidade e consistência superiores

A equipe comparou as línguas geradas pelo ConlangCrafter com as produzidas por LLMs de uso geral (Gemini-2.5-Pro). As métricas avaliadas foram:

Diversidade: medida pela diferença entre as línguas geradas em aspectos como ordem básica das palavras. O ConlangCrafter obteve cerca de duas vezes mais diversidade.
Consistência: verificada pela capacidade de traduzir frases de volta para a língua inventada seguindo suas próprias regras. O sistema foi quase 70% mais consistente que o modelo genérico.

“Nosso sistema completo pode ser cerca de duas vezes mais diverso e quase 70% mais consistente do que simplesmente pedir a um LLM que invente uma nova língua”, afirma Morris Alper, pós-doutorando na Carnegie Mellon e coautor do estudo.

Limitações atuais

Os próprios pesquisadores apontam que o ConlangCrafter ainda é limitado em dimensões linguísticas mais complexas, como semântica, uso contextual e conversacional da língua, e aspectos visuais da escrita. O sistema foca em regras estruturais (fonologia, morfossintaxe, léxico), mas não modela significados ou pragmática.

Por que essa pesquisa importa

David Mortensen, professor assistente no Language Technologies Institute da Carnegie Mellon (não envolvido no estudo), destaca que o ConlangCrafter pode ajudar pesquisadores de processamento de linguagem natural (PLN) a investigar como a estrutura de uma língua afeta o desempenho de modelos. “Há um corpo substancial de pesquisa sugerindo que a estrutura linguística – tanto no treinamento quanto no teste – afeta o desempenho do modelo. No entanto, hipóteses nessa área têm sido muito difíceis de avaliar”, diz Mortensen. Ferramentas como o ConlangCrafter permitem experimentos controlados sobre tipologia e léxico.

O pesquisador principal, Gašper Beguš, planeja expandir o trabalho para estudar a hipótese Sapir-Whorf (a ideia de que a língua influencia o pensamento), simulando mundos com línguas diferentes e observando impactos nas sociedades virtuais.

O problema: criar línguas artificiais é difícil até para especialistas

Método: como o ConlangCrafter funciona

Resultados: diversidade e consistência superiores

Limitações atuais

Por que essa pesquisa importa

Links úteis

Google acelera Gemini Nano no Pixel com Predição Multitoken congelada

A24 Sabe que Você Está Furioso com a Parceria de IA com o Google

Pesquisadores de IA Continuam Deixando o Google para Trabalhar em Rivais