Novo modelo de voz sintetizada em te reo Māori reforça a soberania digital indígena

A Nova Zelândia, conhecida por suas paisagens naturais, também se destaca por sua diversidade linguística, especialmente pela presença do te reo Māori, a língua indígena do país. Embora apenas 4,3% da população fale fluentemente essa língua, cerca de 30% dos neozelandeses conhecem ao menos algumas palavras ou frases. Em um movimento inovador, pesquisadores da Universidade de Waikato desenvolveram um modelo de síntese de voz (text-to-speech) para um dialeto específico do te reo Māori, priorizando a propriedade e controle da tecnologia pela própria comunidade indígena.

Contexto e motivação do projeto

Atualmente, grandes empresas de tecnologia utilizam dados de comunidades Māori para treinar modelos de IA que reproduzem a língua, porém sem consentimento nem controle das próprias comunidades. Essas empresas processam os dados fora do país e detêm os direitos sobre os resultados, o que preocupa líderes indígenas como o professor Te Taka Keegan, co-diretor do Instituto de IA da Universidade de Waikato. Segundo ele, a língua é o principal meio para a transmissão do conhecimento Māori, e a falta de soberania digital representa risco para a cultura.

Imagem relacionada ao artigo de IEEE Spectrum AI — Imagem de apoio da materia original.

Desenvolvimento do modelo de voz sintetizada

Para garantir que o controle do modelo permanecesse com os falantes do dialeto Waikato-Maniapoto, Keegan e seu ex-aluno Kingsley Eng criaram um sistema de síntese de voz de alta fidelidade baseado em gravações feitas com Ngaringi Katipa, tradutora e educadora da comunidade. Foram coletadas inicialmente 4,5 horas de gravações, ampliadas posteriormente para quase 8 horas com um vocabulário abrangente, incluindo palavras raras fornecidas por um especialista em linguística Māori.

Desafios técnicos específicos

Características únicas do te reo Māori, como a duração das vogais, que altera o significado das palavras (por exemplo, keke, kēkē e kekē representam "bolo", "axila" e "rangido", respectivamente).
Uso de dígrafos com pronúncias diferentes do inglês, como o "wh" pronunciado como "f".
Disponibilidade limitada de dados digitais, característica de línguas de baixo recurso.

Tecnologia e resultados

O modelo foi treinado utilizando a abordagem baseada em fonemas, que converte o texto em representações fonéticas, facilitando o aprendizado da pronúncia correta. Para isso, adaptaram o conjunto de regras do eSpeak-NG, um software open-source com suporte beta para o Māori. Entre as arquiteturas testadas, Piper foi a escolhida por seu melhor desempenho e por permitir execução offline.

Apesar de utilizar menos de 8 horas de áudio, o modelo alcançou uma taxa de erro de palavras (word error rate) de 6,78%, considerada boa segundo os padrões atuais da indústria. Além disso, 68 falantes fluentes participaram de um teste cego que indicou que 65% das vezes eles não conseguiram distinguir a voz sintetizada da humana, comprovando a naturalidade e precisão do sistema.

Propriedade e soberania digital

Diferentemente dos modelos produzidos por grandes empresas, este projeto assegura que a voz sintetizada seja propriedade da comunidade Māori. A voz pertence a Ngaringi Katipa sob a perspectiva legal, mas culturalmente é um patrimônio coletivo das tribos Waikato, Maniapoto e Raukawa, com quem Keegan está em diálogo para garantir a guarda e uso adequados. A empresa Catalyst IT em Wellington apoia o projeto oferecendo hospedagem e poder computacional para rodar o modelo por um ano.

Impacto e perspectivas futuras

Este modelo pioneiro serve como um exemplo replicável para outras comunidades indígenas ao redor do mundo que buscam desenvolver tecnologias de IA sob seus próprios termos. Projetos similares já ocorrem em outras regiões, como o sistema de reconhecimento automático de fala desenvolvido pela Te Hiku Media, com licença Kaitiakitanga, que protege o uso dos dados para benefício da população Māori.

Keegan planeja expandir a metodologia para criar modelos de linguagem completos para diferentes dialetos, cada um pertencente e treinado com dados da respectiva comunidade. Essa abordagem representa uma alternativa à colonização tecnológica, promovendo o empoderamento cultural e a preservação do conhecimento tradicional por meio da inteligência artificial.

Como acessar e experimentar

Para ouvir exemplos da voz sintetizada e compará-la com gravações humanas, o projeto disponibiliza uma demonstração online acessível em https://kingsleyeng.github.io/tts-ab-test-template/. O código-fonte e ferramentas usadas, como o eSpeak-NG e o Piper, são open-source e podem ser consultados para iniciativas similares.