Azercell e AWS lançam framework para treinar modelos de linguagem Azerbaijani no Amazon SageMaker AI

A Azercell Telecom LLC, principal operadora de telecomunicações do Azerbaijão, em parceria com o AWS Generative AI Innovation Center, desenvolveu um framework robusto para treinamento de modelos de linguagem natural (LLMs) em Azerbaijani utilizando a plataforma Amazon SageMaker AI. O projeto enfrentou o desafio de adaptar modelos base (foundation models) para uma língua morfologicamente complexa, com poucos dados disponíveis e sem referências prévias para treinamento eficiente de LLMs no idioma.

Desafios e soluções para o Azerbaijani

O Azerbaijani é uma língua rica em morfologia, onde palavras podem conter múltiplos sufixos que mudam o significado gramatical, dificultando o uso de tokenizadores padrão otimizados para inglês. Por exemplo, a palavra "kitablardan" ("dos livros") seria fragmentada em vários tokens, reduzindo a eficiência do modelo ao limitar o conteúdo que cabe na janela de contexto.

Para solucionar isso, o time desenvolveu um tokenizer customizado monolíngue baseado no algoritmo Byte-Level Byte-Pair Encoding (BBPE), treinado especificamente para o Azerbaijani. Esse tokenizador conseguiu reduzir pela metade o número médio de tokens por palavra (de 3,22 para 1,59), o que dobrou a quantidade de texto que o modelo pode processar simultaneamente dentro da janela de contexto de 128 mil tokens do Llama 3.2.

Framework modular de treinamento em três etapas

Desenvolvimento do Tokenizador: Avaliação de três métodos, com destaque para o tokenizador monolíngue customizado que apresentou maior eficiência e qualidade (Bits-Per-Byte de 0,5795 vs 0,6830 do baseline).
Continuação do Pré-treinamento (CPT): Adaptação do modelo base Llama 3.2 1B para Azerbaijani utilizando treinamento distribuído com PyTorch Fully Sharded Data Parallel (FSDP) e otimizações com Liger Kernels para reduzir uso de memória e aumentar a taxa de processamento. Essa etapa foi executada em instâncias ml.p4d.24xlarge e ml.p5.48xlarge, proporcionando até 7 vezes mais batch size e 23% maior throughput na GPU.
Fine-tuning Supervisionado com Low-Rank Adaptation (LoRA): Transformação do modelo pré-treinado em um assistente conversacional focado no Azerbaijani. O método LoRA permite treinar menos parâmetros, otimizando recursos e tempo, com fine-tuning realizado em uma única instância ml.g5.8xlarge.

Infraestrutura e custos sob demanda

O treinamento foi conduzido por meio de jobs do Amazon SageMaker AI lançados pelo SageMaker Unified Studio, que provisionam automaticamente instâncias Amazon EC2 e encerram após a conclusão. Isso significa que o cliente paga apenas pelo tempo efetivo de computação, sem custos de infraestrutura ociosa.

Além disso, o pipeline é modular, permitindo que cada etapa seja otimizada independentemente, com artefatos e configurações reutilizáveis para futuras expansões e escalabilidade.

Resultados práticos e impacto para o setor de telecomunicações

O modelo fine-tuned demonstra geração de texto coerente e conciso em Azerbaijani, superando a limitação dos modelos pré-treinados que tendem a produzir saídas repetitivas e incoerentes em línguas sub-representadas. Isso abre caminho para implementações práticas, como chatbots para atendimento ao cliente e outras aplicações específicas do setor de telecomunicações no Azerbaijão.

Para quem é esta solução e como acessar

Empresas e desenvolvedores que trabalham com idiomas de baixa disponibilidade de dados ou linguagens morfologicamente complexas podem se beneficiar do framework apresentado pela Azercell e AWS. A solução está disponível no Amazon SageMaker AI, que oferece infraestrutura escalável e ferramentas para treinamento e implantação de modelos de linguagem.

Para começar, é necessário criar uma conta AWS aqui e acessar o SageMaker Unified Studio para configuração dos jobs de treinamento.