Azercell e AWS lançam framework para treinar modelos de linguagem Azerbaijani no Amazon SageMaker AI

A Azercell Telecom LLC, principal operadora de telecomunicações do Azerbaijão, em parceria com o AWS Generative AI Innovation Center, desenvolveu um framework robusto para treinamento de modelos de linguagem natural (LLMs) em Azerbaijani utilizando a plataforma Amazon SageMaker AI. O projeto enfrentou o desafio de adaptar modelos base (foundation models) para uma língua morfologicamente complexa, com poucos dados disponíveis e sem referências prévias para treinamento eficiente de LLMs no idioma.
Desafios e soluções para o Azerbaijani
O Azerbaijani é uma língua rica em morfologia, onde palavras podem conter múltiplos sufixos que mudam o significado gramatical, dificultando o uso de tokenizadores padrão otimizados para inglês. Por exemplo, a palavra "kitablardan" ("dos livros") seria fragmentada em vários tokens, reduzindo a eficiência do modelo ao limitar o conteúdo que cabe na janela de contexto.
Para solucionar isso, o time desenvolveu um tokenizer customizado monolíngue baseado no algoritmo Byte-Level Byte-Pair Encoding (BBPE), treinado especificamente para o Azerbaijani. Esse tokenizador conseguiu reduzir pela metade o número médio de tokens por palavra (de 3,22 para 1,59), o que dobrou a quantidade de texto que o modelo pode processar simultaneamente dentro da janela de contexto de 128 mil tokens do Llama 3.2.
Framework modular de treinamento em três etapas
- Desenvolvimento do Tokenizador: Avaliação de três métodos, com destaque para o tokenizador monolíngue customizado que apresentou maior eficiência e qualidade (Bits-Per-Byte de 0,5795 vs 0,6830 do baseline).
- Continuação do Pré-treinamento (CPT): Adaptação do modelo base Llama 3.2 1B para Azerbaijani utilizando treinamento distribuído com PyTorch Fully Sharded Data Parallel (FSDP) e otimizações com Liger Kernels para reduzir uso de memória e aumentar a taxa de processamento. Essa etapa foi executada em instâncias ml.p4d.24xlarge e ml.p5.48xlarge, proporcionando até 7 vezes mais batch size e 23% maior throughput na GPU.
- Fine-tuning Supervisionado com Low-Rank Adaptation (LoRA): Transformação do modelo pré-treinado em um assistente conversacional focado no Azerbaijani. O método LoRA permite treinar menos parâmetros, otimizando recursos e tempo, com fine-tuning realizado em uma única instância ml.g5.8xlarge.
Infraestrutura e custos sob demanda
O treinamento foi conduzido por meio de jobs do Amazon SageMaker AI lançados pelo SageMaker Unified Studio, que provisionam automaticamente instâncias Amazon EC2 e encerram após a conclusão. Isso significa que o cliente paga apenas pelo tempo efetivo de computação, sem custos de infraestrutura ociosa.
Além disso, o pipeline é modular, permitindo que cada etapa seja otimizada independentemente, com artefatos e configurações reutilizáveis para futuras expansões e escalabilidade.
Resultados práticos e impacto para o setor de telecomunicações
O modelo fine-tuned demonstra geração de texto coerente e conciso em Azerbaijani, superando a limitação dos modelos pré-treinados que tendem a produzir saídas repetitivas e incoerentes em línguas sub-representadas. Isso abre caminho para implementações práticas, como chatbots para atendimento ao cliente e outras aplicações específicas do setor de telecomunicações no Azerbaijão.
Para quem é esta solução e como acessar
Empresas e desenvolvedores que trabalham com idiomas de baixa disponibilidade de dados ou linguagens morfologicamente complexas podem se beneficiar do framework apresentado pela Azercell e AWS. A solução está disponível no Amazon SageMaker AI, que oferece infraestrutura escalável e ferramentas para treinamento e implantação de modelos de linguagem.
Para começar, é necessário criar uma conta AWS aqui e acessar o SageMaker Unified Studio para configuração dos jobs de treinamento.