Amazon SageMaker AI lança fine-tuning avançado para melhorar a precisão de chamadas de ferramentas em agentes de linguagem

Nova funcionalidade para aprimorar agentes de IA com Supervised Fine-Tuning e Direct Preference Optimization

A Amazon Web Services (AWS) anunciou uma solução integrada no Amazon SageMaker AI que permite melhorar significativamente a precisão na seleção de ferramentas por agentes baseados em pequenos modelos de linguagem (SLMs). Utilizando as técnicas de Supervised Fine-Tuning (SFT) e Direct Preference Optimization (DPO) em conjunto, essa novidade facilita o treinamento e a otimização de agentes para que eles escolham corretamente as ferramentas necessárias para executar tarefas complexas, reduzindo erros e aumentando a eficiência.

Por que a precisão em tool-calling é essencial para agentes de IA?

Agentes de IA que realizam tarefas complexas dependem da capacidade de chamar as ferramentas certas para acessar informações ou executar ações. Quando um agente escolhe a ferramenta incorreta, erra parâmetros ou interrompe fluxos de trabalho, isso resulta em aumento do tempo para concluir tarefas, elevação das taxas de erro, maiores custos de suporte e pior experiência para o usuário final. Com a adoção crescente de agentes autônomos em ambientes produtivos, garantir que eles selecionem corretamente as ferramentas tornou-se fundamental para automação confiável.

Como funcionam SFT e DPO no Amazon SageMaker AI?

Supervised Fine-Tuning (SFT) consiste em ajustar o modelo com um conjunto de dados de alta qualidade, que oferece exemplos explícitos de como ele deve interagir com ferramentas específicas, reconhecendo nuances de linguagem e comandos. Já o Direct Preference Optimization (DPO) incorpora feedback humano ou objetivos pré-definidos diretamente no loop de treinamento, alinhando a saída do modelo às preferências desejadas sem a complexidade dos métodos tradicionais de aprendizado por reforço.

Essa combinação permite um refinamento robusto dos modelos, tornando-os mais aptos a gerar respostas adequadas e executar chamadas de ferramentas com maior acurácia, tudo isso utilizando a infraestrutura gerenciada do SageMaker AI, que automatiza o provisionamento de recursos e o gerenciamento do ambiente de treinamento.

Quem pode utilizar e como acessar essa funcionalidade?

Desenvolvedores, cientistas de dados e equipes de machine learning que já utilizam o Amazon SageMaker podem aproveitar essas técnicas para aprimorar seus agentes de linguagem. É necessário possuir uma conta AWS, configurar permissões com IAM e preparar o ambiente para execução dos jobs de treinamento, que podem ser realizados em instâncias otimizadas para GPU, como a ml.p4d.24xlarge.

O processo pode ser iniciado diretamente no console do SageMaker ou via SDKs, com integração para notebooks Jupyter no SageMaker Studio. O código de exemplo, incluindo scripts para SFT e DPO, está disponível no repositório oficial da AWS no GitHub (link para o repositório).

Configuração e treinamento: passos essenciais

Preparar o ambiente AWS com permissões IAM e configurar AWS CLI.
Clonar o repositório com os scripts e datasets de exemplo.
Utilizar o dataset When2Call, da NVIDIA, para treinar o modelo com exemplos de chamadas corretas e incorretas de ferramentas.
Executar o fine-tuning supervisionado (SFT) para ajustar o modelo base Qwen3-1.7B.
Aplicar o Direct Preference Optimization (DPO) para refinar o modelo com base em preferências explícitas.
Monitorar métricas e realizar avaliações comparando o modelo base com as versões ajustadas.

Todo o treinamento é realizado em jobs gerenciados pelo SageMaker AI, que suporta clusters multi-GPU e multi-nó, além de integração com MLflow para rastreamento e análise dos experimentos.

Impacto prático para empresas e desenvolvedores

Com essa funcionalidade, empresas que desenvolvem agentes conversacionais ou sistemas automatizados ganham maior controle sobre a qualidade das interações, reduzindo falhas causadas por chamadas incorretas de ferramentas. Isso melhora a experiência do usuário, otimiza processos internos e reduz custos operacionais relacionados a erros e suporte.

A disponibilidade de uma solução gerenciada e escalável no SageMaker AI torna o processo de fine-tuning mais acessível, permitindo que equipes foquem em melhorar a lógica e o desempenho dos agentes, sem se preocupar com a complexidade da infraestrutura.

Preços e limites

Os custos associados ao uso do SageMaker AI para notebooks e jobs de treinamento variam conforme a configuração das instâncias e o tempo de uso. A AWS disponibiliza uma página detalhada com a tabela de preços do SageMaker AI. É importante verificar também as cotas de serviço para garantir a disponibilidade das instâncias necessárias, que podem ser consultadas no AWS Service Quotas.