AWS lança inferência desagregada com llm-d para otimizar desempenho e custo em LLMs

Inferência desagregada na AWS: inovação para modelos de linguagem em larga escala
A AWS anunciou a integração da tecnologia llm-d, um framework open source nativo para Kubernetes, que traz capacidades avançadas de inferência desagregada para modelos de linguagem grandes (LLMs). Essa novidade permite separar as fases de inferência — prefill e decode — otimizando o uso de recursos, melhorando a performance e reduzindo custos para cargas de trabalho de inferência em larga escala.
Desafios da inferência em LLMs e a proposta do llm-d
Modelos de linguagem modernos geram cadeias de raciocínio complexas que demandam até 10 vezes mais tokens e processamento do que respostas simples. Além disso, workflows agentic introduzem demandas altamente variáveis, aumentando exponencialmente o processamento necessário e impactando a experiência do usuário.
A inferência em LLMs ocorre em duas fases distintas: prefill, que é intensiva em computação e processa o prompt inicial em paralelo para criar o cache de chaves e valores (KV cache); e decode, que é limitada por largura de banda de memória, gerando tokens um a um e acessando pesos do modelo e o cache crescente.
Tradicionalmente, essas fases compartilham o mesmo hardware, o que impede otimizações específicas e leva a uso ineficiente dos GPUs, seja por sobrecarga ou subutilização.
O llm-d resolve isso com a arquitetura de disaggregated serving, que distribui e otimiza cada fase em recursos dedicados, apoiado por tecnologias como AWS Elastic Fabric Adapter (EFA) e bibliotecas específicas para comunicação de alta performance.
Principais inovações do llm-d na AWS
- Inferência desagregada: separa prefill e decode, permitindo dimensionar cada fase conforme a demanda e usar hardwares otimizados para cada perfil de carga.
- Agendamento inteligente de requisições: o scheduler do llm-d mantém visibilidade do estado do KV cache distribuído e roteia as requisições para servidores que já possuem o contexto relevante, aumentando a eficiência e reduzindo latência.
- Paralelismo especializado para modelos Mixture-of-Experts (MoE): distribui especialistas horizontalmente, reduzindo latência e aumentando throughput em modelos complexos como DeepSeek-R1 e Qwen3.5.
- Cache em múltiplos níveis: amplia o cache KV para além da memória GPU, usando memória CPU ou disco local, garantindo maior reutilização e desempenho.
Arquitetura e integração com serviços AWS
O llm-d é integrado ao Amazon SageMaker HyperPod e ao Amazon Elastic Kubernetes Service (EKS), aproveitando clusters Kubernetes otimizados para alta performance e resiliência. A comunicação entre GPUs e nós usa tecnologias como NVLink, NVSwitch e a biblioteca NVIDIA Inference Xfer Library (NIXL), que habilita transferências ponto a ponto de KV cache via RDMA, minimizando a latência.
Além disso, o NIXL conta com um plugin libfabric que suporta diretamente o EFA da AWS, garantindo rede de baixa latência e alta largura de banda entre os nós de inferência.
O sistema conta ainda com o Inference Gateway, que gerencia o agendamento inteligente e o roteamento das requisições com base no estado do cache e na carga dos servidores.
Benefícios práticos para clientes AWS
- Melhora significativa no tempo para o primeiro token (TTFT) e throughput, especialmente em workloads com prompts longos e modelos grandes.
- Uso eficiente dos recursos GPU, com possibilidade de escalar prefill e decode separadamente conforme o perfil da carga.
- Suporte avançado para modelos MoE, que demandam paralelismo e comunicação complexos.
- Monitoramento integrado via dashboards do SageMaker HyperPod para métricas como utilização de GPU, EFA e erros, permitindo otimização proativa.
Como começar a usar llm-d na AWS
Para implementar a inferência desagregada com llm-d, é necessário:
- Ter configurado o AWS CLI, kubectl, Helmfile e uma conta na HuggingFace para token de acesso.
- Acessar um cluster Amazon SageMaker HyperPod ou Amazon EKS.
- Instalar o Gateway Inference API Extension com as Custom Resource Definitions (CRDs) e implementações como Istio ou Kgateway.
- Clonar o repositório llm-d e seguir os guias de instalação e deployment disponíveis em GitHub llm-d.
- Utilizar a imagem docker oficial com bibliotecas AWS:
ghcr.io/llm-d/llm-d-aws:v0.5.1.
Considerações finais e recomendações
A inferência desagregada é especialmente recomendada para modelos grandes, entradas longas e arquiteturas MoE esparsas. Workloads com saída curta e entrada longa são prefill-heavy e podem se beneficiar mais do escalonamento separado dos pods prefill.
O projeto llm-d está em desenvolvimento contínuo, adicionando novas estratégias e melhorias para hospedar cargas de trabalho LLM de forma eficiente e escalável.