AWS lança inferência desagregada com llm-d para otimizar desempenho e custo em LLMs

Inferência desagregada na AWS: inovação para modelos de linguagem em larga escala

A AWS anunciou a integração da tecnologia llm-d, um framework open source nativo para Kubernetes, que traz capacidades avançadas de inferência desagregada para modelos de linguagem grandes (LLMs). Essa novidade permite separar as fases de inferência — prefill e decode — otimizando o uso de recursos, melhorando a performance e reduzindo custos para cargas de trabalho de inferência em larga escala.

Desafios da inferência em LLMs e a proposta do llm-d

Modelos de linguagem modernos geram cadeias de raciocínio complexas que demandam até 10 vezes mais tokens e processamento do que respostas simples. Além disso, workflows agentic introduzem demandas altamente variáveis, aumentando exponencialmente o processamento necessário e impactando a experiência do usuário.

A inferência em LLMs ocorre em duas fases distintas: prefill, que é intensiva em computação e processa o prompt inicial em paralelo para criar o cache de chaves e valores (KV cache); e decode, que é limitada por largura de banda de memória, gerando tokens um a um e acessando pesos do modelo e o cache crescente.

Tradicionalmente, essas fases compartilham o mesmo hardware, o que impede otimizações específicas e leva a uso ineficiente dos GPUs, seja por sobrecarga ou subutilização.

O llm-d resolve isso com a arquitetura de disaggregated serving, que distribui e otimiza cada fase em recursos dedicados, apoiado por tecnologias como AWS Elastic Fabric Adapter (EFA) e bibliotecas específicas para comunicação de alta performance.

Principais inovações do llm-d na AWS

Inferência desagregada: separa prefill e decode, permitindo dimensionar cada fase conforme a demanda e usar hardwares otimizados para cada perfil de carga.
Agendamento inteligente de requisições: o scheduler do llm-d mantém visibilidade do estado do KV cache distribuído e roteia as requisições para servidores que já possuem o contexto relevante, aumentando a eficiência e reduzindo latência.
Paralelismo especializado para modelos Mixture-of-Experts (MoE): distribui especialistas horizontalmente, reduzindo latência e aumentando throughput em modelos complexos como DeepSeek-R1 e Qwen3.5.
Cache em múltiplos níveis: amplia o cache KV para além da memória GPU, usando memória CPU ou disco local, garantindo maior reutilização e desempenho.

Arquitetura e integração com serviços AWS

O llm-d é integrado ao Amazon SageMaker HyperPod e ao Amazon Elastic Kubernetes Service (EKS), aproveitando clusters Kubernetes otimizados para alta performance e resiliência. A comunicação entre GPUs e nós usa tecnologias como NVLink, NVSwitch e a biblioteca NVIDIA Inference Xfer Library (NIXL), que habilita transferências ponto a ponto de KV cache via RDMA, minimizando a latência.

Além disso, o NIXL conta com um plugin libfabric que suporta diretamente o EFA da AWS, garantindo rede de baixa latência e alta largura de banda entre os nós de inferência.

O sistema conta ainda com o Inference Gateway, que gerencia o agendamento inteligente e o roteamento das requisições com base no estado do cache e na carga dos servidores.

Benefícios práticos para clientes AWS

Melhora significativa no tempo para o primeiro token (TTFT) e throughput, especialmente em workloads com prompts longos e modelos grandes.
Uso eficiente dos recursos GPU, com possibilidade de escalar prefill e decode separadamente conforme o perfil da carga.
Suporte avançado para modelos MoE, que demandam paralelismo e comunicação complexos.
Monitoramento integrado via dashboards do SageMaker HyperPod para métricas como utilização de GPU, EFA e erros, permitindo otimização proativa.

Como começar a usar llm-d na AWS

Para implementar a inferência desagregada com llm-d, é necessário:

Ter configurado o AWS CLI, kubectl, Helmfile e uma conta na HuggingFace para token de acesso.
Acessar um cluster Amazon SageMaker HyperPod ou Amazon EKS.
Instalar o Gateway Inference API Extension com as Custom Resource Definitions (CRDs) e implementações como Istio ou Kgateway.
Clonar o repositório llm-d e seguir os guias de instalação e deployment disponíveis em GitHub llm-d.
Utilizar a imagem docker oficial com bibliotecas AWS: ghcr.io/llm-d/llm-d-aws:v0.5.1.

Considerações finais e recomendações

A inferência desagregada é especialmente recomendada para modelos grandes, entradas longas e arquiteturas MoE esparsas. Workloads com saída curta e entrada longa são prefill-heavy e podem se beneficiar mais do escalonamento separado dos pods prefill.

O projeto llm-d está em desenvolvimento contínuo, adicionando novas estratégias e melhorias para hospedar cargas de trabalho LLM de forma eficiente e escalável.