AWS lança instâncias G7e com GPU NVIDIA RTX PRO 6000 Blackwell para acelerar IA generativa no SageMaker AI

Apresentação das instâncias G7e para Amazon SageMaker AI

A Amazon Web Services (AWS) anunciou a disponibilidade das instâncias G7e para o Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Essas novas instâncias trazem um salto significativo em memória, desempenho e custo-benefício para workloads de inferência em inteligência artificial generativa.

Configurações e capacidades técnicas das instâncias G7e

As instâncias G7e podem ser provisionadas com 1, 2, 4 ou 8 GPUs RTX PRO 6000, cada uma com 96 GB de memória GDDR7. Esse volume de memória por GPU é o dobro do oferecido pela geração anterior G6e, permitindo rodar modelos de linguagem de grande porte (LLMs) em configurações de nó único, reduzindo a complexidade operacional e a latência entre múltiplas GPUs.

G7e.2xlarge: 1 GPU, ideal para modelos de até 35 bilhões de parâmetros em FP16.
G7e.24xlarge: 4 GPUs, suporta modelos de até 150 bilhões de parâmetros.
G7e.48xlarge: 8 GPUs, para modelos de até 300 bilhões de parâmetros e até 768 GB de memória agregada.

Além disso, as instâncias oferecem até 1.600 Gbps de throughput de rede, com suporte a Elastic Fabric Adapter (EFA) para comunicação de baixa latência entre nós.

Vantagens em desempenho e custo

Comparadas às instâncias G6e, as G7e apresentam um aumento de até 2,3 vezes na performance de inferência. A largura de banda de memória por GPU subiu para 1.597 GB/s, praticamente o dobro da geração anterior. Isso se traduz em melhor escalabilidade para workloads de inferência, especialmente em modelos grandes e multimodais.

Em benchmarks com o modelo Qwen3-32B, as instâncias G7e.2xlarge, mesmo com apenas uma GPU, alcançaram um custo por milhão de tokens gerados 2,6 vezes menor do que as G6e.12xlarge (4 GPUs), devido ao menor preço por hora e à eficiência no processamento paralelo, que elimina overheads de sincronização entre GPUs.

Casos de uso indicados para as instâncias G7e

Chatbots e IA conversacional: baixa latência e alta taxa de transferência garantem respostas rápidas mesmo sob alta concorrência.
Workflows agentic e RAG (Retrieval Augmented Generation): maior largura de banda CPU-GPU acelera a injeção rápida de contexto.
Geração de texto, sumarização e inferência com contexto longo: grande memória para caches de chaves-valor, suportando documentos extensos.
Modelos multimodais e geração de imagens: memória ampliada evita erros por falta de memória em modelos maiores.
IA física e computação científica: suporte a FP4, núcleos RT de 4ª geração e DLSS 4.0 para simulações 3D e digitais twins.

Como acessar e começar a usar as instâncias G7e no SageMaker AI

Para utilizar as instâncias G7e, é necessário:

Possuir uma conta ativa na AWS.
Ter uma função IAM com permissões para acessar o Amazon SageMaker AI. Consulte Identity and Access Management for Amazon SageMaker AI.
Utilizar o Amazon SageMaker Studio, uma instância notebook SageMaker ou um IDE compatível para desenvolvimento.
Solicitar aumento de cota para instâncias ml.g7e.2xlarge ou superiores via console de Service Quotas, se necessário.

Um notebook de exemplo para deploy e testes está disponível no repositório oficial da AWS em GitHub - SageMaker GenAI Hosting Examples.

Preço e economia com as novas instâncias

As instâncias G7e são cobradas conforme o modelo padrão de inferência do Amazon SageMaker AI, sem taxas adicionais por token ou requisição. O custo por hora da instância ml.g7e.2xlarge é de aproximadamente US$ 4,20 (preço on-demand na região US East - N. Virginia), frente a US$ 13,12 da ml.g6e.12xlarge, demonstrando o potencial de redução de custos.

Além disso, o programa Amazon SageMaker Savings Plans pode proporcionar descontos de até 64% para quem assume compromisso de uso consistente, ideal para ambientes de produção com tráfego previsível.

O impacto da combinação G7e com EAGLE para inferência acelerada

Ao combinar as instâncias G7e com a técnica de decodificação especulativa EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) do SageMaker AI, a taxa de transferência pode ser melhorada em até 2,4 vezes, com redução de custo de até 75% em relação à geração anterior.

A decodificação especulativa permite gerar múltiplos tokens em uma única passagem, mantendo a qualidade do output, e se beneficia diretamente do aumento de largura de banda e memória das GPUs Blackwell.

Recomendações para limpeza após testes

Para evitar cobranças desnecessárias, recomenda-se deletar os endpoints criados no SageMaker AI após os testes, seja pelo console ou pela SDK Python, conforme orientações do Amazon SageMaker AI Developer Guide. Também é importante remover os artefatos gerados pelo EAGLE no Amazon S3.