AWS lança instâncias G7e com GPU NVIDIA RTX PRO 6000 Blackwell para acelerar IA generativa no SageMaker AI

Apresentação das instâncias G7e para Amazon SageMaker AI
A Amazon Web Services (AWS) anunciou a disponibilidade das instâncias G7e para o Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Essas novas instâncias trazem um salto significativo em memória, desempenho e custo-benefício para workloads de inferência em inteligência artificial generativa.
Configurações e capacidades técnicas das instâncias G7e
As instâncias G7e podem ser provisionadas com 1, 2, 4 ou 8 GPUs RTX PRO 6000, cada uma com 96 GB de memória GDDR7. Esse volume de memória por GPU é o dobro do oferecido pela geração anterior G6e, permitindo rodar modelos de linguagem de grande porte (LLMs) em configurações de nó único, reduzindo a complexidade operacional e a latência entre múltiplas GPUs.
- G7e.2xlarge: 1 GPU, ideal para modelos de até 35 bilhões de parâmetros em FP16.
- G7e.24xlarge: 4 GPUs, suporta modelos de até 150 bilhões de parâmetros.
- G7e.48xlarge: 8 GPUs, para modelos de até 300 bilhões de parâmetros e até 768 GB de memória agregada.
Além disso, as instâncias oferecem até 1.600 Gbps de throughput de rede, com suporte a Elastic Fabric Adapter (EFA) para comunicação de baixa latência entre nós.
Vantagens em desempenho e custo
Comparadas às instâncias G6e, as G7e apresentam um aumento de até 2,3 vezes na performance de inferência. A largura de banda de memória por GPU subiu para 1.597 GB/s, praticamente o dobro da geração anterior. Isso se traduz em melhor escalabilidade para workloads de inferência, especialmente em modelos grandes e multimodais.
Em benchmarks com o modelo Qwen3-32B, as instâncias G7e.2xlarge, mesmo com apenas uma GPU, alcançaram um custo por milhão de tokens gerados 2,6 vezes menor do que as G6e.12xlarge (4 GPUs), devido ao menor preço por hora e à eficiência no processamento paralelo, que elimina overheads de sincronização entre GPUs.
Casos de uso indicados para as instâncias G7e
- Chatbots e IA conversacional: baixa latência e alta taxa de transferência garantem respostas rápidas mesmo sob alta concorrência.
- Workflows agentic e RAG (Retrieval Augmented Generation): maior largura de banda CPU-GPU acelera a injeção rápida de contexto.
- Geração de texto, sumarização e inferência com contexto longo: grande memória para caches de chaves-valor, suportando documentos extensos.
- Modelos multimodais e geração de imagens: memória ampliada evita erros por falta de memória em modelos maiores.
- IA física e computação científica: suporte a FP4, núcleos RT de 4ª geração e DLSS 4.0 para simulações 3D e digitais twins.
Como acessar e começar a usar as instâncias G7e no SageMaker AI
Para utilizar as instâncias G7e, é necessário:
- Possuir uma conta ativa na AWS.
- Ter uma função IAM com permissões para acessar o Amazon SageMaker AI. Consulte Identity and Access Management for Amazon SageMaker AI.
- Utilizar o Amazon SageMaker Studio, uma instância notebook SageMaker ou um IDE compatível para desenvolvimento.
- Solicitar aumento de cota para instâncias ml.g7e.2xlarge ou superiores via console de Service Quotas, se necessário.
Um notebook de exemplo para deploy e testes está disponível no repositório oficial da AWS em GitHub - SageMaker GenAI Hosting Examples.
Preço e economia com as novas instâncias
As instâncias G7e são cobradas conforme o modelo padrão de inferência do Amazon SageMaker AI, sem taxas adicionais por token ou requisição. O custo por hora da instância ml.g7e.2xlarge é de aproximadamente US$ 4,20 (preço on-demand na região US East - N. Virginia), frente a US$ 13,12 da ml.g6e.12xlarge, demonstrando o potencial de redução de custos.
Além disso, o programa Amazon SageMaker Savings Plans pode proporcionar descontos de até 64% para quem assume compromisso de uso consistente, ideal para ambientes de produção com tráfego previsível.
O impacto da combinação G7e com EAGLE para inferência acelerada
Ao combinar as instâncias G7e com a técnica de decodificação especulativa EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) do SageMaker AI, a taxa de transferência pode ser melhorada em até 2,4 vezes, com redução de custo de até 75% em relação à geração anterior.
A decodificação especulativa permite gerar múltiplos tokens em uma única passagem, mantendo a qualidade do output, e se beneficia diretamente do aumento de largura de banda e memória das GPUs Blackwell.
Recomendações para limpeza após testes
Para evitar cobranças desnecessárias, recomenda-se deletar os endpoints criados no SageMaker AI após os testes, seja pelo console ou pela SDK Python, conforme orientações do Amazon SageMaker AI Developer Guide. Também é importante remover os artefatos gerados pelo EAGLE no Amazon S3.