Google DeepMind lança Gemma 4 no Amazon Bedrock com três variantes incluindo arquitetura MoE

A família de modelos Gemma 4, construída pelo Google DeepMind, já está disponível no Amazon Bedrock. Anunciados sob licença Apache 2.0 (código aberto), os modelos focam em inteligência por parâmetro em uma ampla gama de cenários de implantação.
Três variantes para diferentes necessidades
A família Gemma 4 inclui três variantes com instrução ajustada:
| Modelo | Arquitetura | Parâmetros (total/ativos) | Contexto |
|---|---|---|---|
| Gemma 4 31B | Densa | 30,7B | 256K tokens |
| Gemma 4 26B-A4B | Mixture-of-Experts (MoE) | 25,2B / 3,8B ativos | 256K tokens |
| Gemma 4 E2B | Densa (PLE) | 5,1B / 2,3B efetivos | 128K tokens |
Destaques de cada variante
-
Gemma 4 31B: a maior variante densa, recomendada para tarefas pesadas de raciocínio e código. Alcançou um Intelligence Index de 39 no benchmark Artificial Analysis, contra uma mediana de 15 na classe de modelos abertos de 4B a 40B.
-
Gemma 4 26B-A4B: usa arquitetura Mixture-of-Experts com apenas 3,8 bilhões de parâmetros ativos por token, oferecendo custo e latência de modelo de ~4B com conhecimento de modelo grande. Ideal para alto throughput com orçamento controlado.
-
Gemma 4 E2B: a menor e mais rápida, usa Per-Layer Embeddings (PLE) para manter apenas 2,3 bilhões de parâmetros efetivos. Recomendada para cenários sensíveis a latência.Importante: requer
reasoning_effort=highpara melhores resultados.
Capacidades nativas
Todos os três modelos compartilham:
- Modo de raciocínio (reasoning): emite um processo de pensamento interno antes da resposta final
- Chamada de função nativa: structured tool calling integrado
- Multimodalidade: entrada de texto + imagem
- Atenção híbrida: atenção local e global intercalada para suporte a contextos longos
Acesso via API compatível com OpenAI
O Amazon Bedrock expõe os modelos através do endpoint bedrock-mantle, compatível com os SDKs OpenAI Python/TypeScript:
from openai import OpenAI
client = OpenAI(
api_key="<sua-chave-de-api-do-bedrock>",
base_url="https://bedrock-mantle.us-east-1.api.aws/openai/v1",
)
response = client.chat.completions.create(
model="google.gemma-4-31b",
messages=[{"role": "user", "content": "Projete um microserviço Python..."}],
)
O motor de inferência é isolado com zero acesso do operador e o conteúdo dos clientes não é usado para treinar modelos.
Disponibilidade
Os modelos estão disponíveis nas regiões: US East (N. Virginia), US East (Ohio), US West (Oregon) e Europe (Frankfurt), nos tiers Standard, Priority e Flex.