Google DeepMind lança Gemma 4 no Amazon Bedrock com três variantes incluindo arquitetura MoE

A família de modelos Gemma 4, construída pelo Google DeepMind, já está disponível no Amazon Bedrock. Anunciados sob licença Apache 2.0 (código aberto), os modelos focam em inteligência por parâmetro em uma ampla gama de cenários de implantação.

Três variantes para diferentes necessidades

A família Gemma 4 inclui três variantes com instrução ajustada:

Modelo	Arquitetura	Parâmetros (total/ativos)	Contexto
Gemma 4 31B	Densa	30,7B	256K tokens
Gemma 4 26B-A4B	Mixture-of-Experts (MoE)	25,2B / 3,8B ativos	256K tokens
Gemma 4 E2B	Densa (PLE)	5,1B / 2,3B efetivos	128K tokens

Destaques de cada variante

Gemma 4 31B: a maior variante densa, recomendada para tarefas pesadas de raciocínio e código. Alcançou um Intelligence Index de 39 no benchmark Artificial Analysis, contra uma mediana de 15 na classe de modelos abertos de 4B a 40B.
Gemma 4 26B-A4B: usa arquitetura Mixture-of-Experts com apenas 3,8 bilhões de parâmetros ativos por token, oferecendo custo e latência de modelo de ~4B com conhecimento de modelo grande. Ideal para alto throughput com orçamento controlado.
Gemma 4 E2B: a menor e mais rápida, usa Per-Layer Embeddings (PLE) para manter apenas 2,3 bilhões de parâmetros efetivos. Recomendada para cenários sensíveis a latência.Importante: requer reasoning_effort=high para melhores resultados.

Capacidades nativas

Todos os três modelos compartilham:
- Modo de raciocínio (reasoning): emite um processo de pensamento interno antes da resposta final
- Chamada de função nativa: structured tool calling integrado
- Multimodalidade: entrada de texto + imagem
- Atenção híbrida: atenção local e global intercalada para suporte a contextos longos

Acesso via API compatível com OpenAI

O Amazon Bedrock expõe os modelos através do endpoint bedrock-mantle, compatível com os SDKs OpenAI Python/TypeScript:

from openai import OpenAI

client = OpenAI(
    api_key="<sua-chave-de-api-do-bedrock>",
    base_url="https://bedrock-mantle.us-east-1.api.aws/openai/v1";,
)

response = client.chat.completions.create(
    model="google.gemma-4-31b",
    messages=[{"role": "user", "content": "Projete um microserviço Python..."}],
)

O motor de inferência é isolado com zero acesso do operador e o conteúdo dos clientes não é usado para treinar modelos.

Disponibilidade

Os modelos estão disponíveis nas regiões: US East (N. Virginia), US East (Ohio), US West (Oregon) e Europe (Frankfurt), nos tiers Standard, Priority e Flex.