NVIDIA Cosmos 3: O Primeiro Omni-modelo Aberto para IA Física com Raciocínio e Ação

Apresentação do NVIDIA Cosmos 3

A NVIDIA lançou o Cosmos 3, o primeiro omni-modelo aberto que integra geração de mundos, raciocínio físico e geração de ações em um único modelo para aplicações de Inteligência Artificial Física (Physical AI). Disponível hoje na plataforma Hugging Face, o Cosmos 3 representa um avanço significativo nos chamados World Foundation Models (WFMs), simplificando o desenvolvimento de sistemas que simulam e compreendem o mundo físico.

O Que Há de Novo no Cosmos 3?

Diferentemente das versões anteriores, que exigiam múltiplos modelos especializados para tarefas como geração de mundos, compreensão de cenas e políticas de ação, o Cosmos 3 unifica todas essas funções em uma arquitetura baseada em Mixture-of-Transformers (MoT). Isso permite que o mesmo modelo realize, em uma única passagem, a geração de vídeos realistas e fisicamente plausíveis a partir de textos, imagens ou vídeos; o raciocínio sobre propriedades físicas como movimento e causalidade; e a predição de sequências futuras de vídeo e ação.

Imagem relacionada ao artigo de HuggingFace — Imagem de apoio da materia original.

Arquitetura e Modelos Disponíveis

O Cosmos 3 processa múltiplas modalidades — texto, imagem, vídeo, áudio e ação — por meio de codificadores dedicados que projetam os dados para um espaço de representação compartilhado. A sequência de entrada é dividida em subsequências autoregressivas (para raciocínio) e de difusão (para geração), que interagem via atenção conjunta. Essa estrutura permite ao modelo alternar entre funções como gerador de vídeo, modelo de dinâmica e política robótica sem alterar a arquitetura.

Cosmos 3 Nano: modelo com 8 bilhões de parâmetros, otimizado para inferência eficiente em GPUs como RTX PRO 6000. Disponível em Hugging Face.
Cosmos 3 Super: modelo com 32 bilhões de parâmetros, indicado para geração de dados sintéticos em larga escala e pesquisa, rodando em GPUs NVIDIA Hopper e Blackwell. Disponível em Hugging Face.

Principais Capacidades do Cosmos 3

O modelo suporta entradas e saídas multimodais, com aplicações diversas:

Entrada: texto, imagem, vídeo, ação
Saída: vídeo, texto, ação

Por exemplo, pode gerar vídeos a partir de descrições textuais detalhadas, raciocinar sobre vídeos para gerar textos explicativos, ou produzir sequências de ação para robótica e simulações de veículos autônomos.

Exemplo de Prompt para Geração de Vídeo

Para obter vídeos realistas, recomenda-se usar descrições narrativas detalhadas, como:

A cena começa com uma visão interna de um veículo trafegando em uma rodovia de várias faixas sob um céu azul claro. Árvores verdes densas cercam a estrada, criando um ambiente tranquilo. Vários veículos, incluindo um caminhão branco e carros, mantêm velocidade constante. De repente, detritos aparecem na pista, e o veículo precisa ultrapassá-los, causando um solavanco perceptível.

Como Usar Cosmos 3 com a Biblioteca Diffusers

O Cosmos 3 está integrado à biblioteca Diffusers da Hugging Face, facilitando a geração por meio de pipelines simples em Python. Veja um exemplo para geração de imagem a partir de texto com o modelo Cosmos 3 Nano:

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)
prompt = (
    "Um laboratório moderno de pesquisa em robótica, com paredes brancas e piso cinza. "
    "Um braço robótico metálico está montado sobre uma bancada limpa, posicionado acima de objetos coloridos. "
    "Um laptop e ferramentas organizadas estão ao lado. Um monitor grande exibe uma interface de software. "
    "A cena é iluminada por luz fluorescente.")

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Além de texto para imagem, a documentação oferece exemplos para texto para vídeo, imagem para vídeo e outras combinações multimodais.

Conjuntos de Dados Sintéticos para IA Física

Junto com o lançamento, a NVIDIA disponibilizou diversos conjuntos de dados de geração sintética (SDG) para treinamento e avaliação de modelos de IA física, acessíveis via Hugging Face. Entre eles:

Embodied-Robot-Scenes: simulações robóticas
Physical-Interaction-Scenes: simulações físicas com Isaac Sim
Spatial-Reasoning: dados para raciocínio espacial incorporado
Digital-Human-Scenes: movimentos humanos sintéticos
Autonomous-Driving-Scenarios: simulações de direção autônoma
Warehouse-Operations-Scenes: cenários de segurança em armazéns

Cosmos Framework: Treinamento e Implantação

Para facilitar o uso avançado, o Cosmos Framework oferece ferramentas para treinamento pós-lançamento, scripts de inferência e habilidades de agente para acelerar o desenvolvimento. O modelo pode ser adaptado para diferentes robôs, ambientes e tarefas por meio de pós-treinamento, conforme orientações disponíveis no repositório.

Disponibilidade e Preços

Os modelos Cosmos 3 Nano e Super estão disponíveis gratuitamente para acesso via Hugging Face, mediante cadastro em https://huggingface.co/join. O uso comercial e em larga escala pode envolver custos conforme o plano da Hugging Face, detalhado em https://huggingface.co/pricing.