Holotron-12B: Novo modelo multimodal da H Company otimiza uso computacional com alta eficiência

A H Company lançou o Holotron-12B, um modelo multimodal voltado para agentes de uso computacional, que alia alta escalabilidade e desempenho em produção. Desenvolvido a partir do modelo aberto NVIDIA Nemotron-Nano-2 VL, o Holotron-12B foi pós-treinado com uma mistura proprietária de dados da H Company e está disponível na plataforma Hugging Face.

Objetivo e inovação do Holotron-12B

Diferentemente da maioria dos modelos multimodais atuais, que focam em visão estática ou em seguir instruções, o Holotron-12B tem como principal função atuar como modelo de política para agentes que precisam perceber, decidir e agir em ambientes interativos. A ideia é que ele lide eficientemente com contextos longos contendo múltiplas imagens e ainda mantenha alta performance em benchmarks para agentes.

Imagem relacionada ao artigo de HuggingFace — Imagem de apoio da materia original.

Arquitetura híbrida SSM para alta eficiência de inferência

O avanço no throughput de inferência do Holotron-12B é resultado da arquitetura Nemotron, que combina um modelo de espaço de estado (State-Space Model - SSM) com mecanismos de atenção. Essa arquitetura híbrida supera os modelos baseados exclusivamente em transformers ao otimizar o uso de memória e processamento para contextos longos.

O SSM reduz significativamente o consumo de memória durante a inferência, armazenando apenas um estado constante por camada e sequência gerada, diferente do cache KV dos transformers que cresce com o número de tokens. Isso possibilita maior escalabilidade e eficiência, especialmente em cargas de trabalho multimodais com múltiplas imagens e históricos extensos.

Em testes com o benchmark WebVoyager, que simula um ambiente multimodal real com alta concorrência, o Holotron-12B alcançou um throughput mais que duas vezes superior ao modelo Holo2-8B, rodando em uma GPU H100 e utilizando a versão 0.14.1 do vLLM com otimizações SSM.

Além disso, o Holotron-12B manteve aumento constante do throughput conforme a concorrência subia até 100 workers, atingindo 8.900 tokens por segundo, enquanto o Holo2-8B estabilizou em 5.100 tokens por segundo. Isso demonstra melhor aproveitamento da VRAM e da memória, permitindo lotes maiores e maior eficiência computacional.

Processo de treinamento e avaliação

O treinamento do Holotron-12B ocorreu em duas fases. Partiu-se do modelo base multimodal Nemotron-Nano-12B-v2-VL-BF16 da NVIDIA, seguido de fine-tuning supervisionado com dados proprietários da H Company focados em localização, navegação, entendimento de telas, grounding e interações em nível de interface.

O checkpoint final foi treinado com cerca de 14 bilhões de tokens, garantindo robustez para tarefas de agentes computacionais.

Desempenho em benchmarks de agentes e localização

Nos benchmarks de uso computacional e navegação, o Holotron-12B superou o modelo base Nemotron, alcançando 80,5% de desempenho no WebVoyager, contra 35,1% do Nemotron original e superando o Holo2-8B. Isso evidencia sua efetividade em cenários que exigem percepção e ação integradas.

Também houve ganhos expressivos em benchmarks de localização e grounding, como OS-World-G, GroundUI e WebClick, reforçando sua capacidade de compreender e interagir com interfaces complexas.

Perspectivas e próximos passos

O Holotron-12B prova que a arquitetura Nemotron é uma base sólida para agentes multimodais reais, combinando desempenho e eficiência. A H Company planeja expandir essa linha com o Nemotron 3 Omni, que promete avanços em raciocínio e precisão multimodal, atendendo a demandas comerciais de alta escala para agentes autônomos.

Disponibilidade e acesso

O Holotron-12B está disponível para a comunidade na Hugging Face sob a NVIDIA Open Model License. Interessados podem acessar o modelo, checkpoints e documentação para explorar suas aplicações.