Arquivo de visao-computacional

Tutoriais20 jun, 20264 min

Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

Este artigo de Kezhan Shi, publicado no Towards Data Science, apresenta uma abordagem inteligente para tornar imagens de PDFs pesquisáveis em sistemas…

Modelos e LLMs12 jun, 20263 min

Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

A Zyphra acaba de abrir o código do Zamba2-VL , uma família de modelos de visão-linguagem (VLMs) que combina camadas state-space Mamba2…

Empresas de IA2 jun, 20264 min

Amazon Nova 2 Lite: Detecção de Objetos Simplificada com Amazon Bedrock e AWS Lambda

Amazon lança Nova 2 Lite para detecção de objetos sem necessidade de treinamento A Amazon anunciou o Amazon Nova 2 Lite, um…

Modelos e LLMs29 abr, 20263 min

SenseTime lança modelo de IA para imagens otimizado para chips chineses e de código aberto

A SenseTime, gigante chinesa de inteligência artificial conhecida por sua tecnologia de reconhecimento facial, lançou recentemente o SenseNova U1, um…

Agentes de IA28 abr, 20263 min

Nvidia lança Nemotron 3 Nano Omni para impulsionar agentes de IA corporativos multimodais

Expansão da Nvidia além do hardware para agentes de IA empresariais A Nvidia anunciou recentemente o lançamento do Nemotron 3 Nano Omni,…

Infraestrutura28 abr, 20264 min

NVIDIA Nemotron 3 Nano Omni: Inteligência Multimodal para Documentos, Áudio e Vídeo em Contextos Longos

A NVIDIA lançou o Nemotron 3 Nano Omni, um modelo de inteligência artificial multimodal projetado para entender e processar documentos complexos,…

Notícias28 abr, 20264 min

Robô Ace supera jogadores de elite no tênis de mesa e avança robótica para ambientes reais

O robô Ace, desenvolvido pela Sony AI, alcançou um marco inédito ao derrotar alguns dos melhores jogadores profissionais de tênis de mesa…

Notícias22 abr, 20262 min

Sony apresenta Ace, robô de tênis de mesa que vence jogadores profissionais

Robô Ace é pioneiro em competir e vencer atletas de elite no tênis de mesa Desenvolvido pela divisão de inteligência artificial da…

Google AI22 abr, 20263 min

Google Photos revoluciona edição com re-composição 3D automática de fotos

O desafio das fotos "quase perfeitas" Quantas vezes você olhou para uma foto no seu celular e desejou ter capturado o momento…

Empresas de IA22 abr, 20265 min

Como rodar a demo Gemma 4 VLA no NVIDIA Jetson Orin Nano Super: guia completo

Apresentação da Gemma 4 VLA no Jetson Orin Nano Super A NVIDIA, em parceria com a Hugging Face, disponibilizou uma demonstração da…

Open Source9 abr, 20265 min

Hugging Face lança modelos multimodais com Sentence Transformers para busca e reranking

A Hugging Face lançou uma atualização importante na biblioteca Sentence Transformers, agora com suporte a modelos multimodais para embedding e…

Open Source2 abr, 20264 min

Gemma 4: A Nova Fronteira da Inteligência Multimodal On-Device da Hugging Face

Apresentação do Gemma 4 e seu impacto na IA multimodal A Hugging Face lançou a família de modelos Gemma 4, desenvolvida pela…