Voltar para o blog
Machine Learning

Falcon Perception: Transformer de Fusão Antecipada Revoluciona Segmentação e Compreensão Visual

1 de abril de 2026
04:24
Deep LearningBenchmarkHugging Facemachine learningvisão computacionalOCRFalcon PerceptionTransformerSegmentação
Falcon Perception: Transformer de Fusão Antecipada Revoluciona Segmentação e Compreensão Visual

Falcon Perception: Uma Nova Arquitetura para Sistemas de Percepção Visual

O Falcon Perception é um modelo Transformer com 0,6 bilhão de parâmetros desenvolvido para unificar percepção visual e compreensão de linguagem natural em uma única arquitetura de fusão antecipada (early fusion). Publicado pela equipe do TII UAE e disponibilizado na plataforma Hugging Face, esse sistema representa um avanço significativo em segmentação aberta e grounding a partir de prompts em linguagem natural.

O Problema dos Sistemas Modulares em Percepção

Tradicionalmente, sistemas de percepção visual de vocabulário aberto são construídos como pipelines modulares: um backbone visual extrai características, um estágio de fusão ou decodificação combina essas informações com linguagem, e componentes adicionais realizam o pós-processamento. Embora eficazes, esses pipelines enfrentam desafios para escalar, atribuir melhorias a componentes específicos e evitar o acúmulo de complexidade.

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

O Falcon Perception questiona essa abordagem e propõe que um único backbone Transformer com uma máscara de atenção híbrida possa lidar simultaneamente com percepção e modelagem de linguagem, simplificando a arquitetura e facilitando o treinamento.

Arquitetura Inovadora: Fusão Antecipada e Atenção Híbrida

O modelo processa sequências unificadas que combinam patches de imagem, tokens de texto e tokens de tarefa. A atenção híbrida permite que os tokens de imagem tenham atenção bidirecional para construir contexto visual global, enquanto tokens de texto e tarefa atendem causalmente para suportar geração autoregressiva. Essa configuração permite que o backbone funcione como um codificador visual bidirecional e, ao mesmo tempo, realize previsões sequenciais para tarefas específicas.

Interface de Saída e Chain-of-Perception

Para lidar com a natureza variável da percepção densa (que pode envolver desde nenhuma até centenas de instâncias), o Falcon Perception utiliza uma interface estruturada chamada Chain-of-Perception, que divide a predição de cada objeto em três etapas sequenciais:

  • <coord>: predição do centro do objeto;
  • <size>: extensão espacial do objeto;
  • <seg>: token que, combinado com recursos da imagem, gera a máscara de segmentação em alta resolução.

Essa abordagem reduz ambiguidades e otimiza a geração das máscaras condicionadas à geometria já definida.

Decodificação Especializada com Baixo Overhead

O backbone é compartilhado, mas utiliza cabeças especializadas para diferentes tipos de saída. As cabeças de coordenadas e tamanho usam codificação por Fourier para mapear coordenadas contínuas em um espaço sinusoidal de alta dimensão, melhorando a precisão. A cabeça de segmentação realiza um produto escalar entre o token <seg> e recursos da imagem, eliminando a necessidade de mecanismos complexos de consulta e correspondência usados em outras arquiteturas.

PBench: Benchmark Diagnóstico para Avaliar Capacidades Específicas

Para superar limitações de benchmarks saturados como RefCOCO, o Falcon Perception introduz o PBench, que segmenta amostras por tipo de capacidade exigida:

  • L0: objetos simples;
  • L1: atributos e subtipos;
  • L2: identificação guiada por OCR;
  • L3: compreensão espacial;
  • L4: relações e interações;
  • Dense: cenas muito densas com centenas de instâncias.

Essa divisão permite um perfil detalhado de desempenho e direciona melhorias específicas em dados, treinamento ou arquitetura.

Treinamento Robusto com Multi-Teacher Distillation e Dados em Larga Escala

O treinamento do Falcon Perception segue uma receita em três estágios, iniciando com uma distilação multi-professor que combina dois modelos visionários:

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.
  • DINOv3 (ViT-H): para recursos locais fortes;
  • SigLIP2: para alinhamento com linguagem e compreensão aberta.

O conjunto de dados inclui 54 milhões de imagens, 195 milhões de expressões positivas e 488 milhões de negativos difíceis, com balanceamento 1:1 entre positivos e negativos para calibrar presença de forma precisa.

Os estágios de treinamento são:

  1. Listagem em contexto: aprendizado autoregressivo para inventário da cena;
  2. Alinhamento de tarefa: foco em classificação de presença e localização;
  3. Fine-tuning para contexto longo: adaptação para cenas densas com até 600 tokens.

Resultados de Destaque e Comparações

No benchmark SA-Co de segmentação de vocabulário aberto, o Falcon Perception alcança 68,0 Macro-F1, superando o SAM 3 (62,3). Os maiores ganhos são em atributos (+8,2 pontos), alimentos e bebidas (+12,2) e equipamentos esportivos (+4,0). A calibração de presença ainda é um ponto a melhorar (MCC 0,64 vs. 0,82 do SAM 3).

Em PBench, o Falcon Perception apresenta vantagem crescente conforme a complexidade do prompt aumenta, com melhorias expressivas em OCR, entendimento espacial e raciocínio relacional, além de escalar bem para cenas com centenas de objetos, onde modelos com decodificador de consultas fixas esgotam seus recursos.

Exemplos Qualitativos

  • OCR-Guided Grounding: identifica textos em objetos para desambiguação;
  • Compreensão Espacial: resolve restrições espaciais complexas;
  • Raciocínio Relacional: reconhece interações e relações entre objetos;
  • Cenas Densas: segmenta centenas de instâncias autoregressivamente.

Falcon OCR: Aplicação para Reconhecimento Óptico de Caracteres

Além da percepção visual geral, a equipe desenvolveu o Falcon OCR, uma variante com 0,3 bilhão de parâmetros treinada do zero para reconhecimento de texto em documentos complexos. Utilizando a mesma arquitetura de fusão antecipada, o Falcon OCR é otimizado para lidar com layouts multi-coluna, fórmulas matemáticas, tabelas, gráficos e conteúdo multilíngue.

O treinamento abrange textos digitais, manuscritos, fórmulas científicas e amostras sintéticas, com objetivo de predição de próximo token em saídas textuais estruturadas. Nos benchmarks olmOCR e OmniDocBench, o Falcon OCR alcança 80,3 e 88,6 pontos respectivamente, além de apresentar a maior taxa de processamento entre modelos OCR open source.

Disponibilidade e Recursos para Desenvolvedores

O Falcon Perception e Falcon OCR estão disponíveis no repositório oficial no GitHub e na plataforma Hugging Face. Desenvolvedores podem acessar documentação detalhada em Hugging Face Docs e experimentar os modelos via integração com MLX (repositório MLX).

Para participar da comunidade ou obter planos comerciais, é possível realizar cadastro em Hugging Face Sign Up e consultar preços em Pricing.

Links úteis