Falcon Perception: Transformer de Fusão Antecipada Revoluciona Segmentação e Compreensão Visual

Falcon Perception: Uma Nova Arquitetura para Sistemas de Percepção Visual
O Falcon Perception é um modelo Transformer com 0,6 bilhão de parâmetros desenvolvido para unificar percepção visual e compreensão de linguagem natural em uma única arquitetura de fusão antecipada (early fusion). Publicado pela equipe do TII UAE e disponibilizado na plataforma Hugging Face, esse sistema representa um avanço significativo em segmentação aberta e grounding a partir de prompts em linguagem natural.
O Problema dos Sistemas Modulares em Percepção
Tradicionalmente, sistemas de percepção visual de vocabulário aberto são construídos como pipelines modulares: um backbone visual extrai características, um estágio de fusão ou decodificação combina essas informações com linguagem, e componentes adicionais realizam o pós-processamento. Embora eficazes, esses pipelines enfrentam desafios para escalar, atribuir melhorias a componentes específicos e evitar o acúmulo de complexidade.

O Falcon Perception questiona essa abordagem e propõe que um único backbone Transformer com uma máscara de atenção híbrida possa lidar simultaneamente com percepção e modelagem de linguagem, simplificando a arquitetura e facilitando o treinamento.
Arquitetura Inovadora: Fusão Antecipada e Atenção Híbrida
O modelo processa sequências unificadas que combinam patches de imagem, tokens de texto e tokens de tarefa. A atenção híbrida permite que os tokens de imagem tenham atenção bidirecional para construir contexto visual global, enquanto tokens de texto e tarefa atendem causalmente para suportar geração autoregressiva. Essa configuração permite que o backbone funcione como um codificador visual bidirecional e, ao mesmo tempo, realize previsões sequenciais para tarefas específicas.
Interface de Saída e Chain-of-Perception
Para lidar com a natureza variável da percepção densa (que pode envolver desde nenhuma até centenas de instâncias), o Falcon Perception utiliza uma interface estruturada chamada Chain-of-Perception, que divide a predição de cada objeto em três etapas sequenciais:
- <coord>: predição do centro do objeto;
- <size>: extensão espacial do objeto;
- <seg>: token que, combinado com recursos da imagem, gera a máscara de segmentação em alta resolução.
Essa abordagem reduz ambiguidades e otimiza a geração das máscaras condicionadas à geometria já definida.
Decodificação Especializada com Baixo Overhead
O backbone é compartilhado, mas utiliza cabeças especializadas para diferentes tipos de saída. As cabeças de coordenadas e tamanho usam codificação por Fourier para mapear coordenadas contínuas em um espaço sinusoidal de alta dimensão, melhorando a precisão. A cabeça de segmentação realiza um produto escalar entre o token <seg> e recursos da imagem, eliminando a necessidade de mecanismos complexos de consulta e correspondência usados em outras arquiteturas.
PBench: Benchmark Diagnóstico para Avaliar Capacidades Específicas
Para superar limitações de benchmarks saturados como RefCOCO, o Falcon Perception introduz o PBench, que segmenta amostras por tipo de capacidade exigida:
- L0: objetos simples;
- L1: atributos e subtipos;
- L2: identificação guiada por OCR;
- L3: compreensão espacial;
- L4: relações e interações;
- Dense: cenas muito densas com centenas de instâncias.
Essa divisão permite um perfil detalhado de desempenho e direciona melhorias específicas em dados, treinamento ou arquitetura.
Treinamento Robusto com Multi-Teacher Distillation e Dados em Larga Escala
O treinamento do Falcon Perception segue uma receita em três estágios, iniciando com uma distilação multi-professor que combina dois modelos visionários:

- DINOv3 (ViT-H): para recursos locais fortes;
- SigLIP2: para alinhamento com linguagem e compreensão aberta.
O conjunto de dados inclui 54 milhões de imagens, 195 milhões de expressões positivas e 488 milhões de negativos difíceis, com balanceamento 1:1 entre positivos e negativos para calibrar presença de forma precisa.
Os estágios de treinamento são:
- Listagem em contexto: aprendizado autoregressivo para inventário da cena;
- Alinhamento de tarefa: foco em classificação de presença e localização;
- Fine-tuning para contexto longo: adaptação para cenas densas com até 600 tokens.
Resultados de Destaque e Comparações
No benchmark SA-Co de segmentação de vocabulário aberto, o Falcon Perception alcança 68,0 Macro-F1, superando o SAM 3 (62,3). Os maiores ganhos são em atributos (+8,2 pontos), alimentos e bebidas (+12,2) e equipamentos esportivos (+4,0). A calibração de presença ainda é um ponto a melhorar (MCC 0,64 vs. 0,82 do SAM 3).
Em PBench, o Falcon Perception apresenta vantagem crescente conforme a complexidade do prompt aumenta, com melhorias expressivas em OCR, entendimento espacial e raciocínio relacional, além de escalar bem para cenas com centenas de objetos, onde modelos com decodificador de consultas fixas esgotam seus recursos.
Exemplos Qualitativos
- OCR-Guided Grounding: identifica textos em objetos para desambiguação;
- Compreensão Espacial: resolve restrições espaciais complexas;
- Raciocínio Relacional: reconhece interações e relações entre objetos;
- Cenas Densas: segmenta centenas de instâncias autoregressivamente.
Falcon OCR: Aplicação para Reconhecimento Óptico de Caracteres
Além da percepção visual geral, a equipe desenvolveu o Falcon OCR, uma variante com 0,3 bilhão de parâmetros treinada do zero para reconhecimento de texto em documentos complexos. Utilizando a mesma arquitetura de fusão antecipada, o Falcon OCR é otimizado para lidar com layouts multi-coluna, fórmulas matemáticas, tabelas, gráficos e conteúdo multilíngue.
O treinamento abrange textos digitais, manuscritos, fórmulas científicas e amostras sintéticas, com objetivo de predição de próximo token em saídas textuais estruturadas. Nos benchmarks olmOCR e OmniDocBench, o Falcon OCR alcança 80,3 e 88,6 pontos respectivamente, além de apresentar a maior taxa de processamento entre modelos OCR open source.
Disponibilidade e Recursos para Desenvolvedores
O Falcon Perception e Falcon OCR estão disponíveis no repositório oficial no GitHub e na plataforma Hugging Face. Desenvolvedores podem acessar documentação detalhada em Hugging Face Docs e experimentar os modelos via integração com MLX (repositório MLX).
Para participar da comunidade ou obter planos comerciais, é possível realizar cadastro em Hugging Face Sign Up e consultar preços em Pricing.