Mistral lança OCR 4 com bounding boxes, classificação de blocos e suporte a 170 idiomas

A Mistral AI anunciou nesta segunda-feira (23) o lançamento do Mistral OCR 4, a nova geração do seu modelo de reconhecimento óptico de caracteres que agora traz bounding boxes, classificação de blocos e pontuações de confiança inline junto com o texto extraído.
O modelo suporta 170 idiomas em 10 grupos linguísticos, roda em um único contêiner para implantações totalmente auto-hospedadas e serve como componente de ingestão para busca empresarial, RAG (Geração Aumentada por Recuperação) e pipelines de recuperação específicos de domínio.
Destaques do OCR 4
Desempenho de ponta. Anotadores independentes preferiram o OCR 4 sobre todos os principais sistemas de OCR e IA documental testados, com taxas de vitória médias de 72%, além da pontuação geral mais alta no benchmark OlmOCRBench (85,20).
Segmentação, não apenas texto. Junto com o texto extraído, o OCR 4 retorna bounding boxes, classificação de blocos tipados (títulos, tabelas, equações, assinaturas e mais) e pontuações de confiança inline. As bounding boxes, o recurso mais solicitado pelos usuários, localizam o texto para highlighting contextual e pipelines de dados confiáveis.
Integração com Mistral Search Toolkit. O OCR 4 é um componente de ingestão do Search Toolkit, a estrutura de busca open source e componível da Mistral, anunciada no AI Now Summit. Sua saída estruturada fornece entradas prontas para citação aos fluxos de ingestão, recuperação e avaliação do toolkit.
Cobertura multilíngue. Suporte para 170 idiomas em 10 grupos linguísticos, com ganhos mensuráveis em idiomas especializados e de poucos recursos, onde vários sistemas concorrentes apresentam degradação.
Execute na sua própria infraestrutura. O OCR 4 é compacto o suficiente para ser implantado em um único contêiner, mantendo os dados de documentos no ambiente do cliente para residência, soberania e conformidade, ao mesmo tempo que suporta processamento em lote de alto rendimento com excelente custo-benefício.
O que muda na prática
Diferentemente das gerações anteriores, que focavam em converter uma página em texto limpo e tabelas, o OCR 4 retorna uma representação estruturada do documento. Cada bloco é localizado com uma bounding box, classificado por tipo, e pontuações de confiança inline são geradas por página e por palavra.
Isso significa que sistemas downstream têm acesso não apenas ao que o documento diz, mas também a onde cada elemento está posicionado, qual o seu papel e quão confiante o modelo está em cada região. Essa estrutura é essencial para:
- Chunking semântico para RAG: blocos limpos e classificados se tornam melhores unidades de recuperação
- Citações com origem verificada: as bounding boxes permitem vincular respostas às regiões exatas do documento
- Verificação humana assistida: as pontuações de confiança permitem priorizar revisão apenas nas áreas de baixa certeza
Disponibilidade
O OCR 4 está disponível via API da Mistral e como parte do Mistral Search Toolkit em preview público. A implantação auto-gerenciada está disponível para clientes enterprise.



