Voltar para artigos
Notícias de Tecnologia

Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

19 de junho de 2026
08:39
modelosmultilingueembeddingragbuscaliquid-aicolbert
Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

A Liquid AI — startup fundada por ex-pesquisadores do MIT e conhecida por sua arquitetura alternativa aos transformers — acaba de lançar dois novos modelos de embedding que prometem busca multilíngue ultrarrápida em 11 idiomas, incluindo o português.

Dois modelos, um backbone

Os LFM2.5-Embedding-350M e LFM2.5-ColBERT-350M compartilham o mesmo backbone de 350 milhões de parâmetros, baseado na arquitetura LFM2.5 da Liquid AI. A diferença está na forma como representam o texto:

  • Embedding (Bi-Encoder Denso): Converte cada documento em um único vetor de 1024 dimensões. Ideal para busca rápida com o menor índice possível. Escolha quando velocidade e custo de armazenamento são prioridade.

  • ColBERT (Late-Interaction): Converte cada token em um vetor de 128 dimensões, permitindo comparação palavra por palavra entre consulta e documento. Oferece precisão superior e melhor generalização, com o trade-off de um índice maior. Também pode ser usado como reranker.

Ambos os modelos são voltados para busca de contexto curto, como catálogos de produtos, bases de conhecimento FAQ e documentação de suporte — um encaixe natural para pipelines RAG (Retrieval-Augmented Generation).

Arquitetura bidirecional adaptada

O ponto de partida é o checkpoint LFM2.5-350M-Base, um modelo de uso geral que a Liquid AI adaptou com patches bidirecionais. Originalmente, a arquitetura LFM2 é causal (cada token olha apenas para o passado), o que funciona para geração de texto, mas não é ideal para recuperação de informação.

A equipe substituiu a máscara de atenção causal por uma bidirecional, permitindo que cada token atenda ao contexto tanto à esquerda quanto à direita. As convoluções curtas também foram tornadas não-causais, misturando informações locais simetricamente ao redor de cada token.

O resultado: 17 camadas (10 de convolução, 6 de atenção e 1 de pooling/densa), contexto de até 32.768 tokens e documentos afinados para 512 tokens — preservando a eficiência do backbone LFM2 enquanto produz as representações de contexto completo que a recuperação exige.

Resultados em 11 idiomas

Os modelos foram avaliados em dois benchmarks:

  • NanoBEIR: recuperação multilíngue
  • MKQA-11: QA cross-lingual de domínio aberto

Ambos cobrem 11 idiomas: árabe, alemão, inglês, espanhol, francês, italiano, japonês, coreano, norueguês, português e sueco.

O ColBERT lidera em ambas as médias, com 0,605 no NanoBEIR (melhoria significativa sobre os 0,540 do LFM2-ColBERT-350M anterior). O Embedding chega perto no MKQA-11, com 0,691. Ambos superam o Qwen3-Embedding-0.6B, um modelo maior.

Latência e deploy

A Liquid AI disponibilizou variantes GGUF para llama.cpp, permitindo execução em CPUs, laptops e dispositivos edge. Em uma MacBook Pro M4 Max (FP16), a latência mediana de consulta fica abaixo de 10 ms para embeddings pré-computados. Em GPUs H100 (FP16), as latências chegam a 1 ms.

Para uso via Python, o Embedding roda com sentence-transformers e o ColBERT com PyLate, incluindo índice PLAID com FastPLAID para busca eficiente de similaridade. Ambos suportam fine-tuning com dados próprios.

Disponibilidade

Os modelos estão disponíveis no Hugging Face sob os identificadores LiquidAI/LFM2.5-Embedding-350M e LiquidAI/LFM2.5-ColBERT-350M. A Liquid AI recomenda o Embedding para pipelines RAG que priorizam custo e velocidade, e o ColBERT quando a precisão é o fator decisivo — especialmente em cenários cross-lingual onde a interação tardia captura nuances que embeddings densos podem perder.

Leia também