Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

A Liquid AI — startup fundada por ex-pesquisadores do MIT e conhecida por sua arquitetura alternativa aos transformers — acaba de lançar dois novos modelos de embedding que prometem busca multilíngue ultrarrápida em 11 idiomas, incluindo o português.
Dois modelos, um backbone
Os LFM2.5-Embedding-350M e LFM2.5-ColBERT-350M compartilham o mesmo backbone de 350 milhões de parâmetros, baseado na arquitetura LFM2.5 da Liquid AI. A diferença está na forma como representam o texto:
-
Embedding (Bi-Encoder Denso): Converte cada documento em um único vetor de 1024 dimensões. Ideal para busca rápida com o menor índice possível. Escolha quando velocidade e custo de armazenamento são prioridade.
-
ColBERT (Late-Interaction): Converte cada token em um vetor de 128 dimensões, permitindo comparação palavra por palavra entre consulta e documento. Oferece precisão superior e melhor generalização, com o trade-off de um índice maior. Também pode ser usado como reranker.
Ambos os modelos são voltados para busca de contexto curto, como catálogos de produtos, bases de conhecimento FAQ e documentação de suporte — um encaixe natural para pipelines RAG (Retrieval-Augmented Generation).
Arquitetura bidirecional adaptada
O ponto de partida é o checkpoint LFM2.5-350M-Base, um modelo de uso geral que a Liquid AI adaptou com patches bidirecionais. Originalmente, a arquitetura LFM2 é causal (cada token olha apenas para o passado), o que funciona para geração de texto, mas não é ideal para recuperação de informação.
A equipe substituiu a máscara de atenção causal por uma bidirecional, permitindo que cada token atenda ao contexto tanto à esquerda quanto à direita. As convoluções curtas também foram tornadas não-causais, misturando informações locais simetricamente ao redor de cada token.
O resultado: 17 camadas (10 de convolução, 6 de atenção e 1 de pooling/densa), contexto de até 32.768 tokens e documentos afinados para 512 tokens — preservando a eficiência do backbone LFM2 enquanto produz as representações de contexto completo que a recuperação exige.
Resultados em 11 idiomas
Os modelos foram avaliados em dois benchmarks:
- NanoBEIR: recuperação multilíngue
- MKQA-11: QA cross-lingual de domínio aberto
Ambos cobrem 11 idiomas: árabe, alemão, inglês, espanhol, francês, italiano, japonês, coreano, norueguês, português e sueco.
O ColBERT lidera em ambas as médias, com 0,605 no NanoBEIR (melhoria significativa sobre os 0,540 do LFM2-ColBERT-350M anterior). O Embedding chega perto no MKQA-11, com 0,691. Ambos superam o Qwen3-Embedding-0.6B, um modelo maior.
Latência e deploy
A Liquid AI disponibilizou variantes GGUF para llama.cpp, permitindo execução em CPUs, laptops e dispositivos edge. Em uma MacBook Pro M4 Max (FP16), a latência mediana de consulta fica abaixo de 10 ms para embeddings pré-computados. Em GPUs H100 (FP16), as latências chegam a 1 ms.
Para uso via Python, o Embedding roda com sentence-transformers e o ColBERT com PyLate, incluindo índice PLAID com FastPLAID para busca eficiente de similaridade. Ambos suportam fine-tuning com dados próprios.
Disponibilidade
Os modelos estão disponíveis no Hugging Face sob os identificadores LiquidAI/LFM2.5-Embedding-350M e LiquidAI/LFM2.5-ColBERT-350M. A Liquid AI recomenda o Embedding para pipelines RAG que priorizam custo e velocidade, e o ColBERT quando a precisão é o fator decisivo — especialmente em cenários cross-lingual onde a interação tardia captura nuances que embeddings densos podem perder.



