Mistral lança modelo open-source para geração de voz que roda em smartwatches e smartphones

Nova solução de voz da Mistral é leve, rápida e multilíngue

A empresa francesa de inteligência artificial Mistral apresentou um novo modelo open-source para geração de fala, chamado Voxtral TTS. Voltado para assistentes de voz e aplicações empresariais como suporte ao cliente e agentes de vendas, o modelo traz inovação ao conseguir rodar em dispositivos de borda, como smartwatches, smartphones e laptops, com alto desempenho e baixo custo.

Recursos e funcionalidades do Voxtral TTS

Suporte a nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe;
Capacidade de adaptação a uma voz personalizada com apenas cinco segundos de amostra;
Captura de nuances vocais, como sotaques, inflexões, entonações e irregularidades naturais da fala;
Transição fluida entre idiomas mantendo características vocais, ideal para dublagem e tradução em tempo real;
Baixo tempo para início da fala (TTFA) de 90ms para um trecho de 10 segundos com 500 caracteres;
Fator de tempo real (RTF) de 6x, permitindo gerar 10 segundos de áudio em aproximadamente 1,6 segundos.

Para quem é indicado e como acessar

O Voxtral TTS é direcionado a empresas que desejam montar agentes de voz para vendas, atendimento e outras interações com clientes, oferecendo uma alternativa open-source aos modelos proprietários de concorrentes como ElevenLabs, Deepgram e OpenAI. A Mistral aposta na facilidade de customização e no custo reduzido para atrair adoção corporativa.

Imagem relacionada ao artigo de TechCrunch AI — Imagem de apoio da materia original.

Por ser open-source, o modelo pode ser acessado e adaptado por desenvolvedores e empresas diretamente nos repositórios oficiais da Mistral. O modelo é baseado no Ministral 3B, que oferece alta qualidade e desempenho.

Impacto prático e próximos passos da Mistral

Além do Voxtral TTS, a Mistral lançou anteriormente dois modelos de transcrição, um para processamento em lote e outro para uso em tempo real com baixa latência. A empresa planeja evoluir para uma plataforma completa e multimodal, capaz de processar e gerar áudio, texto e imagens, ampliando as possibilidades de agentes inteligentes.

Segundo Pierre Stock, vice-presidente de operações científicas da Mistral, a meta é que o sistema seja capaz de entender e interagir com múltiplos tipos de dados simultaneamente, aumentando a eficiência e qualidade das interações automatizadas.

Mistral lança modelo open-source para geração de voz que roda em smartwatches e smartphones

Nova solução de voz da Mistral é leve, rápida e multilíngue

Recursos e funcionalidades do Voxtral TTS

Para quem é indicado e como acessar

Impacto prático e próximos passos da Mistral

Links úteis

Leia também

Tokenpocalypse: o desafio dos custos e preços na era das grandes empresas de IA

Nova ferramenta de IA identifica tráfico ilegal de cavalos-marinhos e barbatanas de tubarão

Laboratórios Chineses de Peptídeos Financiados por Criptomoedas Crescem Rapidamente

Prefeito de Shelbyville, Indiana, gera polêmica ao criticar moradores contrários a data center bilionário