Mistral lança modelo open-source para geração de voz que roda em smartwatches e smartphones

Nova solução de voz da Mistral é leve, rápida e multilíngue
A empresa francesa de inteligência artificial Mistral apresentou um novo modelo open-source para geração de fala, chamado Voxtral TTS. Voltado para assistentes de voz e aplicações empresariais como suporte ao cliente e agentes de vendas, o modelo traz inovação ao conseguir rodar em dispositivos de borda, como smartwatches, smartphones e laptops, com alto desempenho e baixo custo.
Recursos e funcionalidades do Voxtral TTS
- Suporte a nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe;
- Capacidade de adaptação a uma voz personalizada com apenas cinco segundos de amostra;
- Captura de nuances vocais, como sotaques, inflexões, entonações e irregularidades naturais da fala;
- Transição fluida entre idiomas mantendo características vocais, ideal para dublagem e tradução em tempo real;
- Baixo tempo para início da fala (TTFA) de 90ms para um trecho de 10 segundos com 500 caracteres;
- Fator de tempo real (RTF) de 6x, permitindo gerar 10 segundos de áudio em aproximadamente 1,6 segundos.
Para quem é indicado e como acessar
O Voxtral TTS é direcionado a empresas que desejam montar agentes de voz para vendas, atendimento e outras interações com clientes, oferecendo uma alternativa open-source aos modelos proprietários de concorrentes como ElevenLabs, Deepgram e OpenAI. A Mistral aposta na facilidade de customização e no custo reduzido para atrair adoção corporativa.

Por ser open-source, o modelo pode ser acessado e adaptado por desenvolvedores e empresas diretamente nos repositórios oficiais da Mistral. O modelo é baseado no Ministral 3B, que oferece alta qualidade e desempenho.
Impacto prático e próximos passos da Mistral
Além do Voxtral TTS, a Mistral lançou anteriormente dois modelos de transcrição, um para processamento em lote e outro para uso em tempo real com baixa latência. A empresa planeja evoluir para uma plataforma completa e multimodal, capaz de processar e gerar áudio, texto e imagens, ampliando as possibilidades de agentes inteligentes.
Segundo Pierre Stock, vice-presidente de operações científicas da Mistral, a meta é que o sistema seja capaz de entender e interagir com múltiplos tipos de dados simultaneamente, aumentando a eficiência e qualidade das interações automatizadas.