Google lança Gemini 3.1 Flash Live para tornar IA de áudio mais natural e confiável

O Google anunciou o lançamento do Gemini 3.1 Flash Live, seu modelo de áudio e voz mais avançado até o momento, projetado para tornar as interações por voz com inteligência artificial mais naturais, rápidas e precisas. A novidade visa aprimorar a experiência em tempo real, beneficiando desenvolvedores, empresas e usuários finais.
O que é o Gemini 3.1 Flash Live?
Gemini 3.1 Flash Live é um modelo de áudio de alta qualidade que oferece melhor compreensão tonal e menor latência, possibilitando diálogos mais fluidos e naturais. Ele está disponível para desenvolvedores por meio da Gemini Live API no Google AI Studio, para empresas via Gemini Enterprise focado em experiência do cliente, e para o público geral nas plataformas Search Live e Gemini Live, que agora atendem mais de 200 países e territórios.

Avanços técnicos e desempenho
- Precisão e raciocínio robusto: O modelo alcançou 90,8% no ComplexFuncBench Audio, benchmark que avalia a execução de tarefas com múltiplas etapas e restrições.
- Compreensão de instruções complexas: No Scale AI’s Audio MultiChallenge, Gemini 3.1 Flash Live lidera com 36,1% de pontuação, demonstrando habilidade em seguir instruções complexas e raciocínio de longo prazo mesmo com ruídos e hesitações típicas de áudios reais.
- Entendimento tonal aprimorado: Na versão Enterprise, o modelo reconhece nuances acústicas como tom e ritmo, ajustando respostas conforme expressões de frustração ou confusão do usuário.
Aplicações práticas e feedback de mercado
Gemini 3.1 Flash Live permite a criação de agentes de voz capazes de lidar com tarefas complexas mesmo em ambientes ruidosos. Empresas como Verizon, LiveKit e The Home Depot já relataram experiências positivas, destacando a conversa mais natural proporcionada pelo modelo.
Para o usuário comum, o modelo oferece respostas mais rápidas e úteis em conversas que podem se estender por mais tempo, mantendo o contexto e a coerência durante o diálogo no Search Live e Gemini Live. A funcionalidade também é multilíngue, o que possibilitou a expansão global do Search Live para mais de 200 países.
Segurança e prevenção de desinformação
Todo áudio gerado pelo Gemini 3.1 Flash Live é marcado com uma watermark imperceptível chamada SynthID, incorporada diretamente no som. Essa tecnologia permite a detecção confiável de conteúdo gerado por IA, contribuindo para o combate à desinformação.
Como acessar e explorar o Gemini 3.1 Flash Live
- Desenvolvedores: acesso em preview pelo Gemini Live API no Google AI Studio.
- Empresas: utilização via Gemini Enterprise para aprimorar a experiência do cliente.
- Usuários finais: interação por meio das plataformas Search Live e Gemini Live, disponíveis globalmente.
Para saber mais e experimentar o potencial do Gemini 3.1 Flash Live, visite o Google AI Studio.