Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

A Amazon Web Services (AWS) anunciou uma inovação importante para aplicações de inteligência artificial conversacional: a API Bidirectional Streaming do Amazon Polly. Essa novidade permite a síntese de voz em tempo real, com envio e recebimento simultâneo de texto e áudio, revolucionando a experiência de texto para fala (TTS) em sistemas que geram respostas incrementalmente, como assistentes virtuais baseados em modelos de linguagem de grande porte (LLMs).
O que muda com a API Bidirectional Streaming do Amazon Polly
Até então, as APIs tradicionais de TTS seguiam um modelo de requisição e resposta, onde era necessário aguardar o texto completo para iniciar a síntese de voz. O Amazon Polly já permitia o streaming de áudio, mas o envio do texto ainda dependia de ter o conteúdo integral pronto. Isso gerava atrasos, especialmente em aplicações que produzem texto token por token, como os LLMs.
A nova API StartSpeechSynthesisStream rompe essa barreira ao possibilitar:
- Envio incremental de texto: texto pode ser enviado conforme é gerado, sem esperar por sentenças ou parágrafos completos;
- Recebimento imediato do áudio: o áudio sintetizado chega em tempo real, acompanhando a geração do texto;
- Comunicação duplex verdadeira: texto e áudio trafegam simultaneamente pela mesma conexão HTTP/2;
- Controle sobre a síntese: configurações de flush permitem disparar a síntese imediatamente para o texto acumulado.
Quem pode usar e onde acessar
A API é indicada para desenvolvedores de aplicações de IA conversacional, assistentes virtuais, sistemas de tradução em tempo real, IVRs dinâmicos, ferramentas de acessibilidade, jogos com diálogos dinâmicos e legendagem ao vivo, entre outros casos que demandam respostas de voz rápidas e naturais.
Está disponível para uso geral (GA) e pode ser acessada via AWS SDK com suporte para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift. Ainda não há suporte para Python, .NET v3 e algumas versões do AWS CLI e PowerShell.
Para começar, é necessário criar uma conta AWS (veja links úteis abaixo) e atualizar o SDK para a versão que oferece suporte à nova API. A documentação oficial detalha os parâmetros e exemplos de implementação.
Como a API impacta na prática
Benchmark realizado pela AWS com um texto de 7.045 caracteres mostrou que o tempo total de processamento caiu de cerca de 115 segundos para 70 segundos, uma melhoria de 39%. Além disso, o número de chamadas à API foi reduzido de 27 para apenas uma, simplificando a arquitetura e diminuindo custos operacionais.
Essa redução de latência significa que usuários escutam a resposta quase em tempo real, mesmo enquanto o modelo de linguagem ainda está gerando o texto. Isso melhora significativamente a experiência do usuário, tornando as interações mais naturais e engajantes.
Exemplo prático de integração
O uso da API envolve criar um cliente assíncrono do Polly, configurar a solicitação com voz, engine, formato e taxa de amostragem, e depois enviar eventos de texto conforme os tokens são gerados pelo LLM. O áudio é recebido por meio de handlers que processam os pacotes em fluxo contínuo.
Um exemplo em Java mostra como iniciar o stream, enviar fragmentos de texto e fechar a conexão ao final da geração. Também é possível controlar o momento da síntese com a configuração de flush para otimizar qualidade e latência.
Benefícios para negócios e desenvolvedores
- Experiência do usuário aprimorada: menor tempo de espera e respostas mais fluidas;
- Arquitetura simplificada: elimina necessidade de servidores intermediários, lógica de separação de texto e reagrupamento de áudio;
- Redução de custos operacionais: menos chamadas API e infraestrutura mais enxuta;
- Flexibilidade: controle fino sobre o fluxo de síntese para diferentes cenários.
Links úteis para começar
- Documentação da API StartSpeechSynthesisStream
- Criar conta AWS
- Post oficial no AWS ML Blog
- AWS re:Post
Com a API de streaming bidirecional do Amazon Polly, desenvolvedores ganham uma ferramenta poderosa para criar experiências conversacionais mais rápidas, naturais e eficientes. A AWS reforça seu compromisso em facilitar a adoção de IA generativa e tecnologias de voz em aplicações de ponta.