Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

A Amazon Web Services (AWS) anunciou uma inovação importante para aplicações de inteligência artificial conversacional: a API Bidirectional Streaming do Amazon Polly. Essa novidade permite a síntese de voz em tempo real, com envio e recebimento simultâneo de texto e áudio, revolucionando a experiência de texto para fala (TTS) em sistemas que geram respostas incrementalmente, como assistentes virtuais baseados em modelos de linguagem de grande porte (LLMs).

O que muda com a API Bidirectional Streaming do Amazon Polly

Até então, as APIs tradicionais de TTS seguiam um modelo de requisição e resposta, onde era necessário aguardar o texto completo para iniciar a síntese de voz. O Amazon Polly já permitia o streaming de áudio, mas o envio do texto ainda dependia de ter o conteúdo integral pronto. Isso gerava atrasos, especialmente em aplicações que produzem texto token por token, como os LLMs.

A nova API StartSpeechSynthesisStream rompe essa barreira ao possibilitar:

Envio incremental de texto: texto pode ser enviado conforme é gerado, sem esperar por sentenças ou parágrafos completos;
Recebimento imediato do áudio: o áudio sintetizado chega em tempo real, acompanhando a geração do texto;
Comunicação duplex verdadeira: texto e áudio trafegam simultaneamente pela mesma conexão HTTP/2;
Controle sobre a síntese: configurações de flush permitem disparar a síntese imediatamente para o texto acumulado.

Quem pode usar e onde acessar

A API é indicada para desenvolvedores de aplicações de IA conversacional, assistentes virtuais, sistemas de tradução em tempo real, IVRs dinâmicos, ferramentas de acessibilidade, jogos com diálogos dinâmicos e legendagem ao vivo, entre outros casos que demandam respostas de voz rápidas e naturais.

Está disponível para uso geral (GA) e pode ser acessada via AWS SDK com suporte para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift. Ainda não há suporte para Python, .NET v3 e algumas versões do AWS CLI e PowerShell.

Para começar, é necessário criar uma conta AWS (veja links úteis abaixo) e atualizar o SDK para a versão que oferece suporte à nova API. A documentação oficial detalha os parâmetros e exemplos de implementação.

Como a API impacta na prática

Benchmark realizado pela AWS com um texto de 7.045 caracteres mostrou que o tempo total de processamento caiu de cerca de 115 segundos para 70 segundos, uma melhoria de 39%. Além disso, o número de chamadas à API foi reduzido de 27 para apenas uma, simplificando a arquitetura e diminuindo custos operacionais.

Essa redução de latência significa que usuários escutam a resposta quase em tempo real, mesmo enquanto o modelo de linguagem ainda está gerando o texto. Isso melhora significativamente a experiência do usuário, tornando as interações mais naturais e engajantes.

Exemplo prático de integração

O uso da API envolve criar um cliente assíncrono do Polly, configurar a solicitação com voz, engine, formato e taxa de amostragem, e depois enviar eventos de texto conforme os tokens são gerados pelo LLM. O áudio é recebido por meio de handlers que processam os pacotes em fluxo contínuo.

Um exemplo em Java mostra como iniciar o stream, enviar fragmentos de texto e fechar a conexão ao final da geração. Também é possível controlar o momento da síntese com a configuração de flush para otimizar qualidade e latência.

Benefícios para negócios e desenvolvedores

Experiência do usuário aprimorada: menor tempo de espera e respostas mais fluidas;
Arquitetura simplificada: elimina necessidade de servidores intermediários, lógica de separação de texto e reagrupamento de áudio;
Redução de custos operacionais: menos chamadas API e infraestrutura mais enxuta;
Flexibilidade: controle fino sobre o fluxo de síntese para diferentes cenários.

Links úteis para começar

Com a API de streaming bidirecional do Amazon Polly, desenvolvedores ganham uma ferramenta poderosa para criar experiências conversacionais mais rápidas, naturais e eficientes. A AWS reforça seu compromisso em facilitar a adoção de IA generativa e tecnologias de voz em aplicações de ponta.

Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

O que muda com a API Bidirectional Streaming do Amazon Polly

Quem pode usar e onde acessar

Como a API impacta na prática

Exemplo prático de integração

Benefícios para negócios e desenvolvedores

Links úteis para começar

Leia também

Hugging Face lança simulação econômica com cinco modelos de IA para entender mercados emergentes

Projeto Amazing Digital Dentures: os desafios de criar aventuras digitais com IA

Her: a detetive que analisa suas sessões de Claude Code com inteligência e segurança

Hugging Face lança Thousand Token Wood v2: drama financeiro multi-modelos para pequenos modelos de IA