OpenAI lança novos recursos de inteligência de voz na API para aplicações em tempo real

A OpenAI anunciou uma atualização significativa em sua API com o lançamento de novos recursos de inteligência de voz. Essas funcionalidades avançadas prometem transformar a forma como desenvolvedores criam aplicações que interagem por voz, oferecendo capacidades de conversação, transcrição e tradução em tempo real.
Novos modelos de voz e suas funcionalidades
Dentre as novidades, destaca-se o GPT-Realtime-2, um modelo de voz aprimorado que simula uma conversação realista com os usuários. Ao contrário do seu antecessor, GPT-Realtime-1.5, essa nova versão incorpora o raciocínio da classe GPT-5, permitindo lidar com solicitações mais complexas e dinâmicas durante a interação.

Além disso, a OpenAI lançou o GPT-Realtime-Translate, um serviço de tradução simultânea que acompanha o ritmo da conversa. Ele suporta mais de 70 idiomas de entrada e 13 idiomas de saída, garantindo ampla cobertura linguística para aplicações globais.
Para complementar, o GPT-Realtime-Whisper oferece transcrição ao vivo, convertendo fala em texto conforme a interação acontece, o que é fundamental para acessibilidade e registro automático de diálogos.
Aplicações práticas e público-alvo
Esses recursos são especialmente úteis para empresas que desejam expandir seus sistemas de atendimento ao cliente, proporcionando interações mais naturais e eficientes. Porém, a OpenAI ressalta que as funcionalidades também têm potencial para impactar diversas áreas, como educação, plataformas para criadores de conteúdo, eventos e mídia.
Com a capacidade de ouvir, raciocinar, traduzir, transcrever e agir durante uma conversa, as novas ferramentas elevam as interfaces de voz de simples respostas para assistentes ativos e inteligentes.
Disponibilidade, acesso e cobrança
Todos os novos modelos de voz estão disponíveis na Realtime API da OpenAI. O serviço de tradução e a transcrição são cobrados por minuto de uso, enquanto o GPT-Realtime-2 tem cobrança baseada no consumo de tokens.
Desenvolvedores interessados podem acessar a documentação e começar a integrar esses recursos em suas aplicações imediatamente, explorando o potencial para melhorar a experiência do usuário por meio da voz.
Segurança e prevenção de abusos
Ciente dos riscos que tecnologias de voz avançadas podem trazer, a OpenAI implementou mecanismos de segurança para evitar usos indevidos, como spam, fraudes e outros tipos de abuso online. O sistema possui gatilhos que interrompem conversas ao detectar violações às diretrizes de conteúdo prejudicial, reforçando o compromisso com o uso responsável da inteligência artificial.