OpenAI lança novos recursos de inteligência de voz na API para aplicações em tempo real

A OpenAI anunciou uma atualização significativa em sua API com o lançamento de novos recursos de inteligência de voz. Essas funcionalidades avançadas prometem transformar a forma como desenvolvedores criam aplicações que interagem por voz, oferecendo capacidades de conversação, transcrição e tradução em tempo real.

Novos modelos de voz e suas funcionalidades

Dentre as novidades, destaca-se o GPT-Realtime-2, um modelo de voz aprimorado que simula uma conversação realista com os usuários. Ao contrário do seu antecessor, GPT-Realtime-1.5, essa nova versão incorpora o raciocínio da classe GPT-5, permitindo lidar com solicitações mais complexas e dinâmicas durante a interação.

Imagem relacionada ao artigo de TechCrunch AI — Imagem de apoio da materia original.

Além disso, a OpenAI lançou o GPT-Realtime-Translate, um serviço de tradução simultânea que acompanha o ritmo da conversa. Ele suporta mais de 70 idiomas de entrada e 13 idiomas de saída, garantindo ampla cobertura linguística para aplicações globais.

Para complementar, o GPT-Realtime-Whisper oferece transcrição ao vivo, convertendo fala em texto conforme a interação acontece, o que é fundamental para acessibilidade e registro automático de diálogos.

Aplicações práticas e público-alvo

Esses recursos são especialmente úteis para empresas que desejam expandir seus sistemas de atendimento ao cliente, proporcionando interações mais naturais e eficientes. Porém, a OpenAI ressalta que as funcionalidades também têm potencial para impactar diversas áreas, como educação, plataformas para criadores de conteúdo, eventos e mídia.

Com a capacidade de ouvir, raciocinar, traduzir, transcrever e agir durante uma conversa, as novas ferramentas elevam as interfaces de voz de simples respostas para assistentes ativos e inteligentes.

Disponibilidade, acesso e cobrança

Todos os novos modelos de voz estão disponíveis na Realtime API da OpenAI. O serviço de tradução e a transcrição são cobrados por minuto de uso, enquanto o GPT-Realtime-2 tem cobrança baseada no consumo de tokens.

Desenvolvedores interessados podem acessar a documentação e começar a integrar esses recursos em suas aplicações imediatamente, explorando o potencial para melhorar a experiência do usuário por meio da voz.

Segurança e prevenção de abusos

Ciente dos riscos que tecnologias de voz avançadas podem trazer, a OpenAI implementou mecanismos de segurança para evitar usos indevidos, como spam, fraudes e outros tipos de abuso online. O sistema possui gatilhos que interrompem conversas ao detectar violações às diretrizes de conteúdo prejudicial, reforçando o compromisso com o uso responsável da inteligência artificial.

OpenAI lança novos recursos de inteligência de voz na API para aplicações em tempo real

Novos modelos de voz e suas funcionalidades

Aplicações práticas e público-alvo

Disponibilidade, acesso e cobrança

Segurança e prevenção de abusos

Links úteis

Leia também

Tokenpocalypse: o desafio dos custos e preços na era das grandes empresas de IA

Nova ferramenta de IA identifica tráfico ilegal de cavalos-marinhos e barbatanas de tubarão

Laboratórios Chineses de Peptídeos Financiados por Criptomoedas Crescem Rapidamente

Prefeito de Shelbyville, Indiana, gera polêmica ao criticar moradores contrários a data center bilionário