Pular para o conteúdo
Tecnologia

A OpenAI acaba de dar um passo que pode mudar para sempre a forma como falamos com máquinas

Novos modelos de áudio apresentados pela OpenAI prometem transformar assistentes de voz em agentes capazes de ouvir, traduzir e agir em tempo real durante conversas naturais.
Por

Tempo de leitura: 4 minutos

Durante anos, conversar com inteligências artificiais por voz parecia algo limitado a comandos simples e respostas mecânicas. Mas a OpenAI quer mudar esse cenário rapidamente. A empresa responsável pelo ChatGPT anunciou uma nova geração de modelos de áudio capazes de compreender diálogos complexos, lidar com interrupções e até traduzir conversas ao vivo. O lançamento reforça a corrida para criar assistentes cada vez mais próximos de uma interação humana real — e talvez seja apenas o começo de algo ainda maior.

A OpenAI quer transformar voz em uma nova interface da inteligência artificial

A OpenAI acaba de dar um passo que pode mudar para sempre a forma como falamos com máquinas
© https://x.com/ConnectingPak

A OpenAI anunciou nesta quinta-feira uma nova série de modelos voltados para tarefas de voz em tempo real dentro de sua plataforma para desenvolvedores.

O objetivo é claro: levar a inteligência artificial além de chats tradicionais e sistemas de transcrição, aproximando-a de agentes capazes de conversar, interpretar contexto e executar ações instantaneamente durante diálogos ao vivo.

Ao todo, foram apresentados três modelos principais:

  • GPT-Realtime-2
  • GPT-Realtime-Translate
  • GPT-Realtime-Whisper

Todos já estão disponíveis para testes no playground da empresa destinado a desenvolvedores.

Segundo a OpenAI, os novos sistemas foram criados para tornar interações por voz mais naturais, fluidas e úteis em situações do cotidiano.

O GPT-Realtime-2 é o modelo mais avançado do grupo. Ele foi projetado para lidar com conversas mais longas e complexas, mantendo contexto durante diálogos extensos, respondendo a interrupções e até acionando ferramentas externas enquanto a conversa acontece.

Na prática, isso significa que futuros assistentes de voz poderão funcionar de maneira muito mais dinâmica, sem depender daquele modelo engessado de perguntas e respostas isoladas.

A proposta aproxima esses sistemas da ideia de agentes inteligentes capazes de acompanhar conversas em tempo real quase como um atendente humano.

Traduções ao vivo e transcrição instantânea entram na disputa pela próxima geração da IA

Outro destaque do anúncio foi o GPT-Realtime-Translate, modelo focado em tradução simultânea.

Segundo a OpenAI, ele consegue interpretar mais de 70 idiomas e gerar respostas em 13 idiomas diferentes em tempo real. A empresa acredita que a ferramenta poderá ser utilizada principalmente em áreas como atendimento ao cliente, educação, reuniões internacionais e suporte multilíngue.

A ideia é permitir que pessoas conversem naturalmente enquanto a IA traduz a fala quase instantaneamente.

Já o GPT-Realtime-Whisper aposta numa tarefa diferente, mas igualmente estratégica: transformar fala em texto ao vivo.

O sistema foi desenvolvido para criar legendas automáticas, gerar notas de reuniões e atualizar fluxos de trabalho enquanto alguém ainda está falando. Isso abre espaço para aplicações em videoconferências, produtividade corporativa, criação de conteúdo e acessibilidade.

A OpenAI tenta, com esses lançamentos, consolidar sua presença numa área que vem se tornando cada vez mais disputada: interfaces de voz alimentadas por inteligência artificial.

Gigantes da tecnologia vêm apostando pesado nesse setor justamente porque a voz é vista como uma das possíveis portas de entrada para a próxima geração da computação cotidiana.

Grandes empresas já começaram a testar os novos modelos

Entre as companhias que estão experimentando as novas ferramentas estão nomes conhecidos do mercado internacional.

A plataforma imobiliária Zillow, a agência de viagens Priceline e a empresa de telecomunicações Deutsche Telekom aparecem entre os primeiros clientes envolvidos nos testes.

Os preços divulgados pela OpenAI mostram que a empresa pretende posicionar os modelos tanto para aplicações empresariais quanto para projetos em escala maior.

O GPT-Realtime-2 custará a partir de US$ 32 por milhão de tokens de entrada de áudio. Já o GPT-Realtime-Translate terá preço de US$ 0,034 por minuto, enquanto o GPT-Realtime-Whisper custará US$ 0,017 por minuto.

Embora os valores pareçam técnicos para usuários comuns, eles revelam algo importante: a OpenAI está acelerando a construção de um ecossistema comercial completo em torno da IA por voz.

Os rumores sobre um “GPT-Fone” ganharam ainda mais força

O anúncio dos novos modelos coincidiu com outro rumor que vem crescendo nos bastidores da indústria de tecnologia.

Segundo o analista Ming-Chi Kuo, conhecido por antecipar informações sobre cadeias de produção, a OpenAI pode estar trabalhando em seu primeiro produto de hardware próprio: um smartphone centrado em inteligência artificial.

O projeto ainda não foi confirmado oficialmente, mas os rumores indicam que a empresa estaria acelerando o desenvolvimento, com possível produção em massa prevista para o início de 2027.

A combinação entre novos sistemas de voz em tempo real e especulações sobre um dispositivo próprio acabou alimentando ainda mais as discussões sobre o futuro da OpenAI.

Porque, se a empresa realmente pretende criar uma plataforma baseada em conversas naturais e assistentes inteligentes permanentes, controlar também o hardware poderia ser um passo estratégico enorme.

E talvez seja justamente isso que esteja começando a acontecer agora.

[Fonte: Olhar digital]

Partilhe este artigo

Artigos relacionados