Uma plataforma de baixo código que combina a simplicidade sem código com o poder do código completo 🚀
Comece gratuitamente
Explorei os novos modelos de áudio do OpenAI — aqui está o que realmente parece diferente
21 de março de 2025
.
4
min ler

Explorei os novos modelos de áudio do OpenAI — aqui está o que realmente parece diferente

Jorge Miloradovitch
Pesquisador, redator e entrevistador de casos de uso
Índice

A OpenAI acaba de fazer um grande movimento na tecnologia de voz — e não é apenas mais uma atualização de transcrição. Em março de 2025, eles silenciosamente lançaram três novos modelos focados em áudio:

  • gpt-4o-transcrever
  • gpt-4o-mini-transcrever
  • gpt-4o-mini-tts

Cada um faz algo específico, mas todos eles buscam o mesmo objetivo: fazer a voz parecer uma parte nativa da interação da IA ​​— não um patch, não uma API secundária, mas algo que pertence ao produto principal. Passei algum tempo analisando a documentação oficial, os exemplos do SDK e as amostras de áudio. Aqui está o que realmente está acontecendo — e o que ainda não está lá.

O que há de novo? Muito mais do que apenas melhor reconhecimento de fala.

1. Conversão de voz em texto: não apenas mais rápido, mas mais inteligente

Os dois novos modelos de transcrição (gpt-4o-transcribe e seu irmão leve gpt-4o-mini-transcribe) são construídos para fazer mais do que apenas registrar palavras. Eles mostram melhorias reais no manuseio de entradas difíceis:

  • Sotaques fortes
  • Crosstalk
  • Ruído (como áudio de transporte público ou cafeteria)
  • Alto-falantes rápidos

E os benchmarks comprovam isso — esses modelos têm uma taxa de erro de palavra (WER) menor em vários idiomas e condições acústicas. Isso não é apenas para seu próximo aplicativo de assistente pessoal — pense em centros de suporte jurídico, médico ou qualquer coisa em que erros de transcrição custam dinheiro e confiança. 

2. Texto para fala que realmente pega você

Aqui está a parte que me surpreendeu.

O novo gpt-4o-mini-tts não gera apenas áudio com som agradável. Ele pode ser informado sobre como falar — usando instruções naturais. Coisas como:

  • “Fale como um terapeuta calmo”
  • “Pareça entusiasmado como um apresentador de demonstração de produto”
  • “Fale baixo, como se estivesse sussurrando em uma biblioteca”

E o modelo se ajusta — dinamicamente, sem reprogramação. 

Não é perfeito (ainda), mas a expressividade e o comportamento de seguir instruções são claramente a próxima fronteira. A qualidade emocional das vozes agora é algo que você pode programar em segundos. Você pode acessar o modelo por meio de seus API de conversão de texto em fala or OpenAI.FM. Tenha em mente que essas vozes são amostras artificiais predefinidas, que foram revisadas para garantir que atendem consistentemente aos padrões sintéticos. 

3. O SDK dos agentes ganhou voz

Esta parte me fez sorrir. O OpenAI atualizou seu Agentes SDK para conectar áudio sem esforço. Isso significa:

  • Seu agente pode ouço
  • Seu agente pode falar
  • E tudo isso funciona em um loop contínuo — entrada → processamento → saída falada

A integração é limpa. Se você já tem um agente baseado em texto, não precisa reconstruí-lo — basta conectar a voz. Isso finalmente faz com que as interfaces de voz não pareçam hackeadas. Você não precisa mais de uma dúzia de ferramentas — é uma experiência nativa. Para aqueles focados em experiências de fala para fala de baixa latência, os modelos de fala para fala na API Realtime são a escolha recomendada.

Como é usar

  • Transcrição? Nítida. Eu executei as demonstrações públicas e ouvi várias amostras. Esses modelos lidar com entrada caótica muito melhor do que os antigos baseados em Whisper. Se seu caso de uso inclui cenários multitalker ou áudio bagunçado do mundo real — esses modelos estão prontos. 
  • Síntese de fala? Surpreendentemente responsivo.A saída de voz é claro, não robótico, e tem nuance real. Você ainda não obtém desempenho de nível de ator completo — mas é um grande passo à frente de “texto dentro, voz plana fora”.

Este lançamento não é barulhento – e talvez seja esse o ponto. A OpenAI não tentou explodir a internet com este. Em vez disso, eles silenciosamente costuraram o áudio no tecido de como os agentes trabalham. Eles estão transformando uma voz em uma ferramenta poderosa para automação. E se você estava esperando pelo momento em que poderia parar de digitar e começar a falar com suas ferramentas – este pode ser apenas o sinal que você estava ouvindo.

Automatize fluxos de trabalho de voz com Latenode

Quer transformar áudio em ações – e texto em voz – sem criar um aplicativo inteiro do zero? 

O Latenode permite automatizar fluxos de trabalho de Speech-to-Text e Text-to-Speech em minutos. Sem codificação complexa. Basta conectar seus gatilhos e pronto. Integre dezenas de modelos de IA. Conecte-se a qualquer serviço por meio de integração sem código ou API. Enquanto trabalhamos para conectar os modelos de áudio mais novos da OpenAI, aqui está sua automação com tecnologia de voz:

Experimente agora: transforme seus pensamentos brutos em postagens (ou qualquer outra coisa)

Este fluxo de trabalho ouve mensagens de voz do Telegram, as transcreve, gera um texto de postagem viral, cria uma imagem e envia tudo de volta para o Telegram.

Resumo em 4 etapas:

  1. Receba mensagem de voz via bot do Telegram
  2. Transcreva áudio usando Whisper AI
  3. Gere postagem viral + prompt de imagem via ChatGPT
  4. Crie uma imagem com o Recraft AI e envie de volta para o Telegram

👉 Comece a usar sua primeira automação de voz no Latenode

Veja para que você pode usá-lo após uma pequena personalização:

  • Crie um plano para o dia, faça um brainstorming de ideias e crie novas sem precisar digitar nada.
  • Transcreva mensagens de voz e encaminhe-as para tickets de suporte.
  • Resuma automaticamente gravações de reuniões e publique no Slack.
  • Combine entrada e saída de áudio em um loop – com qualquer lógica entre eles.

É tudo sobre sem código, modular e pronto para casos de uso reais. 

Blogs relacionados

Caso de uso

Apoiado por