Preços
PRODUTO
SOLUÇÕES
por casos de uso
AI Gestão de leadsFacturaçãoMídia socialGestão de ProjetosGestão de dadospor setor
saber mais
BlogModelosVÍDEOSYoutubeRECURSOS
COMUNIDADES E MÍDIAS SOCIAIS
PARCEIROS
A OpenAI acaba de fazer um grande movimento na tecnologia de voz — e não é apenas mais uma atualização de transcrição. Em março de 2025, eles silenciosamente lançaram três novos modelos focados em áudio:
Cada um faz algo específico, mas todos eles buscam o mesmo objetivo: fazer a voz parecer uma parte nativa da interação da IA — não um patch, não uma API secundária, mas algo que pertence ao produto principal. Passei algum tempo analisando a documentação oficial, os exemplos do SDK e as amostras de áudio. Aqui está o que realmente está acontecendo — e o que ainda não está lá.
Os dois novos modelos de transcrição (gpt-4o-transcribe e seu irmão leve gpt-4o-mini-transcribe) são construídos para fazer mais do que apenas registrar palavras. Eles mostram melhorias reais no manuseio de entradas difíceis:
E os benchmarks comprovam isso — esses modelos têm uma taxa de erro de palavra (WER) menor em vários idiomas e condições acústicas. Isso não é apenas para seu próximo aplicativo de assistente pessoal — pense em centros de suporte jurídico, médico ou qualquer coisa em que erros de transcrição custam dinheiro e confiança.
Aqui está a parte que me surpreendeu.
O novo gpt-4o-mini-tts não gera apenas áudio com som agradável. Ele pode ser informado sobre como falar — usando instruções naturais. Coisas como:
E o modelo se ajusta — dinamicamente, sem reprogramação.
Não é perfeito (ainda), mas a expressividade e o comportamento de seguir instruções são claramente a próxima fronteira. A qualidade emocional das vozes agora é algo que você pode programar em segundos. Você pode acessar o modelo por meio de seus API de conversão de texto em fala or OpenAI.FM. Tenha em mente que essas vozes são amostras artificiais predefinidas, que foram revisadas para garantir que atendem consistentemente aos padrões sintéticos.
Esta parte me fez sorrir. O OpenAI atualizou seu Agentes SDK para conectar áudio sem esforço. Isso significa:
A integração é limpa. Se você já tem um agente baseado em texto, não precisa reconstruí-lo — basta conectar a voz. Isso finalmente faz com que as interfaces de voz não pareçam hackeadas. Você não precisa mais de uma dúzia de ferramentas — é uma experiência nativa. Para aqueles focados em experiências de fala para fala de baixa latência, os modelos de fala para fala na API Realtime são a escolha recomendada.
Este lançamento não é barulhento – e talvez seja esse o ponto. A OpenAI não tentou explodir a internet com este. Em vez disso, eles silenciosamente costuraram o áudio no tecido de como os agentes trabalham. Eles estão transformando uma voz em uma ferramenta poderosa para automação. E se você estava esperando pelo momento em que poderia parar de digitar e começar a falar com suas ferramentas – este pode ser apenas o sinal que você estava ouvindo.
Quer transformar áudio em ações – e texto em voz – sem criar um aplicativo inteiro do zero?
O Latenode permite automatizar fluxos de trabalho de Speech-to-Text e Text-to-Speech em minutos. Sem codificação complexa. Basta conectar seus gatilhos e pronto. Integre dezenas de modelos de IA. Conecte-se a qualquer serviço por meio de integração sem código ou API. Enquanto trabalhamos para conectar os modelos de áudio mais novos da OpenAI, aqui está sua automação com tecnologia de voz:
Este fluxo de trabalho ouve mensagens de voz do Telegram, as transcreve, gera um texto de postagem viral, cria uma imagem e envia tudo de volta para o Telegram.
Resumo em 4 etapas:
👉 Comece a usar sua primeira automação de voz no Latenode
Veja para que você pode usá-lo após uma pequena personalização:
É tudo sobre sem código, modular e pronto para casos de uso reais.