Una plataforma de código bajo que combina la simplicidad sin código con el poder del código completo 🚀
Empieza ahora gratis
Exploré los nuevos modelos de audio de OpenAI: esto es lo que realmente se siente diferente
Marzo 21, 2025
4
min leer

Exploré los nuevos modelos de audio de OpenAI: esto es lo que realmente se siente diferente

George Miloradovich
Investigador, redactor y entrevistador de casos prácticos
Tabla de contenidos.

OpenAI acaba de dar un gran paso en tecnología de voz, y no se trata de una simple actualización de transcripción. En marzo de 2025, implementaron discretamente tres nuevos modelos centrados en audio:

  • gpt-4o-transcribir
  • gpt-4o-mini-transcripción
  • gpt-4o-mini-tts

Cada una hace algo específico, pero todas buscan el mismo objetivo: que la voz se sienta como una parte nativa de la interacción con la IA; no un parche ni una API secundaria, sino algo que pertenece al producto principal. Dediqué tiempo a revisar la documentación oficial, los ejemplos del SDK y las muestras de audio. Esto es lo que realmente está sucediendo, y lo que aún no está del todo listo.

¿Qué hay de nuevo? Mucho más que un mejor reconocimiento de voz.

1. Conversión de voz a texto: no solo más rápida, sino también más inteligente

Los dos nuevos modelos de transcripción (gpt-4o-transcribe y su hermano ligero gpt-4o-mini-transcribe) están diseñados para hacer más que simplemente registrar palabras. Presentan mejoras reales en el procesamiento de entradas complejas:

  • Acentos fuertes
  • Crosstalk
  • Ruido (como el del transporte público o el audio de una cafetería)
  • Altavoces rápidos

Y los puntos de referencia lo respaldan: estos modelos tienen una tasa de error de palabra (WER) más baja en varios idiomas y condiciones acústicas. Esto no se aplica solo a tu próxima aplicación de asistente personal; piensa en aplicaciones legales, médicas, centros de soporte o cualquier aplicación donde los errores de transcripción cuestionen dinero y confianza. 

2. Texto a voz que realmente te lleva

Aquí está la parte que me sorprendió.

El nuevo gpt-4o-mini-tts no solo genera un audio con un sonido agradable. También se le puede indicar cómo hablar mediante instrucciones naturales. Cosas como:

  • “Habla como un terapeuta tranquilo”
  • “Suena entusiasta como si estuvieras presentando una demostración de un producto”
  • “Habla en voz baja, como si susurraras en una biblioteca”

Y el modelo se ajusta dinámicamente, sin reprogramación. 

No es perfecto (aún), pero la expresividad y el seguimiento de instrucciones son claramente la próxima frontera. La calidad emocional de las voces ahora se puede programar en segundos. Se puede acceder al modelo a través de... API de texto a voz or OpenAI.FMTenga en cuenta que estas voces son muestras artificiales preestablecidas, que han sido revisadas para garantizar que cumplan consistentemente con los estándares sintéticos. 

3. El SDK de agentes tiene voz

Esta parte me hizo sonreír. OpenAI actualizó su SDK de agentes Conectar audio sin esfuerzo. Esto significa:

  • Su agente puede escuchan
  • Su agente puede speak
  • Y todo se ejecuta en un bucle continuo: entrada → procesamiento → salida hablada.

La integración es impecable. Si ya tienes un agente basado en texto, no necesitas reconstruirlo; simplemente conecta la voz. Esto hace que las interfaces de voz no parezcan improvisadas. Ya no necesitas una docena de herramientas: es una experiencia nativa. Para quienes se centran en experiencias de voz a voz de baja latencia, los modelos de voz a voz de la API en tiempo real son la opción recomendada.

Cómo es usarlo

  • ¿Transcripción? ¡Fresca! Realicé las demostraciones públicas y escuché varias muestras. Estos modelos... manejar entradas caóticas Mucho mejor que los antiguos basados ​​en Whisper. Si su caso de uso incluye escenarios con múltiples interlocutores o audio real confuso, estos modelos están listos. 
  • ¿Síntesis de voz? Sorprendentemente rápida.La salida de voz es claro, no robóticoY tiene matices auténticos. Aún no se consigue una interpretación a nivel de actor, pero es un gran avance respecto a "texto entrante, voz apagada saliente".

Este lanzamiento no es ruidoso, y quizás ese sea el objetivo. OpenAI no intentó revolucionar internet con este lanzamiento. En cambio, integraron discretamente el audio en la estructura del trabajo de los agentes. Están convirtiendo la voz en una poderosa herramienta de automatización. Y si has estado esperando el momento de dejar de escribir y empezar a hablar con tus herramientas, esta podría ser la señal que estabas esperando.

Automatiza los flujos de trabajo de voz con Latenode

¿Quieres convertir audio en acciones y texto en voz sin tener que crear una aplicación completa desde cero? 

Latenode te permite automatizar flujos de trabajo de voz a texto y texto a voz en minutos. Sin programación compleja. Simplemente conecta tus disparadores y listo. Integra docenas de modelos de IA. Conéctate a cualquier servicio mediante integración sin código o API. Mientras trabajamos en la conexión de los modelos de audio más recientes de OpenAI, aquí tienes tu automatización basada en voz:

Pruébalo ahora: Transforma tus pensamientos crudos en publicaciones (o cualquier otra cosa)

Este flujo de trabajo escucha los mensajes de voz de Telegram, los transcribe, genera un texto de publicación viral, crea una imagen y envía todo de regreso a Telegram.

Resumen de 4 pasos:

  1. Recibir mensaje de voz a través del bot de Telegram
  2. Transcribe audio usando Whisper AI
  3. Generar publicación viral + imagen de solicitud a través de ChatGPT
  4. Crea una imagen con Recraft AI y envíala a Telegram

👉 Comienza a usar tu primera automatización de voz en Latenode

Esto es para qué puedes usarlo después de una ligera personalización:

  • Crea un plan para el día, haz una lluvia de ideas y piensa en otras nuevas sin escribir nada.
  • Transcribir mensajes de voz y enrutarlos a tickets de soporte.
  • Resumir automáticamente las grabaciones de reuniones y publicarlas en Slack.
  • Combine la entrada y la salida de audio en un bucle, sin ninguna lógica intermedia.

Se trata de un modelo sin código, modular y listo para casos de uso reales. 

Blogs relacionados

Caso de uso

Respaldado por