OpenAI acaba de dar un gran paso en tecnología de voz, y no se trata de una simple actualización de transcripción. En marzo de 2025, implementaron discretamente tres nuevos modelos centrados en audio:
gpt-4o-transcribir
gpt-4o-mini-transcripción
gpt-4o-mini-tts
Cada una hace algo específico, pero todas buscan el mismo objetivo: que la voz se sienta como una parte nativa de la interacción con la IA; no un parche ni una API secundaria, sino algo que pertenece al producto principal. Dediqué tiempo a revisar la documentación oficial, los ejemplos del SDK y las muestras de audio. Esto es lo que realmente está sucediendo, y lo que aún no está del todo listo.
¿Qué hay de nuevo? Mucho más que un mejor reconocimiento de voz.
1. Conversión de voz a texto: no solo más rápida, sino también más inteligente
Los dos nuevos modelos de transcripción (gpt-4o-transcribe y su hermano ligero gpt-4o-mini-transcribe) están diseñados para hacer más que simplemente registrar palabras. Presentan mejoras reales en el procesamiento de entradas complejas:
Acentos fuertes
Crosstalk
Ruido (como el del transporte público o el audio de una cafetería)
Altavoces rápidos
Y los puntos de referencia lo respaldan: estos modelos tienen una tasa de error de palabra (WER) más baja en varios idiomas y condiciones acústicas. Esto no se aplica solo a tu próxima aplicación de asistente personal; piensa en aplicaciones legales, médicas, centros de soporte o cualquier aplicación donde los errores de transcripción cuestionen dinero y confianza.
2. Texto a voz que realmente te lleva
Aquí está la parte que me sorprendió.
El nuevo gpt-4o-mini-tts no solo genera un audio con un sonido agradable. También se le puede indicar cómo hablar mediante instrucciones naturales. Cosas como:
“Habla como un terapeuta tranquilo”
“Suena entusiasta como si estuvieras presentando una demostración de un producto”
“Habla en voz baja, como si susurraras en una biblioteca”
Y el modelo se ajusta dinámicamente, sin reprogramación.
No es perfecto (aún), pero la expresividad y el seguimiento de instrucciones son claramente la próxima frontera. La calidad emocional de las voces ahora se puede programar en segundos. Se puede acceder al modelo a través de... API de texto a voz or OpenAI.FMTenga en cuenta que estas voces son muestras artificiales preestablecidas, que han sido revisadas para garantizar que cumplan consistentemente con los estándares sintéticos.
3. El SDK de agentes tiene voz
Esta parte me hizo sonreír. OpenAI actualizó su SDK de agentes Conectar audio sin esfuerzo. Esto significa:
Su agente puede escuchan
Su agente puede speak
Y todo se ejecuta en un bucle continuo: entrada → procesamiento → salida hablada.
La integración es impecable. Si ya tienes un agente basado en texto, no necesitas reconstruirlo; simplemente conecta la voz. Esto hace que las interfaces de voz no parezcan improvisadas. Ya no necesitas una docena de herramientas: es una experiencia nativa. Para quienes se centran en experiencias de voz a voz de baja latencia, los modelos de voz a voz de la API en tiempo real son la opción recomendada.
Cómo es usarlo
¿Transcripción? ¡Fresca! Realicé las demostraciones públicas y escuché varias muestras. Estos modelos... manejar entradas caóticas Mucho mejor que los antiguos basados en Whisper. Si su caso de uso incluye escenarios con múltiples interlocutores o audio real confuso, estos modelos están listos.
¿Síntesis de voz? Sorprendentemente rápida.La salida de voz es claro, no robóticoY tiene matices auténticos. Aún no se consigue una interpretación a nivel de actor, pero es un gran avance respecto a "texto entrante, voz apagada saliente".
Este lanzamiento no es ruidoso, y quizás ese sea el objetivo. OpenAI no intentó revolucionar internet con este lanzamiento. En cambio, integraron discretamente el audio en la estructura del trabajo de los agentes. Están convirtiendo la voz en una poderosa herramienta de automatización. Y si has estado esperando el momento de dejar de escribir y empezar a hablar con tus herramientas, esta podría ser la señal que estabas esperando.
Automatiza los flujos de trabajo de voz con Latenode
¿Quieres convertir audio en acciones y texto en voz sin tener que crear una aplicación completa desde cero?
Latenode te permite automatizar flujos de trabajo de voz a texto y texto a voz en minutos. Sin programación compleja. Simplemente conecta tus disparadores y listo. Integra docenas de modelos de IA. Conéctate a cualquier servicio mediante integración sin código o API. Mientras trabajamos en la conexión de los modelos de audio más recientes de OpenAI, aquí tienes tu automatización basada en voz:
Pruébalo ahora: Transforma tus pensamientos crudos en publicaciones (o cualquier otra cosa)
Este flujo de trabajo escucha los mensajes de voz de Telegram, los transcribe, genera un texto de publicación viral, crea una imagen y envía todo de regreso a Telegram.
Resumen de 4 pasos:
Recibir mensaje de voz a través del bot de Telegram
Transcribe audio usando Whisper AI
Generar publicación viral + imagen de solicitud a través de ChatGPT
Crea una imagen con Recraft AI y envíala a Telegram
Cree potentes flujos de trabajo de IA y automatice las rutinas
Unifique las principales herramientas de IA sin codificar ni administrar claves API, implemente agentes de IA inteligentes y chatbots, automatice los flujos de trabajo y reduzca los costos de desarrollo.