¿Cuáles son los nuevos modelos centrados en audio lanzados por OpenAI?

OpenAI lanzó tres nuevos modelos centrados en audio: gpt-4o-transcribe, gpt-4o-mini-transcribe y gpt-4o-mini-tts, diseñados para hacer de la voz una parte nativa de la interacción con IA.

¿Cómo funciona el nuevo modelo Texto a Voz?

Al modelo gpt-4o-mini-tts se le puede dar instrucciones para que hable en diferentes estilos y tonos, como un terapeuta tranquilo o un presentador de demostración entusiasta, ajustándose dinámicamente sin reprogramación.

¿Cómo se ha actualizado el SDK de Agentes con capacidades de voz?

OpenAI actualizó su SDK de agentes para integrar perfectamente el audio, lo que permite a los agentes escuchar y hablar en un bucle continuo, haciendo que las interfaces de voz se sientan más nativas.

Exploré los nuevos modelos de audio de OpenAI: esto es lo que realmente se siente diferente

Estamos preparados

Desarrollado por Latenode AI

Tabla de contenidos.

Exploré los nuevos modelos de audio de OpenAI: esto es lo que realmente se siente diferente

OpenAI acaba de dar un gran paso en tecnología de voz, y no se trata de una simple actualización de transcripción. En marzo de 2025, implementaron discretamente tres nuevos modelos centrados en audio:

gpt-4o-transcribir
gpt-4o-mini-transcripción
gpt-4o-mini-tts

Cada una hace algo específico, pero todas buscan el mismo objetivo: que la voz se sienta como una parte nativa de la interacción con la IA; no un parche ni una API secundaria, sino algo que pertenece al producto principal. Dediqué tiempo a revisar la documentación oficial, los ejemplos del SDK y las muestras de audio. Esto es lo que realmente está sucediendo, y lo que aún no está del todo listo.

¿Qué hay de nuevo? Mucho más que un mejor reconocimiento de voz.

1. Conversión de voz a texto: no solo más rápida, sino también más inteligente

Los dos nuevos modelos de transcripción (gpt-4o-transcribe y su hermano ligero gpt-4o-mini-transcribe) están diseñados para hacer más que simplemente registrar palabras. Presentan mejoras reales en el procesamiento de entradas complejas:

Acentos fuertes
Crosstalk
Ruido (como el del transporte público o el audio de una cafetería)
Altavoces rápidos

Y los puntos de referencia lo respaldan: estos modelos tienen una tasa de error de palabra (WER) más baja en varios idiomas y condiciones acústicas. Esto no se aplica solo a tu próxima aplicación de asistente personal; piensa en aplicaciones legales, médicas, centros de soporte o cualquier aplicación donde los errores de transcripción cuestionen dinero y confianza.

2. Texto a voz que realmente te lleva

Aquí está la parte que me sorprendió.

El nuevo gpt-4o-mini-tts no solo genera un audio con un sonido agradable. También se le puede indicar cómo hablar mediante instrucciones naturales. Cosas como:

“Habla como un terapeuta tranquilo”
“Suena entusiasta como si estuvieras presentando una demostración de un producto”
“Habla en voz baja, como si susurraras en una biblioteca”

Y el modelo se ajusta dinámicamente, sin reprogramación.

No es perfecto (aún), pero la expresividad y el seguimiento de instrucciones son claramente la próxima frontera. La calidad emocional de las voces ahora se puede programar en segundos. Se puede acceder al modelo a través de... API de texto a voz or OpenAI.FMTenga en cuenta que estas voces son muestras artificiales preestablecidas, que han sido revisadas para garantizar que cumplan consistentemente con los estándares sintéticos.

3. El SDK de agentes tiene voz

Esta parte me hizo sonreír. OpenAI actualizó su SDK de agentes Conectar audio sin esfuerzo. Esto significa:

Su agente puede
Su agente puede speak
Y todo se ejecuta en un bucle continuo: entrada → procesamiento → salida hablada.

La integración es impecable. Si ya tienes un agente basado en texto, no necesitas reconstruirlo; simplemente conecta la voz. Esto hace que las interfaces de voz no parezcan improvisadas. Ya no necesitas una docena de herramientas: es una experiencia nativa. Para quienes se centran en experiencias de voz a voz de baja latencia, los modelos de voz a voz de la API en tiempo real son la opción recomendada.

Cómo es usarlo

¿Transcripción? ¡Fresca! Realicé las demostraciones públicas y escuché varias muestras. Estos modelos... manejar entradas caóticas Mucho mejor que los antiguos basados en Whisper. Si su caso de uso incluye escenarios con múltiples interlocutores o audio real confuso, estos modelos están listos.
¿Síntesis de voz? Sorprendentemente rápida.La salida de voz es claro, no robóticoY tiene matices auténticos. Aún no se consigue una interpretación a nivel de actor, pero es un gran avance respecto a "texto entrante, voz apagada saliente".

Este lanzamiento no es ruidoso, y quizás ese sea el objetivo. OpenAI no intentó revolucionar internet con este lanzamiento. En cambio, integraron discretamente el audio en la estructura del trabajo de los agentes. Están convirtiendo la voz en una poderosa herramienta de automatización. Y si has estado esperando el momento de dejar de escribir y empezar a hablar con tus herramientas, esta podría ser la señal que estabas esperando.

Automatiza los flujos de trabajo de voz con Latenode

¿Quieres convertir audio en acciones y texto en voz sin tener que crear una aplicación completa desde cero?

Latenode te permite automatizar flujos de trabajo de voz a texto y texto a voz en minutos. Sin programación compleja. Simplemente conecta tus disparadores y listo. Integra docenas de modelos de IA. Conéctate a cualquier servicio mediante integración sin código o API. Mientras trabajamos en la conexión de los modelos de audio más recientes de OpenAI, aquí tienes tu automatización basada en voz:

Pruébalo ahora: Transforma tus pensamientos crudos en publicaciones (o cualquier otra cosa)

Este flujo de trabajo escucha los mensajes de voz de Telegram, los transcribe, genera un texto de publicación viral, crea una imagen y envía todo de regreso a Telegram.

Resumen de 4 pasos:

Recibir mensaje de voz a través del bot de Telegram
Transcribe audio usando Whisper AI
Generar publicación viral + imagen de solicitud a través de ChatGPT
Crea una imagen con Recraft AI y envíala a Telegram

👉 Comienza a usar tu primera automatización de voz en Latenode

Esto es para qué puedes usarlo después de una ligera personalización:

Crea un plan para el día, haz una lluvia de ideas y piensa en otras nuevas sin escribir nada.
Transcribir mensajes de voz y enrutarlos a tickets de soporte.
Resumir automáticamente las grabaciones de reuniones y publicarlas en Slack.
Combine la entrada y la salida de audio en un bucle, sin ninguna lógica intermedia.

Se trata de un modelo sin código, modular y listo para casos de uso reales.

Probar ahora