ACCESIBLES
PRODUCTO
SOLUCIONES
por casos de uso
AI Plomo GestiónFacturaciónRedes socialesGestión de proyectos
Gestión de datos por sector
Más información
BlogPlantillasVideosYouTubeRECURSOS
COMUNIDADES Y REDES SOCIALES
SOCIOS
OpenAI acaba de dar un gran paso en tecnología de voz, y no se trata de una simple actualización de transcripción. En marzo de 2025, implementaron discretamente tres nuevos modelos centrados en audio:
Cada una hace algo específico, pero todas buscan el mismo objetivo: que la voz se sienta como una parte nativa de la interacción con la IA; no un parche ni una API secundaria, sino algo que pertenece al producto principal. Dediqué tiempo a revisar la documentación oficial, los ejemplos del SDK y las muestras de audio. Esto es lo que realmente está sucediendo, y lo que aún no está del todo listo.
Los dos nuevos modelos de transcripción (gpt-4o-transcribe y su hermano ligero gpt-4o-mini-transcribe) están diseñados para hacer más que simplemente registrar palabras. Presentan mejoras reales en el procesamiento de entradas complejas:
Y los puntos de referencia lo respaldan: estos modelos tienen una tasa de error de palabra (WER) más baja en varios idiomas y condiciones acústicas. Esto no se aplica solo a tu próxima aplicación de asistente personal; piensa en aplicaciones legales, médicas, centros de soporte o cualquier aplicación donde los errores de transcripción cuestionen dinero y confianza.
Aquí está la parte que me sorprendió.
El nuevo gpt-4o-mini-tts no solo genera un audio con un sonido agradable. También se le puede indicar cómo hablar mediante instrucciones naturales. Cosas como:
Y el modelo se ajusta dinámicamente, sin reprogramación.
No es perfecto (aún), pero la expresividad y el seguimiento de instrucciones son claramente la próxima frontera. La calidad emocional de las voces ahora se puede programar en segundos. Se puede acceder al modelo a través de... API de texto a voz or OpenAI.FMTenga en cuenta que estas voces son muestras artificiales preestablecidas, que han sido revisadas para garantizar que cumplan consistentemente con los estándares sintéticos.
Esta parte me hizo sonreír. OpenAI actualizó su SDK de agentes Conectar audio sin esfuerzo. Esto significa:
La integración es impecable. Si ya tienes un agente basado en texto, no necesitas reconstruirlo; simplemente conecta la voz. Esto hace que las interfaces de voz no parezcan improvisadas. Ya no necesitas una docena de herramientas: es una experiencia nativa. Para quienes se centran en experiencias de voz a voz de baja latencia, los modelos de voz a voz de la API en tiempo real son la opción recomendada.
Este lanzamiento no es ruidoso, y quizás ese sea el objetivo. OpenAI no intentó revolucionar internet con este lanzamiento. En cambio, integraron discretamente el audio en la estructura del trabajo de los agentes. Están convirtiendo la voz en una poderosa herramienta de automatización. Y si has estado esperando el momento de dejar de escribir y empezar a hablar con tus herramientas, esta podría ser la señal que estabas esperando.
¿Quieres convertir audio en acciones y texto en voz sin tener que crear una aplicación completa desde cero?
Latenode te permite automatizar flujos de trabajo de voz a texto y texto a voz en minutos. Sin programación compleja. Simplemente conecta tus disparadores y listo. Integra docenas de modelos de IA. Conéctate a cualquier servicio mediante integración sin código o API. Mientras trabajamos en la conexión de los modelos de audio más recientes de OpenAI, aquí tienes tu automatización basada en voz:
Este flujo de trabajo escucha los mensajes de voz de Telegram, los transcribe, genera un texto de publicación viral, crea una imagen y envía todo de regreso a Telegram.
Resumen de 4 pasos:
👉 Comienza a usar tu primera automatización de voz en Latenode
Esto es para qué puedes usarlo después de una ligera personalización:
Se trata de un modelo sin código, modular y listo para casos de uso reales.