Quels sont les nouveaux modèles axés sur l'audio publiés par OpenAI ?

OpenAI a publié trois nouveaux modèles axés sur l'audio : gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts, conçus pour faire de la voix une partie native de l'interaction avec l'IA.

Comment fonctionne le nouveau modèle Text-to-Speech ?

Le modèle gpt-4o-mini-tts peut être amené à parler dans différents styles et tons, comme un thérapeute calme ou un animateur de démonstration enthousiaste, en s'ajustant de manière dynamique sans reprogrammation.

Comment le SDK Agents a-t-il été mis à jour avec des fonctionnalités vocales ?

OpenAI a mis à jour son SDK Agents pour intégrer de manière transparente l'audio, permettant aux agents d'écouter et de parler en boucle continue, rendant les interfaces vocales plus natives.

J'ai exploré les nouveaux modèles audio d'OpenAI : voici ce qui est réellement différent

Ready to Go

Propulsé par Latenode AI

Table des matières

J'ai exploré les nouveaux modèles audio d'OpenAI : voici ce qui est réellement différent

OpenAI vient de franchir une étape importante dans le domaine des technologies vocales, et il ne s'agit pas d'une simple mise à jour de transcription. En mars 2025, l'entreprise a discrètement lancé trois nouveaux modèles axés sur l'audio :

gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-mini-tts

Chacune a une spécificité, mais toutes visent le même objectif : faire en sorte que la voix soit perçue comme un élément natif de l'interaction avec l'IA ; il ne s'agit pas d'un patch ni d'une API annexe, mais d'un élément intégré au produit principal. J'ai passé du temps à parcourir la documentation officielle, les exemples du SDK et les extraits audio. Voici ce qui se passe réellement, et ce qui n'est pas encore tout à fait au point.

Quoi de neuf ? Bien plus qu'une simple reconnaissance vocale améliorée.

1. Speech-to-Text : pas seulement plus rapide, mais aussi plus intelligent

Les deux nouveaux modèles de transcription (gpt-4o-transcribe et son équivalent léger gpt-4o-mini-transcribe) sont conçus pour aller au-delà du simple enregistrement de mots. Ils présentent de réelles améliorations dans la gestion des entrées complexes :

Des accents forts
Les personnes qui parlent en même temps
Bruit (comme le bruit des transports en commun ou d’un café)
Haut-parleurs rapides

Et les benchmarks le confirment : ces modèles présentent un taux d'erreur de transcription (WER) plus faible dans plusieurs langues et conditions acoustiques. Ce modèle ne s'applique pas uniquement à votre prochaine application d'assistant personnel : pensez aux applications juridiques, médicales, aux centres d'assistance, ou à tout autre domaine où les erreurs de transcription coûtent cher et nuisent à la confiance.

2. La synthèse vocale qui vous touche vraiment

Voici la partie qui m'a surpris.

Le nouveau gpt-4o-mini-tts ne se contente pas de produire un son agréable. Il peut aussi apprendre à parler grâce à des instructions naturelles. Par exemple :

« Parlez comme un thérapeute calme »
« Parlez avec enthousiasme, comme un animateur de démonstration de produit »
« Parlez doucement, comme si vous chuchotiez dans une bibliothèque »

Et le modèle s’ajuste — de manière dynamique, sans reprogrammation.

Ce n'est pas encore parfait, mais l'expressivité et le comportement de suivi des instructions constituent clairement la prochaine étape. La qualité émotionnelle des voix est désormais programmable en quelques secondes. Vous pouvez accéder au modèle via leur API de synthèse vocale or OpenAI.FMGardez à l’esprit que ces voix sont des échantillons artificiels prédéfinis, qu’ils ont examinés pour garantir qu’ils répondent systématiquement aux normes synthétiques.

3. Agents SDK a une voix

Cette partie m'a fait sourire. OpenAI a mis à jour son Agents SDK Pour brancher l'audio sans effort. Cela signifie :

Votre agent peut écouter
Votre agent peut parler
Et tout cela fonctionne dans une boucle continue : entrée → traitement → sortie vocale

L'intégration est fluide. Si vous disposez déjà d'un agent textuel, inutile de le reconstruire : il suffit d'y connecter la voix. Les interfaces vocales ne semblent plus être bricolées. Plus besoin d'une douzaine d'outils : l'expérience est native. Pour ceux qui privilégient les expériences de synthèse vocale à faible latence, les modèles de synthèse vocale de l'API Realtime sont recommandés.

À quoi ça ressemble d'utiliser

Transcription ? Claire. J'ai fait des démonstrations publiques et écouté divers échantillons. Ces modèles gérer les entrées chaotiques Bien meilleurs que les anciens modèles basés sur Whisper. Si votre cas d'utilisation inclut des scénarios multi-interlocuteurs ou des sons réels complexes, ces modèles sont prêts.
Synthèse vocale ? Étonnamment réactive.La sortie vocale est clair, non robotique, et avec de vraies nuances. On n'obtient pas encore une performance digne d'un acteur, mais c'est un énorme progrès par rapport à « texte à l'entrée, voix neutre à la sortie ».

Ce lancement n'est pas bruyant, et c'est peut-être là l'objectif. OpenAI n'a pas cherché à faire exploser Internet avec ce lancement. Au contraire, ils ont discrètement intégré l'audio au fonctionnement des agents. Ils transforment la voix en un puissant outil d'automatisation. Et si vous attendiez le moment où vous pourriez arrêter de taper et commencer à parler à vos outils, c'est peut-être le signal que vous attendiez.

Automatisez les flux de travail vocaux avec Latenode

Vous souhaitez transformer l’audio en actions – et le texte en voix – sans créer une application entière à partir de zéro ?

Latenode vous permet d'automatiser vos workflows de synthèse vocale en quelques minutes. Aucun codage complexe n'est requis. Connectez simplement vos déclencheurs et c'est parti. Intégrez des dizaines de modèles d'IA. Connectez-vous à n'importe quel service via une intégration sans code ou une API. Pendant que nous travaillons à connecter les nouveaux modèles audio d'OpenAI, voici votre automatisation vocale :

Essayez-le maintenant : transformez vos pensées brutes en publication (ou autre chose)

Ce flux de travail écoute les messages vocaux Telegram, les transcrit, génère un texte de publication viral, crée une image et renvoie le tout à Telegram.

Résumé en 4 étapes :

Recevez un message vocal via le bot Telegram
Transcrire l'audio à l'aide de Whisper AI
Générer une publication virale + une invite d'image via ChatGPT
Créez une image avec Recraft AI et renvoyez-la sur Telegram

👉 Commencez à utiliser votre première automatisation vocale sur Latenode

Voici à quoi vous pouvez l'utiliser après une légère personnalisation :

Créez un plan pour la journée, réfléchissez à des idées, proposez-en de nouvelles sans rien taper.
Transcrivez les messages vocaux et acheminez-les vers des tickets d'assistance.
Résumez automatiquement les enregistrements de réunion et publiez-les sur Slack.
Combinez l'entrée et la sortie audio dans une boucle, avec n'importe quelle logique entre les deux.

Il s'agit d'un système sans code, modulaire et prêt pour des cas d'utilisation réels.

Les

Essayez maintenant