Welche neuen Audiomodelle wurden von OpenAI veröffentlicht?

OpenAI hat drei neue Audiomodelle veröffentlicht: gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts, die darauf ausgelegt sind, Sprache zu einem nativen Teil der KI-Interaktion zu machen.

Wie funktioniert das neue Text-to-Speech-Modell?

Das Modell gpt-4o-mini-tts kann angewiesen werden, in verschiedenen Stilen und Tonlagen zu sprechen, etwa wie ein ruhiger Therapeut oder ein enthusiastischer Demo-Moderator, und passt sich dynamisch an, ohne dass eine Neuprogrammierung erforderlich ist.

Wie wurde das Agents SDK mit Sprachfunktionen aktualisiert?

OpenAI hat sein Agents SDK aktualisiert, um Audio nahtlos zu integrieren. Dadurch können Agenten in einer Endlosschleife zuhören und sprechen, wodurch sich Sprachschnittstellen natürlicher anfühlen.

Ich habe die neuen Audiomodelle von OpenAI erkundet – hier ist, was sich tatsächlich anders anfühlt

Bereit zu gehen

Unterstützt von Latenode AI

Inhaltsverzeichnis

Ich habe die neuen Audiomodelle von OpenAI erkundet – hier ist, was sich tatsächlich anders anfühlt

OpenAI hat gerade einen großen Schritt in der Sprachtechnologie gemacht – und es handelt sich nicht nur um ein weiteres Transkriptions-Update. Im März 2025 wurden still und leise drei neue audiofokussierte Modelle eingeführt:

gpt-4o-transkribieren
gpt-4o-mini-transcribe
gpt-4o-mini-tts

Jeder hat einen spezifischen Zweck, aber alle verfolgen dasselbe Ziel: Die Stimme als integralen Bestandteil der KI-Interaktion zu gestalten – kein Patch, keine zusätzliche API, sondern etwas, das zum Kernprodukt gehört. Ich habe mir die offizielle Dokumentation, die SDK-Beispiele und die Audiobeispiele angesehen. Hier erfahren Sie, was tatsächlich passiert – und was noch nicht ganz erreicht ist.

Was ist neu? Viel mehr als nur eine bessere Spracherkennung.

1. Speech-to-Text: Nicht nur schneller – intelligenter

Die beiden neuen Transkriptionsmodelle (gpt-4o-transcribe und sein leichter Bruder gpt-4o-mini-transcribe) sind für mehr als nur die Aufzeichnung von Wörtern konzipiert. Sie bieten echte Verbesserungen bei der Verarbeitung anspruchsvoller Eingaben:

Starke Akzente
Übersprechen
Lärm (z. B. in öffentlichen Verkehrsmitteln oder in Cafés)
Schnelle Lautsprecher

Und die Benchmarks belegen dies: Diese Modelle weisen eine niedrigere Wortfehlerrate (WER) über mehrere Sprachen und akustische Bedingungen hinweg auf. Dies gilt nicht nur für Ihre nächste persönliche Assistenten-App – denken Sie an juristische, medizinische, Support-Center oder alle Bereiche, in denen Transkriptionsfehler Geld und Vertrauen kosten.

2. Text-to-Speech, das Sie wirklich erreicht

Hier ist der Teil, der mich überrascht hat.

Das neue gpt-4o-mini-tts erzeugt nicht nur gut klingende Audiodateien. Man kann ihm auch sagen, wie es sprechen soll – mithilfe natürlicher Anweisungen. Dinge wie:

„Sprechen Sie wie ein ruhiger Therapeut“
„Klingt enthusiastisch wie ein Moderator einer Produktdemo“
„Sprich leise, als würdest du in einer Bibliothek flüstern.“

Und das Modell passt sich an – dynamisch, ohne Neuprogrammierung.

Es ist (noch) nicht perfekt, aber Ausdrucksstärke und Anweisungsbefolgung sind eindeutig die nächste Grenze. Die emotionale Qualität von Stimmen lässt sich nun in Sekundenschnelle programmieren. Sie können auf das Modell zugreifen über Text-to-Speech-API or OpenAI.FM. Bedenken Sie, dass es sich bei diesen Stimmen um voreingestellte künstliche Samples handelt, die überprüft wurden, um sicherzustellen, dass sie stets den synthetischen Standards entsprechen.

3. Agents SDK hat eine Stimme bekommen

Dieser Teil hat mich zum Lächeln gebracht. OpenAI hat seine Agenten-SDK Audio mühelos anschließen. Das bedeutet:

Ihr Agent kann hören
Ihr Agent kann sprechen
Und alles läuft in einer Endlosschleife – Eingabe → Verarbeitung → gesprochene Ausgabe

Die Integration ist reibungslos. Wenn Sie bereits einen textbasierten Agenten haben, müssen Sie ihn nicht neu erstellen – verbinden Sie einfach die Sprachschnittstelle. Dadurch fühlen sich Sprachschnittstellen endlich nicht mehr zusammengebastelt an. Sie benötigen nicht mehr ein Dutzend Tools – es ist ein natives Erlebnis. Für alle, die Wert auf latenzarme Sprach-zu-Sprache-Erlebnisse legen, sind die Sprach-zu-Sprache-Modelle der Echtzeit-API die beste Wahl.

Wie es sich anfühlt, es zu benutzen

Transkription? Knackig. Ich habe die öffentlichen Demos ausgeführt und verschiedene Samples angehört. Diese Modelle chaotische Eingaben verarbeiten deutlich besser als ältere Whisper-basierte Modelle. Wenn Ihr Anwendungsfall Szenarien mit mehreren Sprechern oder unruhiges Real-World-Audio umfasst, sind diese Modelle bereit.
Sprachsynthese? Überraschend reaktionsschnell.Die Sprachausgabe ist klar, nicht-roboterhaftund ist wirklich nuanciert. Die Leistung ist zwar noch nicht auf dem Niveau eines Schauspielers, aber es ist ein gewaltiger Fortschritt gegenüber „Text rein, monotone Stimme raus“.

Dieser Start ist nicht laut – und vielleicht ist genau das der Punkt. OpenAI hat nicht versucht, das Internet zu erschüttern. Stattdessen hat das Unternehmen Audio unauffällig in die Arbeitsweise von Agenten integriert. Es macht aus der Stimme ein leistungsstarkes Werkzeug für die Automatisierung. Und wenn Sie auf den Moment gewartet haben, in dem Sie mit dem Tippen aufhören und mit Ihren Tools sprechen können, könnte dies genau das Signal sein, auf das Sie gewartet haben.

Automatisieren Sie Sprach-Workflows mit Latenode

Möchten Sie Audio in Aktionen und Text in Sprache umwandeln, ohne eine komplette App von Grund auf neu zu erstellen?

Mit Latenode automatisieren Sie Speech-to-Text- und Text-to-Speech-Workflows in wenigen Minuten. Ganz ohne komplexe Programmierung. Verbinden Sie einfach Ihre Trigger und los geht‘s. Integrieren Sie Dutzende KI-Modelle. Verbinden Sie sich mit jedem Dienst per No-Code-Integration oder API. Während wir an der Anbindung der neuesten Audiomodelle von OpenAI arbeiten, hier ist Ihre sprachgesteuerte Automatisierung:

Probieren Sie es jetzt aus: Verwandeln Sie Ihre Rohgedanken in Beiträge (oder etwas anderes)

Dieser Workflow hört Telegram-Sprachnachrichten ab, transkribiert sie, generiert viralen Posttext, erstellt ein Bild und sendet alles zurück an Telegram.

Zusammenfassung in 4 Schritten:

Sprachnachrichten über den Telegram-Bot empfangen
Transkribieren Sie Audio mit Whisper AI
Generieren Sie virale Beiträge + Bildaufforderungen über ChatGPT
Erstellen Sie ein Bild mit Recraft AI und senden Sie es zurück an Telegram

👉 Beginnen Sie mit Ihrer ersten Sprachautomatisierung auf Latenode

Hier erfahren Sie, wofür Sie es nach einer kleinen Anpassung verwenden können:

Erstellen Sie einen Plan für den Tag, führen Sie ein Brainstorming durch und lassen Sie sich neue Ideen einfallen, ohne etwas eintippen zu müssen.
Transkribieren Sie Voicemails und leiten Sie sie an Support-Tickets weiter.
Besprechungsaufzeichnungen automatisch zusammenfassen und in Slack veröffentlichen.
Kombinieren Sie Audioeingang und -ausgang in einer Schleife – mit beliebiger Logik dazwischen.

Es geht um No-Code, modular und bereit für echte Anwendungsfälle.

Es gibt einen Teil der ...

Jetzt testen