tl;dr: Was du über GPT-4o wissen musst
GPT-4o („o“ für „omni“) ist ein Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion – es akzeptiert als Eingabe jede Kombination aus Text, Audio und Bild und erzeugt jede Kombination aus Text, Audio und Bild als Ausgabe. Es kann auf Audioeingaben in nur 232 Millisekunden reagieren, im Durchschnitt in 320 Millisekunden, was ähnlich wie die menschliche Reaktionszeit in einem Gespräch ist. Es entspricht der Leistung von GPT-4 Turbo bei Text in Englisch und Code, mit erheblichen Verbesserungen bei Text in nicht-englischen Sprachen, während es auch viel schneller und 50 % günstiger in der API ist. GPT-4o ist insbesondere bei der Erkennung von Bildern und Audio besser als bestehende Modelle.
Die Welt staunt über ChatGPT – schon wieder
Im OpenAI Frühjahrs-Update am 13.05.2024 durften wir zum ersten Mal das neue Flagship Model bewundern: GPT-4o
Das o steht für omni, denn das neue Model besticht vor allem durch seine Fähigkeit, Texte, Audio, Bilder und Videos noch besser verarbeiten zu können.
So ist jetzt zum Beispiel ein Gespräch ohne Verzögerung möglich – und ChatGPT’s Stimme lacht, verändert die Tonlage und kann auch herrlich sarkastisch sein. Wahnsinn.
Durch die neue (Desktop-) App sieht ChatGPT zudem in Echtzeit, was wir sehen – seien es Grafiken auf unserem Laptop-Screen, die Hausaufgaben auf dem Schreibtisch oder das japanische Straßenschild bei einem Urlaubs-Spaziergang – und kann uns wiederum in Echtzeit weitere Infos dazu geben.
Alle neuen Fähigkeiten von GPT-4o im Überblick
1. Einführung von GPT-4o – gratis!
GPT-4o repräsentiert einen signifikanten Fortschritt in der künstlichen Intelligenz. Es ist nicht nur schneller und effizienter in der Verarbeitung von Text, Bildern und Audio, sondern steht nun auch kostenlosen Nutzern zur Verfügung. Dieses Modell ist so konzipiert, dass es Emotionen in Sprache und Video erkennen und entsprechend in der eigenen Sprachausgabe Emotionen anpassen kann, was ein intuitiveres und menschlicheres Interaktionserlebnis schafft.
Als gratis Nutzer kommst du schneller an die Nutzungsgrenze und kannst dann mit GPT-3,5 weitermachen. Um GPT-4o auszwählen, gehe in einen Chat und wähle oben im Dropdown-Menü anstatt GPT-3,5 oder GPT-4 nun GPT-4o aus.
2. Desktop-Version von ChatGPT
Die neue Desktop-App von ChatGPT macht den Zugang und die Nutzung einfacher denn je. Sie integriert sich nahtlos in bestehende Workflows und kommt mit einer überarbeiteten Benutzeroberfläche, die trotz der Komplexität der Technologie eine natürliche Benutzererfahrung ermöglicht.
3. Verbesserungen im Voice Mode
Der verbesserte Voice Mode von GPT-4o bietet nun Echtzeit-Gesprächsfähigkeiten ohne spürbare Verzögerungen. Dank der Fähigkeit, Emotionen zu erkennen und darauf zu reagieren, kann GPT-4o beispielsweise beruhigend wirken oder Freude ausdrücken, abhängig von der Stimmung des Benutzers.
4. Kostenlose Verfügbarkeit von GPTs und GPT Store
In einem bemerkenswerten Schritt zur Demokratisierung der KI-Technologie macht OpenAI sowohl die GPT-Modelle als auch den Zugang zum GPT Store für alle Nutzer kostenlos. Dies öffnet die Türen für kreative und innovative Anwendungen durch eine viel breitere Nutzerbasis.
5. Integration visueller Inhalte und Browsing-Funktionen
ChatGPT erweitert seine Fähigkeiten durch die Integration von visuellen Inhalten. Nutzer können jetzt Fotos und Dokumente hochladen und darüber hinaus Informationen in Echtzeit recherchieren. Diese Funktionen machen ChatGPT zu einem noch mächtigeren Tool für den Alltag.
6. Globale Zugänglichkeit und Sprachunterstützung
OpenAI hat die Qualität und Geschwindigkeit von ChatGPT in 50 verschiedenen Sprachen verbessert, was die globale Zugänglichkeit weiter erhöht. Nun können noch mehr Menschen weltweit von dieser fortschrittlichen KI profitieren. Auf Deutsch benötigt das Modell nun zum Beispiel 1,2x weniger Token, sprich von 34 auf 29.
7. API-Zugang 50 % günstiger als GPT-4 Turbo
Zudem ist GPT-4o um die Hälfte günstiger als das bisherige Flagship-Model, GPT-4 Turbo, und schon heute über eine API zugänglich, die es Entwicklern ermöglicht, effizient und kostengünstig Anwendungen zu erstellen.
Zum Vergleich:
- Kosten GPT-4o: Input $5, Output $15 per 1 Mio. Token
- Kosten GPT-4 Turbo: Input $10, Output $30 per 1 Mio. Token
Verfügbarkeit: Wann kann wer was nutzen?
Ab sofort:
- Text- und Bildfunktionen: Verfügbar in ChatGPT für alle Nutzer (kostenlos) und Plus-Nutzer (mit bis zu 5-mal höheren Nachrichtenlimits).
In den kommenden Wochen:
- Voice Mode: Neue Version mit GPT-4o in der Alpha-Version für ChatGPT Plus.
Jetzt für Entwickler:
- Text- und Vision-Modell: Verfügbar in der API, 2-mal schneller und halb so teuer wie GPT-4 Turbo, mit 5-mal höheren Ratenlimits.
In den kommenden Wochen:
- Audio- und Videofunktionen: Unterstützung für eine kleine Gruppe vertrauenswürdiger Partner in der API.
Fazit: KI wird immer besser und günstiger
Das Frühjahrs-Update von OpenAI zeigt deutlich, wie sehr das Unternehmen bestrebt ist, seine KI-Werkzeuge nicht nur zu verbessern, sondern auch breiter zugänglich zu machen. Diese Entwicklungen markieren einen spannenden Schritt in der Zukunft der KI-Technologie, der das Potenzial hat, die Art und Weise, wie wir leben und arbeiten, zu verändern.
Wir müssen nur bereit sein, die neuen Möglichkeiten zu entdecken, mit der einen Frage im Hinterkopf: Was davon bringt einen echten Mehrwert für mich und meine Kunden?
Sehr gerne unterstütze ich dich durch meine Kurse und persönliche Beratung dabei, dies herauszufinden und umzusetzen.
Weiterführende Links zu GPT-4o
- Spring Update: Produkt-Vorstellung GPT-4o
- Video-Serie: Introducing GPT-4o
- offizielle Produkt-Seite: Hello GPT-4o
- Kosten: Preise für ChatGPT
- Kosten: Preise für die API