OpenAI GPT-4 kommt Mitte März 2023

Der CTO von Microsoft Germany, Andreas Braun, bestätigte, dass GPT-4 innerhalb einer Woche ab dem 9. März 2023 auf den Markt kommen wird und dass es multimodal sein wird. Multimodale KI bedeutet, dass es in der Lage sein wird, mit verschiedenen Arten von Eingaben zu arbeiten, wie Videos, Bildern und Ton.

Aktualisiert: GPT-4 veröffentlicht am 14. März 2023

OpenAI hat GPT-4 veröffentlicht am 14. März 2023. Es handelt sich um ein multimodales Modell, das Bild- und Textanfragen akzeptiert.

Modal ist ein Begriff, der in der maschinellen Lernphase verwendet wird, um Eingabeformen wie Text, aber auch Sinne wie Klang, visuelle Wahrnehmung, Geruch usw. zu bezeichnen.

OpenAI's Ankündigung beschreibt das Ausmaß der Fortschritte von GPT-4:

„...während es in vielen realen Szenarien weniger leistungsfähig ist als Menschen, zeigt es auf verschiedenen professionellen und akademischen Prüfungen eine Leistung auf dem Niveau des Menschen.

Zum Beispiel besteht es eine simulierte Anwaltsprüfung mit einer Punktzahl unter den besten 10% der Teilnehmer; im Vergleich dazu lag die Punktzahl von GPT-3.5 unter den schlechtesten 10%.

Wir haben 6 Monate lang GPT-4 iterativ ausgerichtet, unter Verwendung von Erkenntnissen aus unserem adversarialen Testprogramm sowie ChatGPT, was zu unseren bisher besten Ergebnissen (obwohl weit entfernt von perfekt) in Bezug auf Faktentreue, Steuerbarkeit und das Verweigern des Verlassens des vorgegebenen Rahmens geführt hat.“

Multimodale Große Sprachmodelle

Das Wichtigste an der Ankündigung ist, dass GPT-4 multimodal ist (SEJ hat im Januar 2023 vorhergesagt, dass GPT-4 multimodal ist: GPT-4 ist multimodal).

Modalität bezieht sich auf den Eingabetyp, mit dem ein (in diesem Fall) großer Sprachmodell arbeitet.

Multimodal kann Text, Sprache, Bilder und Video umfassen.

GPT-3 und GPT-3.5 funktionierten nur in einer Modalität, Text.

Laut dem deutschen Nachrichtenbericht soll GPT-4 in mindestens vier Modalitäten arbeiten können: Bilder, Ton (auditiv), Text und Video.

Dr. Andreas Braun, CTO Microsoft Deutschland, wird zitiert:

"Nächste Woche werden wir GPT-4 einführen, dort werden wir multimodale Modelle haben, die völlig andere Möglichkeiten bieten - zum Beispiel Videos..."

Es fehlten konkrete Angaben zum GPT-4 in dem Bericht, daher ist unklar, ob das, was über die Multimodalität gesagt wurde, speziell für GPT-4 galt oder eher allgemein gemeint war.

Microsoft Director Business Strategy Holger Kenn erläuterte Multimodalitäten, aber der Bericht war unklar, ob er sich auf die Multimodalität von GPT-4 oder die Multimodalität im Allgemeinen bezog.

Ich glaube, seine Verweise auf Multimodalität bezogen sich speziell auf GPT-4.

Der Nachrichtenbericht teilte mit:

„Kenn erklärte, worum es bei multimodaler KI geht, die Text nicht nur entsprechend in Bilder übersetzen kann, sondern auch in Musik und Video.“

Ein weiterer interessanter Fakt ist, dass Microsoft an "Vertrauensmetriken" arbeitet, um ihre KI-Arbeit mit Fakten zu verankern und somit zuverlässiger zu machen.

Microsoft Kosmos-1

Etwas, das anscheinend in den Vereinigten Staaten wenig beachtet wurde, ist, dass Microsoft Anfang März 2023 ein multimodales Sprachmodell namens Kosmos-1 veröffentlicht hat.

Gemäß den Berichten der deutschen Nachrichtenwebsite Heise.de:

„... das Team hat das vortrainierte Modell verschiedenen Tests unterzogen, mit guten Ergebnissen bei der Klassifizierung von Bildern, Beantwortung von Fragen zum Bildinhalt, automatischen Beschriftung von Bildern, optischer Texterkennung und Spracherzeugungsaufgaben.

...Visuelles Denken, d.h. Schlussfolgerungen aus Bildern ziehen, ohne Sprache als Zwischenschritt zu verwenden, scheint hier der Schlüssel zu sein...

Kosmos-1 ist ein multimodales Modell, das die Modalitäten von Text und Bildern integriert.

GPT-4 geht weiter als Kosmos-1, da es eine dritte Modalität, Video, hinzufügt und anscheinend auch die Modalität des Tons beinhaltet.

Funktioniert in mehreren Sprachen

GPT-4 scheint in allen Sprachen zu funktionieren. Es wird beschrieben, dass es eine Frage auf Deutsch empfangen und auf Italienisch antworten kann.

Das ist eine seltsame Beispiel, denn wer würde auf Deutsch eine Frage stellen und eine Antwort auf Italienisch erhalten wollen?

Dies ist, was bestätigt wurde:

„...die Technologie hat sich so weit entwickelt, dass sie grundsätzlich „in allen Sprachen funktioniert“: Du kannst eine Frage auf Deutsch stellen und eine Antwort auf Italienisch erhalten.

Mit Multimodalität wird Microsoft(-OpenAI) die Modelle ‚umfassend machen‘.“

Ich glaube, der Durchbruch besteht darin, dass das Modell mit seiner Fähigkeit, Wissen aus verschiedenen Sprachen zu extrahieren, über die Sprache hinausgeht. Wenn also die Antwort auf Italienisch ist, wird es dies wissen und in der Sprache, in der die Frage gestellt wurde, eine Antwort geben können.

Das würde es ähnlich wie das Ziel von Googles multimodaler KI namens MUM machen. MUM soll in der Lage sein, Antworten auf Englisch zu liefern, für die die Daten nur in einer anderen Sprache wie Japanisch vorhanden sind.

GPT-4 Anwendungen

Es gibt derzeit keine Ankündigung, wo GPT-4 auftauchen wird. Aber Azure-OpenAI wurde explizit erwähnt.

Google kämpft darum, mit Microsoft gleichzuziehen, indem es eine konkurrierende Technologie in seine eigene Suchmaschine integriert. Diese Entwicklung verschärft weiterhin die Wahrnehmung, dass Google zurückfällt und in Bezug auf KI für Endverbraucher keine Führungsrolle einnimmt.

Google integriert bereits KI in mehrere Produkte wie Google Lens, Google Maps und andere Bereiche, mit denen Verbraucher mit Google interagieren. Dieser Ansatz besteht darin, KI als assistierende Technologie zu nutzen, um Menschen bei kleinen Aufgaben zu unterstützen.

Die Art und Weise, wie Microsoft es umsetzt, ist deutlicher sichtbar und zieht daher alle Aufmerksamkeit auf sich und verstärkt das Bild von Google als kämpfend und hinterherhinkend.

Lesen Sie hier die offizielle Veröffentlichungserklärung von OpenAI GPT-4.

Hier finden Sie die originale deutsche Berichterstattung:

GPT-4 kommt nächste Woche - und es wird multimodal sein, sagt Microsoft Deutschland

OpenAI GPT-4 wird Mitte März 2023 eintreffen

Aktualisiert: GPT-4 veröffentlicht am 14. März 2023

Multimodale Große Sprachmodelle

Microsoft Kosmos-1

Funktioniert in mehreren Sprachen

GPT-4 Anwendungen

Zugehörige Artikel