Was ist GPT-3? Alles, was Ihr Unternehmen über OpenAI's bahnbrechendes AI-Sprachprogramm wissen muss

zdnet-gpt-3-ist-das-nächste-wort-in-ki-ver-2.jpg

GPT-3 ist ein Computerprogramm, das von OpenAI erstellt wurde, einem privat gehaltenen Start-up-Unternehmen in San Francisco. Es handelt sich um ein riesiges neuronales Netzwerk und gehört daher zum Bereich des Deep Learning im Maschinenlernen, das wiederum ein Teilgebiet der Informatik ist, das als Künstliche Intelligenz oder AI bekannt ist. Das Programm ist besser als jedes zuvor entwickelte Programm darin, Texte zu produzieren, die so klingen, als könnten sie von einem Menschen verfasst worden sein.

Der Grund, warum ein solcher Durchbruch für Unternehmen nützlich sein könnte, liegt darin, dass er ein großes Potenzial für die Automatisierung von Aufgaben bietet. GPT-3 kann auf jeden Text, den eine Person in den Computer eingibt, mit einem neuen Textstück antworten, das dem Kontext entspricht. Geben Sie zum Beispiel einen vollständigen englischen Satz in ein Suchfeld ein, und es ist wahrscheinlicher, dass Sie eine relevante Antwort in vollständigen Sätzen zurückbekommen. Das bedeutet, dass GPT-3 menschliche Anstrengungen in einer Vielzahl von Situationen potenziell verstärken kann, von Fragen und Antworten im Kundenservice über die Suche nach Due-Diligence-Dokumenten bis hin zur Berichterstellung.

Beachten Sie das folgende kurze Beispiel dafür, was eine Person in den Computer eingibt und wie GPT-3 eine Antwort zurückschickt:

Human-supplied input : Q: Wer spielte Tess in "Ein Hauch von Himmel"?

GPT-3-generierte Vervollständigung: A: Delloreese Patricia Early (6. Juli 1931 { 19. November 2017), bekannt als Della Reese

Das Programm befindet sich derzeit in einer privaten Beta-Version, für die sich die Leute auf einer Warteliste anmelden können. Es wird von OpenAI als API angeboten, die über die Cloud zugänglich ist. Unternehmen, die Zugriff erhalten haben, haben einige faszinierende Anwendungen entwickelt, die die Erzeugung von Text verwenden, um alle Arten von Programmen zu verbessern, vom einfachen Frage-Antwort-System bis zur Erstellung von Programmcode.

Zusammen mit dem Potenzial für Automatisierung gibt es große Nachteile. GPT-3 benötigt viel Rechenleistung, was es für die meisten Unternehmen in jeder denkbaren On-Premise-Anwendung ungeeignet macht. Der generierte Text kann auf den ersten Blick beeindruckend sein, aber längere Kompositionen werden oft etwas sinnlos. Außerdem birgt GPT-3 ein großes Potenzial, Vorurteile zu verstärken, einschließlich Rassismus und Sexismus.

WIE FUNKTIONIERT GPT-3?

GPT-3 ist ein Beispiel für das, was als Sprachmodell bezeichnet wird, das eine bestimmte Art von statistischem Programm ist. In diesem Fall wurde es als neuronales Netzwerk erstellt.

Der Name GPT-3 ist ein Akronym für "generatives Pre-Training", von dem dies bisher die dritte Version ist. Es ist generativ, weil es im Gegensatz zu anderen neuronalen Netzwerken, die eine numerische Bewertung oder eine Ja- oder Nein-Antwort liefern, lange Sequenzen von originalem Text als Ausgabe generieren kann. Es ist vortrainiert in dem Sinne, dass es nicht mit spezifischem Fachwissen erstellt wurde, obwohl es spezifische Aufgaben in bestimmten Bereichen wie Fremdsprachenübersetzung erfüllen kann.

Ein Sprachmodell ist in diesem Fall bei GPT-3 ein Programm, das berechnet, wie wahrscheinlich es ist, dass ein Wort in einem Text erscheint, basierend auf den anderen Worten im Text. Das wird als bedingte Wahrscheinlichkeit von Wörtern bezeichnet.

Zum Beispiel, in dem Satz Ich wollte ein Omelett machen, also ging ich zum Kühlschrank und nahm etwas ____ heraus, kann die Lücke mit jedem Wort, auch Unsinn, gefüllt werden, aufgrund der unendlichen Komponierbarkeit von Sprache. Aber das Wort "Eier" hat wahrscheinlich eine ziemlich hohe Wahrscheinlichkeit, um diese Lücke in den meisten normalen Texten auszufüllen, höher als zum Beispiel "Elefanten". Wir sagen, dass die Wahrscheinlichkeit von Eiern unter der Bedingung des vorgegebenen Textes höher ist als die Wahrscheinlichkeit von Elefanten.

Wenn das neuronale Netzwerk entwickelt wird, in der sogenannten Trainingsphase, werden GPT-3 Millionen und Abermillionen von Textbeispielen zugeführt und es wandelt Wörter in sogenannte Vektoren um, numerische Darstellungen. Dies ist eine Form der Datenkompression. Das Programm versucht dann, diesen komprimierten Text wieder in einen gültigen Satz zu entschlüsseln. Die Aufgabe des Komprimierens und Dekomprimierens entwickelt die Genauigkeit des Programms bei der Berechnung der bedingten Wahrscheinlichkeit von Wörtern.

Sobald das Modell trainiert wurde, was bedeutet, dass seine Berechnungen zur bedingten Wahrscheinlichkeit über Milliarden von Wörtern so genau wie möglich sind, kann es vorhersagen, welche Wörter folgen, wenn es von einer Person aufgefordert wird, ein Anfangswort oder Anfangswörter einzugeben. Diese Handlung der Vorhersage wird im maschinellen Lernen als Inferenz bezeichnet.

Dies führt zu einer beeindruckenden Spiegeleffekt. Es entstehen nicht nur wahrscheinliche Wörter, sondern auch die Textur und der Rhythmus eines Genres oder die Form einer schriftlichen Aufgabe, wie Frage-Antwort-Sätze, werden reproduziert. So kann zum Beispiel GPT-3 mit einigen Namen berühmter Dichter und Beispielen ihrer Werke gefüttert werden, dann der Name eines anderen Dichters und nur der Titel eines imaginären Gedichts, und GPT-3 wird ein neues Gedicht erzeugen, das im Rhythmus und in der Syntax des Dichters, dessen Name angegeben wurde, konsistent ist.

In Betracht ziehen Sie die folgende Instanz von GPT-3, die ein Gedicht von Grund auf erstellt, das irgendwie dem Werk von Wallace Stevens ähnelt, nachdem ihr Titel, Namen und Beispiele anderer Dichter und ihrer Werke gegeben wurden:

Human-supplied input : Die Stadt  VON C. P. CAVAFY   ÜBERSETZT VON EDMUND KEELEY [Gedichttext ausgelassen]

Mitgelieferte Eingabe: EINIGE BÄUME John Ashbery [Gedichttext ausgelassen]

   Schatten auf dem Weg Wallace Stevens

GPT-3-generierte Fertigstellung : -------- Generiertes Gedicht 1 --------   Ich muss Schatten haben auf dem Weg  Wenn ich gehen will, muss ich  Jeder Schritt langsam und alleine gemacht werden, um es fertig zu haben    Und ich muss in Grautönen denken, um gedämpfte Gedanken als meinen Führer zu haben  Muss auf Blau und Grün schauen  Und niemals vergessen, dass Farbe mein Freund ist  Und Lila muss mich umgeben  Das Gelb der Sonne ist nicht aufdringlicher als der bläuliche Schnee,  Der auf uns alle fällt. Ich muss  Graue Gedanken und blaue Gedanken müssen mich begleiten  Wenn ich überhaupt weggehen will.

Das Generieren einer Antwort bedeutet, dass GPT-3 weit über das reine Verfassen von Texten hinausgehen kann. Es kann bei allerlei Tests bestehen, einschließlich Tests des Denkens, die eine sprachliche Antwort erfordern. Wenn zum Beispiel ein Aufsatz über Mietpreise von Mietobjekten in Manhattan eingegeben wird und eine Aussage, die den Text zusammenfasst, wie zum Beispiel "Manhattan ist günstig", und die Frage "wahr oder falsch?", wird GPT-3 auf die gesamte Aufforderung reagieren, indem es das Wort "falsch" zurückgibt, da die Aussage nicht mit dem Argument des Aufsatzes übereinstimmt.

Benutzereingabe: Der Trend zu niedrigeren Mieten mag überraschend erscheinen, wenn man bedenkt, dass einige Gemeinden in New York den Verlust ihrer Lieblingslokale aufgrund hoher Mieten beklagen. Aber trotz der jüngsten Abschwächung ist für viele dieser Einzelhändler der Preisanstieg seit den Mietverträgen aus den späten 1970er Jahren immer noch zu hoch. Sicherlich bedeutet der aktuelle Preisverfall nicht, dass Manhattan günstig ist.

Menschliche Eingabe: Frage: Manhattan ist günstig. Wahr, falsch oder weder noch?

Benutzer-Eingabe: Antwort:

GPT-3-generierte Vervollständigung: falsch

GPT-3s Fähigkeit, auf eine Weise zu antworten, die mit einer beispielhaften Aufgabe übereinstimmt, einschließlich Formen, mit denen es zuvor noch nie in Berührung gekommen ist, macht es zu einem sogenannten "few-shot" Sprachmodell. Anstatt ausgiebig angepasst oder "trainiert" zu werden, wie es genannt wird, für eine gegebene Aufgabe, hat GPT-3 bereits so viele Informationen darüber, wie Wörter kombiniert werden, dass es nur eine Handvoll Beispiele für eine Aufgabe erhalten kann, was als Feinabstimmungsschritt bezeichnet wird, und dadurch die Fähigkeit erhält, auch diese neue Aufgabe auszuführen.

Die Fähigkeit, natürliche Sprachstile widerzuspiegeln und relativ hohe Punktzahlen bei sprachbasierten Tests zu erzielen, kann den Eindruck erwecken, dass GPT-3 über eine Art menschenähnliche Sprachfähigkeit verfügt. Wie wir jedoch sehen werden, trifft das nicht zu.

Mehr technische Details finden Sie in dem formellen GPT-3-Papier, das von Wissenschaftlern bei OpenAI veröffentlicht wurde.

WAS KANN GPT-3 TUN?

OpenAI ist mittlerweile genauso berühmt - oder berüchtigt - für die Veröffentlichungspraktiken seines Codes wie für den Code selbst. Als das Unternehmen GPT-2, den Vorgänger, am Valentinstag 2019 vorstellte, wurde die leistungsfähigste Version zunächst nicht öffentlich zugänglich gemacht, da sie als zu gefährlich eingestuft wurde, da eine Massenproduktion von falschem und irreführendem Text drohte. OpenAI hat es anschließend zum Download freigegeben.

Dieses Mal stellt OpenAI keine Downloads zur Verfügung. Stattdessen hat es einen Cloud-basierten API-Endpunkt aktiviert und bietet GPT-3 als Service an. (Denken Sie daran wie an ein "LMaaS", ein Sprachmodell-als-Service.) Der Grund, so behauptet OpenAI, ist sowohl die Nutzung von GPT-3 durch böswillige Akteure einzuschränken als auch Geld zu verdienen.

"Mit Open Source gibt es keine 'Rückgängig'-Taste", sagte OpenAI durch einen Sprecher zu ZDNet.

"Die Veröffentlichung von GPT-3 über eine API ermöglicht es uns, seine Verwendung sicher zu kontrollieren und den Zugriff bei Bedarf zurückzusetzen."

Zurzeit ist der OpenAI-API-Dienst auf genehmigte Parteien beschränkt. Es gibt eine Warteliste, der man beitreten kann, um Zugang zu erhalten.

"Derzeit befindet sich die API in einer kontrollierten Beta-Phase mit einer kleinen Anzahl von Entwicklern, die eine Idee einreichen, um etwas mithilfe der API in die Produktion zu bringen", sagte OpenAI zu ZDNet.

Außerdem: OpenAI's 'gefährlicher' KI-Textgenerator ist da: Menschen finden die Worte 'überzeugend'

Es gibt faszinierende Beispiele dafür, was von Unternehmen im Beta-Programm erreicht werden kann. Sapling, ein von dem Venture-Fonds Y Combinator unterstütztes Unternehmen, bietet ein Programm an, das auf CRM-Software aufsetzt. Wenn ein Kundendienstmitarbeiter eine eingehende Hilfeanfrage bearbeitet, beispielsweise per E-Mail, verwendet das Programm GPT-3, um einen ganzen Satz als Antwort aus den wahrscheinlichsten Antworten vorzuschlagen.

Spielentwickler Latitude nutzt GPT-3, um sein textbasiertes Abenteuerspiel AI Dungeon zu verbessern. Normalerweise erfordert ein Abenteuerspiel einen komplexen Entscheidungsbaum, um viele mögliche Spielverläufe zu scripten. Anstelle dessen kann GPT-3 dynamisch einen sich ständig ändernden Spielzustand generieren, basierend auf den vom Benutzer eingegebenen Aktionen.

Bereits jetzt geht die Automatisierung von Aufgaben über natürliche Sprache hinaus und erstreckt sich auf das Generieren von Computercode. Code ist eine Sprache und GPT-3 kann die wahrscheinlichste Syntax von Operatoren und Operanden in verschiedenen Programmiersprachen ableiten und Sequenzen erzeugen, die erfolgreich kompiliert und ausgeführt werden können.

Ein frühes Beispiel brachte das Twitter-Universum zum Leuchten, von der App-Entwicklungsfirma Debuild. Der Chef des Unternehmens, Sharif Shameem, war in der Lage, ein Programm zu erstellen, bei dem Sie Ihre Beschreibung einer Software-Benutzeroberfläche auf Deutsch eingeben und GPT-3 mit Hilfe der JSX-Syntaxerweiterung von JavaScript mit Computercode antwortet. Dieser Code erzeugt eine Benutzeroberfläche, die Ihrer Beschreibung entspricht.

Das ist unglaublich. Mit GPT-3 habe ich einen Layout-Generator erstellt, bei dem Sie einfach jede gewünschte Layoutbeschreibung angeben und er generiert den JSX-Code für Sie. W A S pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13. Juli 2020

Shameem hat gezeigt, dass er durch die Beschreibung einer Benutzeroberfläche mit mehreren Schaltflächen mit einem einzigen Satz ein vollständiges Programm beschreiben kann, wenn auch ein einfaches wie die Berechnung einfacher Arithmetik und die Anzeige des Ergebnisses. GPT-3 würde den gesamten Code dafür erstellen und die laufende Anwendung anzeigen.

Ich habe gerade eine *funktionierende* React App erstellt, indem ich GPT-3 beschrieben habe, was ich wollte. Ich bin immer noch sprachlos. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17. Juli 2020

OpenAI hat "bis heute Zehntausende von Bewerbungen für den API-Zugang erhalten und prüft den Zugang sorgfältig, um herauszufinden, was diese Modelle in der realen Welt leisten können", sagte das Unternehmen gegenüber ZDNet. "Daher könnte die Warteliste lang sein."

Die Preise für einen eventuellen kommerziellen Service stehen noch nicht fest. Auf die Frage, wann das Programm aus der Beta-Phase herauskommen wird, antwortete OpenAI dem Magazin ZDNet mit den Worten "nicht in naher Zukunft".

"Die Veröffentlichung eines so leistungsstarken Modells bedeutet, dass wir langsam vorgehen und sorgfältig über seine Auswirkungen auf Unternehmen, Branchen und Menschen nachdenken müssen", sagte das Unternehmen. "Das Format einer API ermöglicht es uns, ihre Verwendung angemessen zu untersuchen und zu moderieren, aber wir haben keine Eile damit, es allgemein verfügbar zu machen, angesichts seiner Einschränkungen."

Wenn Sie ungeduldig mit der Beta- Warteliste sind, können Sie in der Zwischenzeit die vorherige Version, GPT-2, herunterladen, die mit einer Docker-Installation auf einem Laptop ausgeführt werden kann. Der Quellcode ist im selben Github-Repository im Python-Format für das TensorFlow-Framework veröffentlicht. Natürlich erhalten Sie nicht dieselben Ergebnisse wie bei GPT-3, aber es ist eine Möglichkeit, sich mit der Technologie vertraut zu machen.

Denken Sie auch daran, dass ständig neue Sprachmodelle mit ähnlichen Fähigkeiten auftauchen und einige von ihnen möglicherweise für Ihre Zwecke ausreichend sein können. Zum Beispiel hat Google kürzlich eine Version seines BERT-Sprachmodells namens LaBSE veröffentlicht, das eine deutliche Verbesserung bei der Sprachübersetzung zeigt. Es steht zum Download im TensorFlow Hub zur Verfügung.

Außerdem: OpenAI's gigantisches GPT-3 deutet auf die Grenzen von Sprachmodellen für KI hin

WAS IST DIE GESCHICHTE VON GPT-3?

GPT-3, im Mai vorgestellt, ist die dritte Version eines Programms, das OpenAI erstmals 2018 eingeführt hat und dem im letzten Jahr GPT-2 folgte. Die drei Programme sind ein Beispiel für schnelle Innovationen im Bereich der Sprachmodelle, die auf zwei großen Fortschritten basieren, die beide im Jahr 2015 stattgefunden haben.

Der erste Fortschritt war die Verwendung von dem, was als Aufmerksamkeit bekannt ist. Der KI-Wissenschaftler Yoshua Bengio und seine Kollegen am Mila-Institut für KI in Montreal beobachteten, dass Sprachmodelle, wenn sie einen englischsprachigen Satz komprimierten und dann wieder entkomprimierten, immer einen Vektor fester Länge verwendeten. Jeder Satz wurde in denselben vektorförmigen Raum gepackt, unabhängig davon, wie lang der Satz war.

Bengio und sein Team kamen zu dem Schluss, dass dieser starre Ansatz ein Engpass ist. Ein Sprachmodell sollte in der Lage sein, über viele Vektoren unterschiedlicher Längen zu suchen, um die Wörter zu finden, die die bedingte Wahrscheinlichkeit optimieren. Daher entwickelten sie eine Methode, um dem neuronalen Netzwerk das flexible Komprimieren von Wörtern in Vektoren unterschiedlicher Größe zu ermöglichen sowie dem Programm das flexible Durchsuchen dieser Vektoren nach dem relevanten Kontext zu gestatten. Dies nannten sie Aufmerksamkeit.

Aufmerksamkeit wurde zu einem entscheidenden Element in Sprachmodellen. Zwei Jahre später verwendeten Google-Wissenschaftler es, um ein Sprachmodell-Programm namens Transformer zu erstellen. Der Transformer erzielte unglaubliche Ergebnisse bei Tests zur Sprachmanipulation. Er wurde zum de facto Sprachmodell und Google nutzte ihn, um BERT zu kreieren, ein weiteres sehr erfolgreiches Sprachmodell. Der Transformer bildete auch die Grundlage von GPT-1.

Von der Notwendigkeit, einen festen Vektor starr zu manipulieren, befreit, konnte der Transformer und seine Nachfolger frei durch verschiedene Teile eines gegebenen Textes wandern und bedingte Abhängigkeiten finden, die einen viel größeren Kontext umfassten.

Diese Freiheit schuf die Grundlage für eine weitere Innovation, die im Jahr 2015 eingeführt wurde und noch zentraler für die Arbeit von OpenAI war: das sogenannte unüberwachte Lernen.

Bis zu diesem Zeitpunkt lag der Fokus bei den meisten Sprachmodellen auf dem überwachten Lernen mit sogenannten gelabelten Daten. Ein neuronales Netzwerk erhält neben einer Eingabe auch ein Beispiel für die Ausgabe als objektive Version der Antwort. Wenn die Aufgabe also die Übersetzung ist, könnte ein englischer Satz die Eingabe sein und eine von Menschen erstellte französische Übersetzung würde als gewünschtes Ziel bereitgestellt werden, und das Satzpaar stellt ein gelabeltes Beispiel dar.

Der Versuch des neuronalen Netzes, eine französische Übersetzung zu generieren, würde mit dem offiziellen französischen Satz verglichen werden, und der Unterschied zwischen den beiden wäre, wie sehr das neuronale Netz Fehler bei seinen Vorhersagen macht, was als Verlustfunktion oder Ziel-/Objektfunktion bekannt ist.

Die Trainingsphase soll diese Fehlerlücke zwischen der vom neuronalen Netz vorgeschlagenen Ausgabe und der Ziel-Ausgabe schließen. Wenn die Lücke so klein wie möglich ist, wurde die Zielfunktion optimiert und das neuronale Netz des Sprachmodells gilt als trainiert.

Aber die gewünschte Ausgabe sorgfältig zu kennzeichnen, kann ein Problem sein, da dies eine umfangreiche Kuratierung von Daten erfordert, wie zum Beispiel das Zusammenstellen von Beispiel-Satzpaaren durch menschliches Ermessen, was zeitaufwendig und ressourcenintensiv ist. Andrew Dai und Quoc Le von Google haben die Hypothese aufgestellt, dass es möglich wäre, die benötigten gelabelten Daten zu reduzieren, wenn das Sprachmodell zuerst auf eine unüberwachte Weise trainiert wird.

Anstatt ein Satzpaar zu erhalten, bekam das Netzwerk nur einzelne Sätze und musste jeden Satz auf einen Vektor komprimieren und wieder in den ursprünglichen Satz dekomprimieren. Die Spiegelung wurde zur Verlustfunktion für die Optimierung. Sie stellten fest, dass je mehr unlabeled Beispiele auf diese Weise komprimiert und dekomprimiert wurden, desto mehr konnten sie viele gelabelte Daten in Aufgaben wie Übersetzung ersetzen.

Im Jahr 2018 kombinierte das OpenAI-Team diese beiden Elemente: den Aufmerksamkeitsmechanismus, den Bengio und seine Kollegen entwickelt hatten, der über viele Wortvektoren wandert, und den unüberwachten Vor-Trainingsansatz von Dai und Le, der große Mengen an Text aufnimmt, komprimiert und dekomprimiert, um den ursprünglichen Text zu reproduzieren.

Sie nahmen einen Standard-Transformer und fütterten ihm den Inhalt des BookCorpus, einer Datenbank, die von der University of Toronto und dem MIT erstellt wurde und aus über 7.000 veröffentlichten Buchtexten mit insgesamt fast einer Million Wörtern besteht, insgesamt 5 GB. GPT-1 wurde trainiert, diese Bücher zu komprimieren und zu dekomprimieren.

Dies markierte den Beginn einer dreijährigen Geschichte von immer größeren Datensätzen. Die Forscher von OpenAI, die davon ausgingen, dass mehr Daten das Modell genauer machen würden, erweiterten die Grenzen dessen, was das Programm aufnehmen konnte. Mit GPT-2 ließen sie das BookCorpus zugunsten eines selbst erstellten Datensatzes fallen, der aus acht Millionen Webseiten besteht, die von ausgehenden Links von Reddit gescrapt wurden und insgesamt 40 GB an Daten umfassen.

Das Training von GPT-3 ist immer noch enorm, bestehend aus dem beliebten CommonCrawl-Datensatz von Webseiten aus den Jahren 2016 bis 2019. Es handelt sich nominell um 45 TB komprimierte Textdaten, obwohl OpenAI die Daten kuratiert hat, um Duplikate zu entfernen und die Qualität anderweitig zu verbessern. Die endgültige Version beträgt 570 GB an Daten. OpenAI hat es mit mehreren zusätzlichen Datensätzen unterschiedlicher Art ergänzt, einschließlich Buchdaten.

WIE HÄNGT GPT-3 VON RECHENLEISTUNG AB?

Mit der Einführung von GPT-1, 2 und 3 ist die Größenordnung der Rechenleistung zu einem wesentlichen Bestandteil des Fortschritts geworden. Die Modelle verwenden immer mehr Rechenleistung bei der Schulung, um bessere Ergebnisse zu erzielen.

Was ein neuronales Netzwerk während des Trainings optimiert, ist die Anpassung seiner Gewichte. Die Gewichte, die auch als Parameter bezeichnet werden, sind Matrizen, Arrays von Zeilen und Spalten, mit denen jeder Vektor multipliziert wird. Durch die Multiplikation werden den vielen Vektoren von Wörtern oder Wortfragmenten im Endergebnis eine größere oder kleinere Gewichtung gegeben, während das neuronale Netzwerk darauf abgestimmt wird, die Fehlerlücke zu verringern.

OpenAI stellte fest, dass um auf ihren immer größer werdenden Datensätzen gut abzuschneiden, sie immer mehr Gewichte hinzufügen mussten.

Der originale Transformer von Google hatte 110 Millionen Gewichte. GPT-1 folgte diesem Design. Mit GPT-2 wurde die Anzahl auf 1,5 Milliarden Gewichte erhöht. Bei GPT-3 hat sich die Anzahl der Parameter auf 175 Milliarden erhöht, was GPT-3 zum größten neuronalen Netzwerk macht, das die Welt je gesehen hat.

Multiplikation ist eine einfache Sache, aber wenn 175 Milliarden Gewichte mit jedem Bit der Eingabedaten multipliziert werden müssen, über Milliarden von Datenbytes hinweg, wird es zu einer unglaublichen Aufgabe im Bereich der parallelen Computerbearbeitung.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Schon mit GPT-1 im Jahr 2018 stieß OpenAI an die Grenzen der praktischen Berechnungen. Der Einsatz von mehr Daten bedeutete den Einsatz von mehr GPUs. Frühere Sprachmodelle passten in eine einzige GPU, da die Modelle selbst klein waren. GPT-1 benötigte einen Monat Training auf acht parallel arbeitenden GPUs.

Mit GPT-3 hat sich OpenAI ein wenig bedeckt gehalten. Es hat die genaue Computereinrichtung für das Training nicht beschrieben, außer zu sagen, dass es sich um einen Cluster von Nvidia V100-Chips handelte, der auf Microsoft Azure lief. Das Unternehmen hat die Gesamtzahl der Berechnungsvorgänge angegeben und erklärt, dass es dem Äquivalent von einer Billiarde Gleitkommazahl-Berechnungen pro Sekunde für 3.640 Tage entspricht.

Der Computerhersteller und Cloud-Betreiber Lambda Computing schätzt, dass es einem einzigen GPU 355 Jahre dauern würde, um so viel Rechenleistung auszuführen. Das würde bei einem Standardpreis für eine Cloud-GPU-Instanz 4,6 Millionen US-Dollar kosten. Und dann ist da der Speicher. Um alle Gewichtswerte zu halten, wird immer mehr Speicher benötigt, je mehr Parameter vorhanden sind. GPT-3's 175 Milliarden Parameter erfordern 700 GB Speicherplatz, das ist zehnmal mehr als der Speicher auf einem einzelnen GPU.

Es ist genau diese Art von enormem Energiebedarf, die die Computerchips-Branche antreibt. Sie hat den Aktienkurs von Nvidia, dem dominierenden GPU-Lieferanten für KI-Training, in den letzten zehn Jahren um fast 5.000% steigen lassen. Dadurch sind eine Reihe von Start-up-Unternehmen entstanden, die mit Hunderten von Millionen Dollar Risikokapital finanziert werden, darunter Cerebras Systems, Graphcore und Tachyum. Der Wettbewerb wird so lange florieren, wie der Bau immer größerer Modelle den Kurs der Branche bestimmt.

OpenAI hat eigene Forschungsergebnisse zu dem enormen Bedarf an Rechenleistung für KI-Training erstellt. Das Unternehmen stellte bereits im Jahr 2018 fest, dass die von den größten KI-Trainingsmodellen benötigten Rechenzyklen sich alle 3,4 Monate seit 2012 verdoppeln, eine schnellere Expansionsrate als dies beim berühmten Moore's Law des Chip-Transistorwachstums der Fall ist. (Übrigens hat das Unternehmen auch Forschungsergebnisse vorgelegt, die zeigen, dass die immer größer werdenden Modelle auf Einheitsebene effizienter sind als vorherige neuronale Netze, die dieselbe Arbeit geleistet haben.)

Bereits jetzt werden Modelle entwickelt, die mehr als eine Billion Parameter verwenden, laut Informationen von Unternehmen, die in geheime KI-Projekte involviert sind. Das ist wahrscheinlich nicht die Grenze, solange hyper-scale Unternehmen wie Google bereit sind, ihre riesigen Rechenzentren immer größeren Modellen zu widmen. Die meisten KI-Wissenschaftler sind sich einig, dass größer und größer für maschinelles Lernen für absehbare Zeit die Norm sein wird.

"In Bezug auf den Einfluss auf KI als Forschungsgebiet ist der aufregendste Teil an GPT-3, dass es zeigt, dass wir noch lange nicht an die Grenzen der Skalierung von KI gekommen sind", sagte Kenny Daniel, CTO des Anbieters von KI-Verwaltungstools Algorithmia, zu ZDNet.

Neben der Steigerung der Rechenleistung wird die größte Auswirkung von GPT-3 zweifellos darin bestehen, wie es die Programmierung und die allgemeine Anwendungsentwicklung beschleunigt. Shameems Demonstration eines JSX-Programms, das einfach durch Eingabe einer Phrase erstellt wurde, ist nur die Spitze des Eisbergs.

WAS SIND DIE NACHTEILE VON GPT-3?

Trotz erheblicher Verbesserungen gegenüber der vorherigen Version hat GPT-3 einige Einschränkungen, wie von den Autoren selbst betont wird. "Obwohl die Qualität insgesamt hoch ist, wiederholen sich GPT-3-Beispiele manchmal semantisch auf der Dokumentebene und verlieren über ausreichend lange Abschnitte hinweg an Kohärenz", merken sie in dem veröffentlichten Paper an.

Das Programm hat auch Probleme bei einer Reihe von individuellen Tests. "Insbesondere hat GPT-3 Schwierigkeiten mit Fragen wie 'Schmilzt der Käse im Kühlschrank?' schreiben die Autoren und beschreiben damit die Art von Alltagslogik, die GPT-3 entgeht.

Es gab so viel Aufregung kurz nach dem Erscheinen von GPT-3, dass der CEO des Unternehmens, Sam Altman, öffentlich dazu aufrief, seine Begeisterung zu dämpfen.

"Der Hype um GPT-3 ist viel zu groß", twitterte Altman am 19. Juli. "Es ist beeindruckend (danke für die netten Komplimente!), aber es hat immer noch ernsthafte Schwächen und macht manchmal sehr alberne Fehler", schrieb er. "Künstliche Intelligenz wird die Welt verändern, aber GPT-3 ist nur ein sehr früher Einblick. Wir haben noch viel zu erforschen."

Der Hype um GPT-3 ist viel zu groß. Es ist beeindruckend (danke für die netten Komplimente!), aber es hat immer noch ernsthafte Schwächen und macht manchmal sehr dumme Fehler. KI wird die Welt verändern, aber GPT-3 ist nur ein sehr früher Blick. Wir haben noch viel zu klären.

- Sam Altman (@sama) 19. Juli 2020

Andere außerhalb von OpenAI haben ihre eigene Realitätsprüfung angeboten. Ein erfahrener Benutzer mehrerer Generationen von GPT, Max Woolf, hat auf seinem persönlichen Blog geschrieben, dass GPT-3 im Durchschnitt besser ist als seine Vorgänger. Es gibt jedoch eine Bandbreite an Textqualität, sodass manche Beispiele bemerkenswert erscheinen und andere wiederum nicht sehr gut sind. Woolf vergleicht GPT-3 mit Apples Siri, die die unheimliche Angewohnheit hat, auf vielen Gelegenheiten Müll zu produzieren. (Woolfs Essay ist durch und durch lesenswert für eine durchdachte Analyse zu GPT-3.)

Tatsächlich lässt die anfängliche Begeisterung beim Lesen immer mehr GPT-3-Beispiele, insbesondere längerer Textpassagen, nach. GPT-3 verliert über längere Strecken schnell den roten Faden, wie man so sagt. Egal, um welches Genre oder welche Aufgabe es sich handelt, die textuelle Ausgabe wird langatmig und ermüdend, mit inneren Unstimmigkeiten in der Erzählung.

Einige Programmierer haben trotz ihrer Begeisterung die vielen Mängel katalogisiert, wie zum Beispiel die gescheiterten Versuche von GPT-3 mit Witzen für den Vater. Bei der Eingabe des Vaterwitzes "Was sagte ein Teller zum anderen?" lautet die richtige Pointe, "Das Abendessen geht auf mich!" Aber GPT-3 könnte stattdessen mit dem nicht humorvollen "Tauche mich ein!" antworten.

Menschliche Angabe : Q. Was hat ein Teller zu dem anderen Teller gesagt?

GPT-3-generierte Vervollständigung: A. Tauche mich!

Obwohl GPT-3 angeblich alltägliche Fragen beantworten kann, wie zum Beispiel die Anzahl der Augen, die eine Giraffe hat, kann es eine unsinnige Frage nicht abwehren und lässt sich zu einer unsinnigen Antwort verleiten. Wenn man es fragt: "Wie viele Augen hat mein Fuß?", wird es brav antworten: "Mein Fuß hat zwei Augen."

Eine Möglichkeit, über all diese Durchschnittlichkeit nachzudenken, besteht darin, dass es für gutes Ergebnis von GPT-3 bis zu einem gewissen Grad eine Investition in die Erstellung effektiver Anweisungen erfordert. Einige vom Menschen entwickelte Anweisungen werden das Programm zu besseren Ergebnissen bringen als andere Anweisungen. Es ist eine neue Version des Sprichworts "Müll rein, Müll raus". Anweisungen könnten sich als ein neues Programmiergebiet etablieren, das sowohl Geschicklichkeit als auch Kunstfertigkeit erfordert.

Voreingenommenheit ist ein wichtiger Aspekt, nicht nur bei GPT-3, sondern bei allen Programmen, die auf bedingter Verteilung basieren. Der zugrunde liegende Ansatz des Programms besteht darin, genau das zurückzugeben, was ihm zugeführt wird, wie ein Spiegel. Das kann dazu führen, dass vorhandene Vorurteile in den Daten repliziert werden. Es wurde bereits eine wissenschaftliche Diskussion über umfangreiche Voreingenommenheit in GPT-2 geführt.

Mit GPT-3 schlug die Nvidia-KI-Wissenschaftlerin Anima Anandkumar Alarm, dass die Tendenz, voreingenommene Ergebnisse zu produzieren, einschließlich rassistischer und sexistischer Ergebnisse, fortbesteht.

Es stört mich, dies ohne Rechenschaftspflicht hinsichtlich Voreingenommenheit veröffentlicht zu sehen. Das Modell wurde anhand des @reddit-Korpus trainiert, der enormen #Rassismus und #Sexismus enthält. Ich habe mit diesen Modellen gearbeitet und der von ihnen erzeugte Text ist schockierend voreingenommen. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11. Juni 2020

Bezüglich der Kritik von Anandkumar antwortete OpenAI ZDNet: "Wie bei allen immer leistungsfähigeren generativen Modellen sind Fairness und Missbrauch Bedenken, die uns beschäftigen."

"Das ist einer der Gründe, warum wir diese Technologie über eine API teilen und zunächst in einer privaten Beta-Version starten", sagte OpenAI gegenüber ZDNet. Das Unternehmen weist darauf hin, dass es "keine Anwendungsfälle unterstützen wird, die nach unserer Beurteilung körperlichen oder geistigen Schaden für Menschen verursachen, einschließlich, aber nicht beschränkt auf Belästigung, absichtliche Täuschung, Radikalisierung, Astroturfing oder Spam".

OpenAI sagte ZDNet, dass es eine vertraute Art von Wargaming mit White Hats und Black Hats einsetzt, um Gefahren im Programm zu erkennen:

Wir haben eine sogenannte 'Red Team' eingesetzt, deren Aufgabe es ist, das Inhaltsfilterungssystem ständig zu durchbrechen, damit wir mehr darüber erfahren können, wie und warum das Modell fehlerhafte Ergebnisse liefert. Ihr Pendant ist das "Blue Team", das dafür zuständig ist, Vorurteile zu messen und zu reduzieren.

Ein weiteres großes Problem ist die sehr breite, auf den kleinsten gemeinsamen Nenner reduzierte Natur von GPT-3, die nur den dicksten Teil einer Kurve der bedingten Wahrscheinlichkeit verstärkt. Es gibt das, was als der lange Schwanz bekannt ist und manchmal ein fetter Schwanz einer Wahrscheinlichkeitsverteilung. Dies sind weniger häufige Fälle, die die innovativsten Beispiele für die Verwendung von Sprache darstellen können. Sich darauf zu konzentrieren, den am weitesten verbreiteten Text in einer Gesellschaft widerzuspiegeln, birgt das Risiko, Kreativität und Erkundung auszuschließen.

Für den Moment ist OpenAI's Antwort auf dieses Problem eine Einstellung, die in GPT-3 als Temperaturwert bezeichnet wird. Wenn Sie an diesem Knopf herumspielen, können Sie GPT-3 so einstellen, dass es weniger wahrscheinliche Wortkombinationen auswählt und somit Text erzeugt, der vielleicht ungewöhnlicher ist.

Eine dringendere Sorge für ein Unternehmen besteht darin, dass man GPT-3 nicht mit unternehmensspezifischen Daten abstimmen kann. Ohne die Möglichkeit, irgendetwas abzustimmen, ist es schwierig, GPT-3 für einen industriellen Bereich zu spezialisieren, sozusagen. Es könnte sein, dass jedes Unternehmen, das den API-Dienst nutzt, Texte erhält, die weiter bearbeitet werden müssen, um sie auf eine bestimmte Domäne anwendbar zu machen. Möglicherweise werden Start-ups wie Sapling ein Ökosystem bilden, das Ähnliches wie VARs ist und dieses Problem löst. Vielleicht, aber das bleibt abzuwarten.

Wenn das nicht schon besorgniserregend genug wäre, gibt es noch ein weiteres Problem, nämlich dass GPT-3 als Cloud-Service eine Blackbox ist. Das bedeutet, dass Unternehmen, die den Service nutzen würden, keine Ahnung haben, wie er zu seinen Ergebnissen kommt - ein besonders heikles Vorhaben, wenn man Probleme mit Vorurteilen betrachtet. Ein Ökosystem von Partnern wie Sapling, die GPT-3 verbessern, könnte gleichzeitig weitere Schichten der Verschleierung hinzufügen, während sie den Service verbessern.

Als Unterkategorie des Black-Box-Problems kann GPT-3 in einigen Fällen einfach das, was es aus dem Internet aufgenommen hat, auswendig lernen. Das wirft urheberrechtliche Fragen auf. Wenn ein Unternehmen Output aus dem API-Service nutzt, der urheberrechtlich geschütztes Material enthält, könnte dieses Unternehmen das Urheberrecht einer anderen Partei verletzen. Auf die Frage nach dem Urheberrecht sagte OpenAI gegenüber ZDNet, dass das Urheberrecht für den von GPT-3 generierten Text "dem Benutzer gehört und nicht OpenAI". Was das in der Praxis bedeutet, bleibt abzuwarten.

Derzeit ist der größte praktische Nachteil die erforderliche Skalierung für das Training und die Ausführung von GPT-3. OpenAI gibt dies in dem offiziellen Paper zu. Die Autoren schreiben, dass noch Arbeit geleistet werden muss, um zu berechnen, wie die Kosten großer Modelle im Laufe der Zeit über den Wert der erzeugten Ausgabe amortisiert werden.

Außerdem: Nein, diese KI kann deinen Satz nicht beenden

Lernt GPT-3 wirklich?

Unter der engeren Bedeutung des Wortes lernt GPT-3 in dem Sinne, dass seine Parametergewichte durch die automatische Aufnahme der Trainingsdaten abgestimmt werden, so dass das Sprachmodell letztendlich besser ist als das, was seine explizite Programmierung allein ermöglichen würde. In diesem Sinne ist GPT-3 ein Fortschritt in der jahrzehntelangen Suche nach einem Computer, der eine Funktion lernen kann, um Daten ohne eine explizite Kodierung dieser Funktion durch den Menschen zu transformieren.

Das gesagt, wird man sich fragen, ob die Maschine wirklich intelligent ist oder wirklich lernt. Es gibt viele Möglichkeiten, darüber zu debattieren, aber eine oberflächliche Überlegung legt nahe, dass vieles von dem, was wir menschliches Denken nennen könnten, hier nicht stattfindet.

Stellen Sie sich vor, Sie könnten in Ihrem Gehirn eine numerische Bewertung haben, wie viele Wörter voraussichtlich miteinander verbunden auftreten werden. Würden Sie sagen, dass Ihre Fähigkeit, Sätze, Absätze und ganze Textpassagen zu bilden, nachdenklich ist? Wahrscheinlich würden Sie sagen, dass es nur statistisch ist und dass etwas anderes fehlt.

Vergleiche wurden zwischen Deep Learning und dem berühmten Clever Hans gezogen, einem deutschen Pferd, dessen Besitzer ihn in der Öffentlichkeit als Tier präsentierte, das mit seinen Hufen Rechenaufgaben lösen konnte. Später stellte sich heraus, dass Hans auf körperliche Hinweise seines Besitzers reagierte, um seinen Huf zu stampfen, und dass er ohne diese Hinweise nicht in der Lage war, die Aufgaben zu bewältigen.

Auf ähnliche Weise lässt die menschliche Qualität von GPT-3 bei genauerer Betrachtung nach. Wenn GPT-3 eine wahre-false-Frage zu einem Aufsatz über Immobilien in New York korrekt beantwortet, liegt dies nicht daran, dass das Programm etwas über Immobilien oder New York weiß. Es hat die Wahrscheinlichkeitsverteilung gespeichert, die Aussagen in Texten erfasst, sowie das Format eines Aussage-Frage-Paares, und es kann diese in der Ausgabe widerspiegeln.

Hans wusste nichts über Arithmetik, obwohl Hans sich in seiner Verteidigung intelligent zeigte. In Bezug auf neuronale Netzwerke behaupten Kritiker, dass nur die Tricks vorhanden sind, ohne jeglichen Pferdeverstand.

Trotzdem können Intelligenz und Lernen viele Bedeutungen haben, und im Laufe der Jahre haben sich die Maßstäbe dafür, was künstliche Intelligenz sein soll, verschoben, wie Pamela McCorduck, eine Historikerin auf diesem Gebiet, festgestellt hat. Man könnte argumentieren, dass ein Programm, das Wahrscheinlichkeiten in riesigen Textsammlungen berechnen kann, eine andere Art von Intelligenz sein könnte, vielleicht eine fremdartige Intelligenz, die nicht unserer eigenen entspricht. Es scheint verfrüht, es abzutun.

Darüber hinaus sind die neuronalen Netzwerke, die diese bedingten Wahrscheinlichkeiten hervorrufen, mehr als nur Statistikprogramme. Ihre Berechnungen sind das emergente Eigentum mehrerer gleichzeitiger mathematischer Operationen, die parallel stattfinden, das Abstimmen der Parametergewichte. Wenn es möglich ist, andere Formen von Intelligenz zu betrachten, kann eine emergente Eigenschaft wie die verteilten Repräsentationen, die sich in neuronalen Netzen entwickeln, ein Ort sein, an dem man danach suchen kann.

WIE IST DIE ZUKUNFT VON GPT-3?

Eines scheint sicher: GPT-3 hat ein neues Kapitel im maschinellen Lernen aufgeschlagen. Sein auffälligstes Merkmal ist seine Allgemeinheit. Noch vor wenigen Jahren wurden neuronale Netzwerke mit Funktionen entwickelt, die auf eine spezifische Aufgabe abgestimmt waren, wie z.B. Übersetzung oder Fragebeantwortung. Die Datensätze wurden entsprechend dieser Aufgabe zusammengestellt. GPT-3 hingegen besitzt keine aufgabenbezogenen Funktionen und benötigt keine speziellen Datensätze. Es frisst einfach so viel Text wie möglich von überall her und spiegelt ihn in seiner Ausgabe wider.

Irgendwie ergibt sich bei der Berechnung der bedingten Wahrscheinlichkeitsverteilung über all diese Gigabytes an Text eine Funktion, die wettbewerbsfähige Antworten für eine Vielzahl von Aufgaben liefern kann. Es ist ein atemberaubender Triumph der Einfachheit, der wahrscheinlich noch viele Jahre weiterführend sein wird.

Auch diese Verallgemeinerung könnte jedoch ihre Grenzen erreichen. Bereits am Ende ihres Papers weisen die Autoren von GPT-3 darauf hin, dass die Ausrichtung des Pre-Trainings irgendwann an ihre Grenzen stoßen könnte. "Eine noch grundlegendere Begrenzung des allgemeinen Ansatzes, der in diesem Paper beschrieben wird [...], besteht darin, dass er letztendlich an die Grenzen des Pre-Training-Ziels stoßen könnte (oder bereits gestoßen sein könnte)".

Die Autoren schlagen vielversprechende neue Ansätze vor, wie zum Beispiel "das Erlernen der Zielsetzung von Menschen" und das Einbeziehen anderer Arten des Deep Learnings, wie der "Reinforcement-Learning"-Ansatz, der bei DeepMinds AlphaZero verwendet wird, um Schach und Go zu gewinnen. (Sie haben bereits begonnen, solche Ansätze umzusetzen. Anfang September zeigten OpenAI-Autoren, dass sie das verstärkte Lernen verwenden konnten, um GPT-3 beizubringen, bessere Zusammenfassungen von Artikeln zu erstellen, indem sie dem Sprachmodell menschliches Feedback zu den besserklingenden Zusammenfassungen gaben.)

Ein weiterer Vorschlag besteht darin, andere Datentypen wie Bilder hinzuzufügen, um das "Modell der Welt" des Programms zu ergänzen.

In der Tat dürften in den kommenden Jahren auch andere Modalitäten neben Text, wie beispielsweise Bilder und Videos, von diesem allgemeinen Ansatz erfasst werden. Stellen Sie sich ein Programm wie GPT-3 vor, das Bilder in Worte und umgekehrt übersetzen kann, ohne einen spezifischen Algorithmus zur Modellierung der Beziehung zwischen ihnen zu verwenden. Es könnte zum Beispiel tekstuelle Szenenbeschreibungen aus Fotos erlernen oder die physische Abfolge von Ereignissen aus textuellen Beschreibungen vorhersagen.

Der Facebook AI-Direktor Yann LeCun hat argumentiert, dass unüberwachtes Training in verschiedenen Formen die Zukunft des Deep Learning ist. Wenn das wahr ist, kann der Pre-Training-Ansatz, der auf mehreren Modalitäten von Daten angewendet wird, von Sprache über Text bis hin zu Bildern und Videos, als eine äußerst vielversprechende zukünftige Richtung der unüberwachten Welle betrachtet werden.

Was ist GPT-3? Alles, was Ihr Unternehmen über OpenAIs bahnbrechendes KI-Sprachprogramm wissen muss