OpenAI's gigantischer GPT-3 deutet auf die Grenzen von Sprachmodellen für KI hin

Vor etwas mehr als einem Jahr hat OpenAI, ein in San Francisco ansässiges Unternehmen für künstliche Intelligenz, die Welt mit einem beeindruckenden Sprung in der Fähigkeit von Computern, natürlichsprachliche Sätze zu bilden und sogar Fragen zu lösen, wie das Vervollständigen eines Satzes und das Formulieren von längeren Textpassagen, die für Menschen relativ menschlich erschienen, überrascht.

Die neueste Arbeit dieses Teams zeigt, wie sich das Denken von OpenAI in einigen Bereichen weiterentwickelt hat. GPT-3, wie die neueste Kreation genannt wird, ist letzte Woche aufgetaucht, mit noch mehr Raffinessen und Extras, geschaffen von einigen der gleichen Autoren wie die letzte Version, einschließlich Alec Radford und Ilya Sutskever, sowie mehreren zusätzlichen Mitwirkenden, darunter Wissenschaftler von der Johns Hopkins University.

Es handelt sich nun um ein wirklich monstermäßiges Sprachmodell, wie es genannt wird, das zwei Größenordnungen mehr Text verschlingt als sein Vorgänger.

Aber innerhalb dieses "größer ist besser" Stunts scheint das OpenAI-Team einige tiefere Wahrheiten anzugehen, ganz so wie Dr. David Bowman am Ende des Films 2001 die Grenzen des Bekannten erreichte.

Vergraben im abschließenden Abschnitt des 72-seitigen Papiers Sprachmodelle sind Few-Shot-Lernende, das letzte Woche auf dem arXiv-Preprint-Server veröffentlicht wurde, befindet sich eine ziemlich bemerkenswerte Erkenntnis.

"Eine grundlegendere Einschränkung des in diesem Paper beschriebenen allgemeinen Ansatzes - das Skalieren eines LM-ähnlichen Modells, ob autoregressiv oder bidirektional - besteht darin, dass es letztendlich an die Grenzen des Vor-Training-Objektivs stoßen könnte (oder bereits stoßen könnte)," schreiben die Autoren.

Was die Autoren sagen, ist, dass der Aufbau eines neuronalen Netzwerks, das nur Wahrscheinlichkeiten für das nächste Wort in einem Satz oder Satzteil vorhersagt, seine Grenzen haben kann. Es immer mächtiger zu machen und mit immer mehr Text zu füllen, könnte möglicherweise nicht zu besseren Ergebnissen führen. Das ist eine bedeutende Anerkennung in einem Papier, das größtenteils die Leistung würdigt, noch mehr Rechenleistung auf ein Problem zu werfen.

gpt-3-versus.jpg

Um zu verstehen, warum der Schluss der Autoren so bedeutend ist, betrachten Sie, wie wir hierher gekommen sind. Die Geschichte der Arbeit von OpenAI an Sprache war Teil der Geschichte eines stetigen Fortschritts einer Art von Ansatz, mit zunehmendem Erfolg, indem die Technologie größer und größer gemacht wurde.

Der originale GPT und GPT-2 sind beide Anpassungen dessen, was als Transformer bekannt ist, eine Erfindung, die 2017 bei Google entwickelt wurde. Der Transformer verwendet eine Funktion namens Attention, um die Wahrscheinlichkeit zu berechnen, dass ein Wort in Anbetracht umgebender Wörter erscheint. Vor einem Jahr sorgte OpenAI für Kontroversen, als es ankündigte, den Quellcode der größten Version von GPT-2 nicht freizugeben, weil dieser, so hieß es, in falsche Hände geraten und für Dinge wie Falschnachrichten missbraucht werden könnte.

Die neue Studie bringt GPT auf die nächste Stufe, indem sie es noch größer macht. Die größte Version von GPT-2, die nicht in Quellform veröffentlicht wurde, hatte 1,5 Milliarden Parameter. GPT-3 hat 175 Milliarden Parameter. Ein Parameter ist eine Berechnung in einem neuronalen Netzwerk, die einem Aspekt der Daten eine größere oder geringere Gewichtung zuweist, um diesem Aspekt in der Gesamtberechnung der Daten eine größere oder geringere Bedeutung zu verleihen. Diese Gewichte formen die Daten und geben dem neuronalen Netzwerk eine gelernte Perspektive auf die Daten.

Die zunehmende Gewichtung im Laufe der Zeit hat zu erstaunlichen Benchmark-Testergebnissen der GPT-Familie von Programmen und anderer großer Transformer-Derivate wie Googles BERT geführt. Diese Ergebnisse waren durchweg beeindruckend.

Es spielt keine Rolle, dass viele Leute darauf hingewiesen haben, dass keines dieser Sprachmodelle scheinbar Sprache auf eine sinnvolle Art und Weise versteht. Sie bestehen Prüfungen mit Bravour und das zählt für etwas.

Die neueste Version zeigt erneut quantitative Fortschritte. Wie GPT-2 und andere auf Transformer basierende Programme wurde GPT-3 anhand des Common Crawl-Datensatzes trainiert, einem Korpus von fast einer Billion Wörter aus Texten, die aus dem Web extrahiert wurden. "Der Datensatz und die Modellgröße sind um etwa zwei Größenordnungen größer als die für GPT-2 verwendeten", schreiben die Autoren.

GPT-3 mit 175 Milliarden Parametern kann laut den Autoren das erreichen, was sie als "Meta-Learning" bezeichnen. Meta-Learning bedeutet, dass das GPT-Neuronennetzwerk nicht erneut trainiert wird, um eine Aufgabe wie Satzvervollständigung zu erledigen. Wenn ihm eine Aufgabe zur Verfügung gestellt wird, beispielsweise ein unvollständiger Satz und dann der vervollständigte Satz, ist GPT-3 in der Lage, jeden beliebigen unvollständigen Satz zu vervollständigen.

GPT-3 ist in der Lage, eine Aufgabe mit nur einer einzigen Anweisung besser zu erlernen als Aversionen des Transformers, die speziell darauf abgestimmt wurden, nur diese Aufgabe durchzuführen. Daher ist GPT-3 der Triumph einer umfassenden Allgemeinheit. Einfach füttern Sie es mit einer enormen Menge an Text, bis seine Gewichte ideal sind, und es kann anschließend ziemlich gut bei einer Reihe von spezifischen Aufgaben performen, ohne dass weitere Entwicklung notwendig ist.

Dort findet die Geschichte in der neuen Studie ihren bemerkenswerten Höhepunkt. Nachdem die beeindruckenden Ergebnisse von GPT-3 bei Sprachaufgaben aufgelistet wurden, die vom Vervollständigen von Sätzen über das Schlussfolgern aus Aussagen bis hin zur Übersetzung zwischen Sprachen reichen, weisen die Autoren auf die Mängel hin.

"Trotz der starken quantitativen und qualitativen Verbesserungen von GPT-3, insbesondere im Vergleich zu seinem direkten Vorgänger GPT-2, hat es immer noch bemerkenswerte Schwächen."

Diese Schwächen umfassen eine Unfähigkeit, eine signifikante Genauigkeit bei dem sogenannten adversarischen NLI zu erreichen. NLI, oder natürliche Sprachinferenz, ist ein Test, bei dem das Programm die Beziehung zwischen zwei Sätzen bestimmen muss. Forscher von Facebook und der University of North Carolina haben eine adversarische Version eingeführt, bei der Menschen Satzpaare erstellen, die für den Computer schwer zu lösen sind.

GPT-3 schneidet bei Dingen wie Adversarial NLI "nur wenig besser als Zufall" ab, schreiben die Autoren. Schlimmer noch, obwohl sie die Verarbeitungsleistung ihres Systems auf 175 Milliarden Gewichtungen erhöht haben, sind sich die Autoren nicht ganz sicher, warum sie in einigen Aufgaben hinterherhinken.

Das ist, wenn sie zu dem oben zitierten Schluss kommen, dass möglicherweise das bloße Füttern eines enormen Textkorpus an eine gigantische Maschine nicht die ultimative Antwort ist.

Sogar noch überraschender ist die nächste Beobachtung. Die gesamte Praxis, versuchen vorauszusagen, was mit der Sprache passieren wird, könnte der falsche Ansatz sein, schreiben die Autoren. Sie könnten an der falschen Stelle zielen.

"Mit selbstüberwachten Zielen beruht die Aufgabenstellung darauf, die gewünschte Aufgabe in ein Vorhersageproblem zu forcieren", schreiben sie: "Während nützliche Sprachsysteme letztendlich (beispielsweise virtuelle Assistenten) besser als zielgerichtete Handlungen betrachtet werden könnten, anstatt nur Vorhersagen zu treffen."

Die Autoren lassen es für einen anderen Zeitpunkt offen, wie sie mit dieser eher faszinierenden möglichen neuen Richtung umgehen werden.

Trotz der Erkenntnis, dass größer letztendlich nicht unbedingt besser sein muss, werden die verbesserten Ergebnisse von GPT-3 bei vielen Aufgaben wahrscheinlich das Verlangen nach immer größeren neuronalen Netzwerken eher befeuern als dämpfen. Mit 175 Milliarden Parametern ist GPT-3 momentan der König der großen neuronalen Netzwerke. Eine Präsentation im April von einem KI-Chip-Unternehmen namens Tenstorrent beschrieb zukünftige neuronale Netzwerke mit mehr als einer Billion Parametern.

Für einen Großteil der Machine-Learning-Community wird größere und größere Sprachmodellierung der Stand der Technik bleiben.

Zugehörige Artikel

Mehr anzeigen >>

Nutzen Sie die Kraft der KI mit HIX.AI!