Diese neue Technologie könnte GPT-4 und alles Vergleichbare in den Schatten stellen

Für all die Begeisterung über das Chatbot-KI-Programm namens ChatGPT von OpenAI und dessen Nachfolgetechnologie GPT-4 sind die Programme letztendlich nur Softwareanwendungen. Und wie alle Anwendungen haben sie technische Begrenzungen, die ihre Leistung suboptimal machen können.

In einer im März veröffentlichten Studie schlagen KI-Wissenschaftler der Stanford Universität und des MILA-Instituts für Künstliche Intelligenz in Kanada eine Technologie vor, die weit effizienter sein könnte als GPT-4 - oder Ähnliches - beim Verarbeiten großer Datenmengen und sie in eine Antwort umwandeln könnte.

Außerdem: Diese ehemaligen Apple-Mitarbeiter wollen Smartphones durch dieses Gerät ersetzen

Bekannt als Hyena, ist die Technologie in der Lage, auf Benchmark-Tests wie Frage-Antworten eine vergleichbare Genauigkeit zu erzielen, während sie nur einen Bruchteil der Rechenleistung verwendet. In einigen Fällen kann der Hyena-Code Mengen an Text verarbeiten, bei denen GPT-ähnliche Technologien einfach den Speicher überschreiten und versagen.

"Unsere vielversprechenden Ergebnisse im Sub-Milliarden-Parameter-Bereich legen nahe, dass Aufmerksamkeit allein möglicherweise nicht ausreicht", schreiben die Autoren. Diese Bemerkung bezieht sich auf den Titel eines wegweisenden KI-Berichts aus dem Jahr 2017, 'Aufmerksamkeit ist alles, was wir brauchen'. In diesem Artikel stellten der Google Wissenschaftler Ashish Vaswani und seine Kollegen der Welt das Transformer KI-Programm von Google vor. Der Transformer bildete die Grundlage für jede der jüngsten großen Sprachmodelle.

Aber der Transformer hat einen großen Fehler. Er verwendet etwas Namens "Aufmerksamkeit", bei dem das Computerprogramm die Informationen in einer Gruppe von Symbolen, wie Wörtern, nimmt und diese Informationen in eine neue Gruppe von Symbolen überträgt, wie die Antwort, die Sie von ChatGPT sehen, was die Ausgabe ist.

Außerdem:Was ist GPT-4? Hier ist alles, was du wissen musst

Die Aufmerksamkeitsoperation - das essentielle Werkzeug aller großen Sprachprogramme, einschließlich ChatGPT und GPT-4 - hat eine "quadratische" Rechenkomplexität (Wiki "Zeitkomplexität" der Berechnung). Diese Komplexität bedeutet, dass die Zeit, die ChatGPT benötigt, um eine Antwort zu erzeugen, quadratisch mit der Menge an Daten zunimmt, die als Eingabe zugeführt wird.

An einem gewissen Punkt, wenn es zu viele Daten gibt - zu viele Wörter in der Aufforderung oder zu viele Unterhaltungen über Stunden und Stunden des Chats mit dem Programm - dann wird entweder das Programm überlastet und braucht länger, um eine Antwort zu liefern, oder es müssen immer mehr GPU-Chips hinzugefügt werden, um schneller zu laufen, was zu einem Anstieg der Rechenanforderungen führt.

In dem neuen Papier mit dem Titel 'Hyena Hierarchie: Auf dem Weg zu größeren faltenden Sprachmodellen', das auf dem arXiv Preprint-Server veröffentlicht wurde, schlagen der Hauptautor Michael Poli von Stanford und seine Kollegen vor, die Aufmerksamkeitsfunktion des Transformers durch etwas subquadratisches, nämlich Hyena, zu ersetzen.

Außerdem:Was ist Auto-GPT? Alles Wissenswerte über das nächste leistungsstarke KI-Tool

Die Autoren erklären den Namen nicht, aber man kann sich mehrere Gründe für ein "Hyena"-Programm vorstellen. Hyänen sind Tiere, die in Afrika leben und über weite Strecken jagen können. In gewisser Weise könnte ein sehr leistungsstarkes Sprachmodell wie eine Hyäne sein, die über weite Strecken jagt, um Nahrung zu finden.

Aber die Autoren sind wirklich besorgt über "Hierarchie", wie der Titel vermuten lässt, und Hyänenfamilien haben eine strenge Rangordnung, nach der Mitglieder eines lokalen Hyänen-Clans verschiedene Ränge haben, die Dominanz festlegen. In ähnlicher Weise wendet das Hyena-Programm wie Sie sehen werden immer wieder eine Reihe sehr einfacher Operationen an, so dass sie sich zu einer Art Hierarchie der Datenverarbeitung vereinen. Es ist dieses kombinatorische Element, das dem Programm seinen Namen Hyena gibt.

Außerdem:Zukünftige Versionen von ChatGPT könnten laut Ben Goertzel die Mehrheit der heutigen Arbeit von Menschen ersetzen

Die beteiligten Autoren des Papiers gehören zu den Größen der KI-Welt, wie zum Beispiel Yoshua Bengio, wissenschaftlicher Direktor des MILA, der 2019 mit dem Turing Award ausgezeichnet wurde, dem Äquivalent des Nobelpreises in der Informatik. Bengio wird weithin dafür anerkannt, den Aufmerksamkeitsmechanismus lange vor Vaswani und seinem Team entwickelt zu haben, bevor sie ihn für den Transformer adaptierten.

Auch unter den Autoren befindet sich Christopher Ré, außerordentlicher Professor für Informatik an der Stanford University, der in den letzten Jahren dazu beigetragen hat, das Konzept der Künstlichen Intelligenz als "Software 2.0" voranzubringen.

Um eine sub-quadratische Alternative zur Aufmerksamkeit zu finden, haben Poli und sein Team damit begonnen, zu untersuchen, wie der Aufmerksamkeitsmechanismus das tut, was er tut, um zu sehen, ob diese Arbeit effizienter erledigt werden kann.

Praktiken in der AI-Wissenschaft, die als mechanistische Interpretierbarkeit bekannt sind, liefern Erkenntnisse darüber, was tief im Inneren eines neuronalen Netzwerks passiert, in den rechnerischen „Schaltkreisen“ der Aufmerksamkeit. Sie können es sich vorstellen, als ob Sie eine Software zerlegen würden, ähnlich wie Sie eine Uhr oder einen PC auseinandernehmen würden, um seine Teile zu sehen und herauszufinden, wie er funktioniert.

Außerdem:Ich habe ChatGPT verwendet, um die gleiche Routine in 12 führenden Programmiersprachen zu schreiben. So hat es funktioniert

Eine von Poli und seinem Team zitierte Arbeit ist eine Reihe von Experimenten des Forschers Nelson Elhage von der KI-Start-up-Firma Anthropic. In diesen Experimenten werden die Transformer-Programme auseinandergenommen, um zu sehen, was die Aufmerksamkeit bewirkt.

Im Grunde genommen haben Elhage und sein Team festgestellt, dass die Aufmerksamkeit auf ihrer grundlegendsten Ebene durch sehr einfache Computeroperationen funktioniert, wie zum Beispiel das Kopieren eines Wortes aus einer kürzlichen Eingabe und das Einfügen in die Ausgabe.

Zum Beispiel, wenn man einen Satz aus Harry Potter und der Stein der Weisen in ein großes Sprachmodellprogramm wie ChatGPT eingibt, wie "Mr. Dursley war der Direktor einer Firma namens Grunnings...", reicht es möglicherweise aus, "D-u-r-s" einzugeben, den Anfang des Namens, um das Programm dazu zu bringen, den Namen "Dursley" zu vervollständigen, da es den Namen in einem vorherigen Satz von der Stein der Weisen gesehen hat. Das System kann aus dem Gedächtnis den Eintrag der Buchstaben "l-e-y" kopieren, um den Satz automatisch zu vervollständigen.

Außerdem: ChatGPT ist eher eine 'fremde Intelligenz' als ein menschliches Gehirn, sagt Zukunftsdenker

Allerdings stößt die Aufmerksamkeitsoperation auf das Quadratische-Komplexitäts-Problem, wenn die Anzahl der Wörter immer weiter wächst. Mehr Wörter erfordern mehr sogenannte "Gewichte" oder Parameter, um die Aufmerksamkeitsoperation auszuführen.

Wie die Autoren schreiben: "Der Transformer-Block ist ein leistungsfähiges Tool für die Sequenzmodellierung, hat aber auch seine Einschränkungen. Eine der bemerkenswertesten ist der Rechenaufwand, der rapide ansteigt, wenn die Länge der Eingangssequenz zunimmt."

Inhalt :

Obwohl technische Details von ChatGPT und GPT-4 von OpenAI nicht offengelegt wurden, wird vermutet, dass sie möglicherweise eine Billion oder mehr solcher Parameter haben. Das Ausführen dieser Parameter erfordert mehr GPU-Chips von Nvidia und treibt somit die Berechnungskosten in die Höhe.

Um die quadratische Berechnungskosten zu reduzieren, haben Poli und sein Team die Attention-Operation durch das sogenannte "Convolution" ersetzt, das eine der ältesten Operationen in KI-Programmen ist und in den 1980er Jahren verfeinert wurde. Eine Convolution ist einfach ein Filter, der Objekte in Daten herausfiltern kann, sei es die Pixel in einem digitalen Foto oder die Wörter in einem Satz.

Zudem: Der Erfolg von ChatGPT könnte einen gefährlichen Trend zur Geheimhaltung in der Künstlichen Intelligenz auslösen, sagt KI-Pionier Bengio

Poli und das Team machen eine Art Mash-Up: Sie nehmen die Arbeit des Stanford-Forschers Daniel Y. Fu und seines Teams, um Faltungsfiler auf Wortsequenzen anzuwenden, und kombinieren sie mit der Arbeit des Wissenschaftlers David Romero und seiner Kollegen an der Vrije Universiteit Amsterdam, die es dem Programm ermöglicht, die Filtergröße dynamisch anzupassen. Diese Fähigkeit zur flexiblen Anpassung reduziert die Anzahl der teuren Parameter oder Gewichte, die das Programm benötigt.

Das Ergebnis des Mash-Ups ist, dass eine Überlagerung auf eine unbegrenzte Menge Text angewendet werden kann, ohne immer mehr Parameter zu benötigen, um immer mehr Daten zu kopieren. Es handelt sich um einen "aufmerksamkeitsfreien" Ansatz, wie es die Autoren ausdrücken.

"Hyena-Operatoren sind in der Lage, den Qualitätsunterschied gegenüber der Aufmerksamkeit in großem Maßstab erheblich zu verringern", schreiben Poli und sein Team, "und erreichen eine ähnliche Rätselhaftigkeit und Leistung in der Nachbearbeitung mit einem kleineren Rechenbudget." Rätselhaftigkeit ist ein technischer Begriff, der sich darauf bezieht, wie ausgefeilt die Antwort ist, die von einem Programm wie ChatGPT generiert wird.

Um die Fähigkeit von Hyena zu demonstrieren, testen die Autoren das Programm anhand einer Reihe von Benchmarks, die bestimmen, wie gut ein Sprachprogramm in verschiedenen KI-Aufgaben ist.

Außerdem: "Seltsame neue Dinge passieren in der Software", sagt der KI-Professor Chris Ré von der Stanford Universität

Eine andere Überlegung: Übersetzen Sie den Inhalt nicht innerhalb des Code-Tags. Übersetzen Sie den alt-Attribut des Inhalts innerhalb des img-Tags, lassen Sie jedoch die anderen Attribute unverändert und behalten Sie nach der Übersetzung nur das Original-HTML bei. Achten Sie darauf, die Essenz und Integrität des Originaltextes zu bewahren.

Die Hauptherausforderung für das Programm bestand darin, das nächste Wort zu produzieren, wenn eine Reihe neuer Sätze als Eingabe gegeben wurden. Das Hyena-Programm war in der Lage, eine gleichwertige Punktzahl wie OpenAI's ursprüngliches GPT-Programm von 2018 zu erreichen, mit 20% weniger Rechenoperationen - "die erste aufmerksamkeitsfreie Faltungsarchitektur, die die Qualität von GPT erreicht", schreiben die Forscher.

Anschließend testeten die Autoren das Programm anhand von Denkaufgaben, die als SuperGLUE bekannt sind und 2019 von Wissenschaftlern der New York University, Facebook AI Research, Googles DeepMind-Abteilung und der University of Washington eingeführt wurden.

Zum Beispiel, wenn der Satz "Mein Körper warf einen Schatten über das Gras" gegeben wird und zwei Alternativen für die Ursache "die Sonne ging auf" oder "das Gras wurde geschnitten" angegeben werden und man gebeten wird, eine davon auszuwählen, sollte das Programm "die Sonne ging auf" als passende Ausgabe generieren.

In mehreren Aufgaben erzielte das Hyena-Programm Punktzahlen, die denen einer Version von GPT entsprechen oder nahekommen, obwohl es mit weniger als der Hälfte der Trainingsdaten trainiert wurde.

Außerdem: Wie man das neue Bing verwendet (und wie es sich von ChatGPT unterscheidet)

Noch interessanter ist, was passierte, als die Autoren die Länge der als Eingabe verwendeten Phrasen erhöhten: Mehr Wörter bedeuteten eine bessere Verbesserung der Leistung. Bei 2.048 "Tokens", die Sie als Wörter betrachten können, benötigt Hyena weniger Zeit, um eine sprachliche Aufgabe abzuschließen als der Aufmerksamkeitsansatz.

Bei 64.000 Tokens erreichen die Autoren "Hyena-Geschwindigkeitssteigerungen 100-fach" - eine hundertfache Leistungssteigerung.

Poli und sein Team argumentieren, dass sie mit Hyena nicht nur einen anderen Ansatz versucht haben, sondern dass sie auch "die quadratische Barrieren durchbrochen" haben, was zu einer qualitativen Veränderung führt, wie schwer es für ein Programm ist, Ergebnisse zu berechnen.

Sie schlagen auch vor, dass es möglicherweise auch bedeutende Veränderungen in der Qualität geben könnte, wenn man weiterhin den Weg geht: "Das Durchbrechen der quadratischen Barriere ist ein wichtiger Schritt hin zu neuen Möglichkeiten für Deep Learning, wie die Verwendung ganzer Lehrbücher als Kontext, das Generieren von Musik in Langform oder die Verarbeitung von gigapixelgroßen Bildern", schreiben sie.

Die Fähigkeit des Hyänen, einen Filter zu verwenden, der sich über tausende und tausende Wörter effizienter erstreckt, schreiben die Autoren, bedeutet, dass es praktisch keine Grenze für den "Kontext" einer Abfrage an ein Sprachprogramm gibt. Es könnte effektiv Elemente von Texten oder früheren Gesprächen abrufen, die weit entfernt von der aktuellen Unterhaltung sind - genau wie Hyänen, die Meilenweit jagen.

Außerdem: Die besten KI-Chatbots: ChatGPT und andere unterhaltsame Alternativen zum Ausprobieren

"Hyena-Operatoren haben einen unbegrenzten Kontext", schreiben sie. "Genauer gesagt sind sie nicht künstlich durch z. B. Lokalität beschränkt und können langreichweitige Abhängigkeiten zwischen beliebigen Elementen des [Eingabe]-Typs lernen."

Darüber hinaus können das Programm und seine Funktionalitäten nicht nur auf Wörter, sondern auch auf Daten unterschiedlicher Modalitäten angewendet werden, wie beispielsweise Bilder sowie möglicherweise Video- und Tondateien.

Es ist wichtig zu beachten, dass das im Paper gezeigte Hyena-Programm im Vergleich zu GPT-4 oder sogar GPT-3 klein ist. Während GPT-3 175 Milliarden Parameter oder Gewichte hat, hat die größte Version von Hyena nur 1,3 Milliarden Parameter. Es bleibt also abzuwarten, wie gut sich Hyena in einem direkten Vergleich mit GPT-3 oder 4 schlagen wird.

Aber wenn die erzielte Effizienz auch für größere Versionen des Hyena-Programms erhalten bleibt, könnte es ein neues Paradigma sein, das genauso weit verbreitet ist wie die Aufmerksamkeit in den letzten zehn Jahren.

Wie Poli und das Team feststellen: "Einfachere subquadratische Designs wie Hyena, die auf einer Reihe einfacher Leitprinzipien basieren und anhand von mechanistischen Interpretationsbenchmarks bewertet werden, können eine Grundlage für effiziente große Modelle bilden."

Diese neue Technologie könnte GPT-4 und alles Ähnliche in den Schatten stellen

Zugehörige Artikel