Wie das ChatGPT-Wasserzeichen funktioniert und warum es umgangen werden könnte

chatgpt-watermarking.jpg

Mit ChatGPT von OpenAI wurde eine Möglichkeit zur automatischen Erstellung von Inhalten eingeführt. Pläne zur Einführung einer Wasserzeichenfunktion zur leichteren Erkennung machen jedoch einige Leute nervös. So funktioniert das ChatGPT-Wasserzeichen und warum es möglicherweise eine Möglichkeit gibt, es zu umgehen.

ChatGPT ist ein unglaubliches Tool, das Online-Publisher, Affiliates und SEOs gleichermaßen lieben und fürchten.

Einige Vermarkter lieben es, weil sie neue Möglichkeiten entdecken, damit Inhaltsbriefe, Gliederungen und komplexe Artikel zu erstellen.

Online-Publisher befürchten, dass KI-Inhalte die Suchergebnisse überschwemmen und von Menschen verfasste Fachartikel verdrängen könnten.

Daher wird die Nachricht über eine Wasserzeichenfunktion, die die Erkennung von ChatGPT-verfassten Inhalten ermöglicht, ebenfalls mit Sorge und Hoffnung erwartet.

Kryptografisches Wasserzeichen

Ein Wasserzeichen ist eine halbtransparente Markierung (ein Logo oder Text), die in ein Bild eingebettet wird. Das Wasserzeichen signalisiert, wer der ursprüngliche Autor des Werkes ist.

Es ist hauptsächlich auf Fotos und zunehmend auch auf Videos zu sehen.

Das Markieren von Text mit Wasserzeichen in ChatGPT beinhaltet Kryptografie in Form der Einbettung eines Musters aus Wörtern, Buchstaben und Satzzeichen in Form eines Geheimcodes.

Scott Aaronson und ChatGPT-Wasserzeichen

Ein einflussreicher Informatiker namens Scott Aaronson wurde im Juni 2022 von OpenAI eingestellt, um an der KI-Sicherheit und -Ausrichtung zu arbeiten.

KI-Sicherheit ist ein Forschungsbereich, der sich mit der Untersuchung von Möglichkeiten befasst, wie KI Menschen schaden könnte, und mit der Entwicklung von Möglichkeiten, diese Art von negativen Störungen zu verhindern.

Die wissenschaftliche Zeitschrift Distill mit Autoren, die mit OpenAI verbunden sind, definiert KI-Sicherheit wie folgt:

„Das Ziel der langfristigen Sicherheit künstlicher Intelligenz (KI) besteht darin, sicherzustellen, dass fortschrittliche KI-Systeme zuverlässig an menschlichen Werten ausgerichtet sind – dass sie zuverlässig Dinge tun, die die Menschen von ihnen erwarten.“

AI Alignment ist der Bereich der künstlichen Intelligenz, der sich damit beschäftigt, sicherzustellen, dass die KI auf die beabsichtigten Ziele ausgerichtet ist.

Ein großes Sprachmodell (LLM) wie ChatGPT kann auf eine Weise verwendet werden, die möglicherweise im Widerspruch zu den von OpenAI definierten Zielen der KI-Ausrichtung steht, die darin bestehen, KI zu schaffen, die der Menschheit zugute kommt.

Demnach besteht der Zweck des Wasserzeichens darin, den Missbrauch von KI in einer Weise zu verhindern, die der Menschheit schadet.

Aaronson erklärte den Grund für das Wasserzeichen der ChatGPT-Ausgabe:

„Dies könnte natürlich hilfreich sein, um akademisches Plagiat zu verhindern, aber beispielsweise auch die Massengenerierung von Propaganda …“

Wie funktioniert das ChatGPT-Wasserzeichen?

ChatGPT-Wasserzeichen sind ein System, das ein statistisches Muster, einen Code, in die Auswahl von Wörtern und sogar Satzzeichen einbettet.

Durch künstliche Intelligenz erstellte Inhalte werden mit einem ziemlich vorhersehbaren Muster der Wortwahl generiert.

Die von Menschen und KI geschriebenen Wörter folgen einem statistischen Muster.

Das Ändern des Musters der in generierten Inhalten verwendeten Wörter ist eine Möglichkeit, den Text mit einem „Wasserzeichen“ zu versehen, damit ein System leichter erkennen kann, ob es sich um das Produkt eines KI-Textgenerators handelt.

Der Trick, der dafür sorgt, dass Wasserzeichen mit KI-Inhalten nicht erkennbar sind, besteht darin, dass die Verteilung von Wörtern immer noch ein zufälliges Aussehen hat, ähnlich wie bei normalem KI-generiertem Text.

Dies wird als pseudozufällige Verteilung von Wörtern bezeichnet.

Pseudozufälligkeit ist eine statistisch zufällige Reihe von Wörtern oder Zahlen, die eigentlich nicht zufällig sind.

ChatGPT-Wasserzeichen werden derzeit nicht verwendet. Allerdings gibt Scott Aaronson von OpenAI zu Protokoll, dass dies geplant sei.

Derzeit befindet sich ChatGPT in der Vorschau, die es OpenAI ermöglicht, „Fehlausrichtungen“ im realen Einsatz zu erkennen.

Vermutlich wird das Wasserzeichen in einer endgültigen Version von ChatGPT oder früher eingeführt.

Scott Aaronson schrieb über die Funktionsweise von Wasserzeichen:

„Mein bisheriges Hauptprojekt war ein Tool zum statistischen Wasserzeichen für die Ausgaben eines Textmodells wie GPT.

Wenn GPT einen langen Text generiert, möchten wir grundsätzlich, dass es in der Wortwahl ein ansonsten nicht wahrnehmbares geheimes Signal gibt, mit dem Sie später beweisen können, dass dies tatsächlich von GPT stammt.“

Aaronson erklärte weiter, wie das ChatGPT-Wasserzeichen funktioniert. Zunächst ist es jedoch wichtig, das Konzept der Tokenisierung zu verstehen.

Die Tokenisierung ist ein Schritt bei der Verarbeitung natürlicher Sprache, bei dem die Maschine die Wörter in einem Dokument nimmt und sie in semantische Einheiten wie Wörter und Sätze zerlegt.

Durch die Tokenisierung wird Text in eine strukturierte Form umgewandelt, die beim maschinellen Lernen verwendet werden kann.

Der Prozess der Textgenerierung besteht darin, dass die Maschine anhand des vorherigen Tokens errät, welches Token als nächstes kommt.

Dies geschieht mit einer mathematischen Funktion, die die Wahrscheinlichkeit des nächsten Tokens bestimmt, was als Wahrscheinlichkeitsverteilung bezeichnet wird.

Welches Wort als nächstes kommt, wird vorhergesagt, aber es ist zufällig.

Das Wasserzeichen selbst ist das, was Aaron als pseudozufällig beschreibt, da es einen mathematischen Grund dafür gibt, dass ein bestimmtes Wort oder Satzzeichen vorhanden ist, es aber statistisch gesehen immer noch zufällig ist.

Hier ist die technische Erklärung des GPT-Wasserzeichens:

„Bei GPT ist jede Ein- und Ausgabe eine Zeichenfolge von Token, die Wörter, aber auch Satzzeichen, Wortteile oder mehr sein können – insgesamt gibt es etwa 100.000 Token.

Im Kern generiert GPT ständig eine Wahrscheinlichkeitsverteilung über den nächsten zu generierenden Token, abhängig von der Folge der vorherigen Token.

Nachdem das neuronale Netz die Verteilung generiert hat, tastet der OpenAI-Server tatsächlich ein Token entsprechend dieser Verteilung ab – oder einer modifizierten Version der Verteilung, abhängig von einem Parameter namens „Temperatur“.

Solange die Temperatur jedoch ungleich Null ist, ist die Auswahl des nächsten Tokens normalerweise etwas zufällig: Sie können die gleiche Eingabeaufforderung immer wieder ausführen und erhalten jedes Mal eine andere Vervollständigung (z. B. eine Reihe von Ausgabetokens). .

Anstatt also das nächste Token zufällig auszuwählen, besteht die Idee, es mit einem Wasserzeichen zu versehen, darin, es pseudozufällig auszuwählen, und zwar unter Verwendung einer kryptografischen Pseudozufallsfunktion, deren Schlüssel nur OpenAI bekannt ist.“

Für den Leser des Textes sieht das Wasserzeichen völlig natürlich aus, da die Wortwahl die Zufälligkeit aller anderen Wörter nachahmt.

Dies ist die technische Erklärung:

„Zur Veranschaulichung: In dem Sonderfall, in dem GPT eine Reihe möglicher Token hatte, die es als gleich wahrscheinlich einschätzte, konnte man einfach den Token auswählen, der g maximiert. Für jemanden, der den Schlüssel nicht kannte, würde die Wahl völlig zufällig aussehen, aber jemand, der den Schlüssel kannte, konnte später g über alle N-Gramm summieren und feststellen, dass es ungewöhnlich groß war.“

Wasserzeichen sind eine Datenschutzlösung

Ich habe Diskussionen in den sozialen Medien gesehen, in denen einige Leute vorgeschlagen haben, dass OpenAI jede von ihm generierte Ausgabe aufzeichnen und zur Erkennung verwenden könnte.

Scott Aaronson bestätigt, dass OpenAI dies tun könnte, dass dies jedoch ein Datenschutzproblem darstellt. Die mögliche Ausnahme betrifft die Strafverfolgungssituation, auf die er nicht näher eingegangen ist.

So erkennen Sie ChatGPT- oder GPT-Wasserzeichen

Etwas Interessantes, das noch nicht so bekannt zu sein scheint, ist, dass Scott Aaronson bemerkte, dass es eine Möglichkeit gibt, das Wasserzeichen zu umgehen.

Er sagte nicht, dass es möglich sei, das Wasserzeichen zu umgehen, er sagte, dass es besiegt werden könne .

„Nun, das alles kann mit genügend Aufwand besiegt werden.

Wenn Sie beispielsweise eine andere KI verwenden, um die GPT-Ausgabe zu paraphrasieren – nun gut, wir werden das nicht erkennen können.“

Es scheint, dass das Wasserzeichen umgangen werden kann, zumindest seit November, als die oben genannten Aussagen gemacht wurden.

Es gibt keinen Hinweis darauf, dass das Wasserzeichen derzeit verwendet wird. Wenn es jedoch zum Einsatz kommt, ist möglicherweise nicht bekannt, ob diese Lücke geschlossen wurde.

Zitat

Lesen Sie hier den Blogbeitrag von Scott Aaronson.

Zugehörige Artikel

Mehr anzeigen >>

Nutzen Sie die Kraft der KI mit HIX.AI!