ChatGPT kann Code schreiben. Jetzt sagen Forscher, dass es auch gut darin ist, Bugs zu beheben

OpenAI's ChatGPT Chatbot kann Software-Bugs sehr gut beheben, aber sein Hauptvorteil gegenüber anderen Methoden und KI-Modellen liegt in seiner einzigartigen Fähigkeit zum Dialog mit Menschen, die es ihm ermöglicht, die Korrektheit einer Antwort zu verbessern.

Forscher der Johannes Gutenberg-Universität Mainz und des University College London haben OpenAI's ChatGPT gegen "Standardtechniken zur automatischen Programmreparatur" sowie zwei Deep-Learning-Ansätze zur Programmreparatur, nämlich CoCoNuT von Forschern an der University of Waterloo, Kanada, und Codex, dem auf GPT-3 von OpenAI basierenden Modell, das den Copilot-Paarprogrammierungsautomatismus von GitHub unterstützt, antreten lassen.

Außerdem: Wie man mit ChatGPT beginnt

"Wir stellen fest, dass die Bugfixing- Leistung von ChatGPT mit den gängigen Deep-Learning-Ansätzen CoCoNut und Codex wettbewerbsfähig ist und bemerkenswert besser als die für die standardmäßigen Programmreparaturansätze gemeldeten Ergebnisse", schreiben die Forscher in einem neuen arXiv-Papier, das zuerst von New Scientist entdeckt wurde.

Die besten KI-Chatbots: ChatGPT und andere interessante Alternativen zum Ausprobieren

KI-Chatsbots und Schreibprogramme können Ihre Arbeitsbelastung reduzieren, indem sie E-Mails und Aufsätze schreiben und sogar Mathematik machen. Sie verwenden künstliche Intelligenz, um Texte zu generieren oder Fragen basierend auf Benutzereingaben zu beantworten. ChatGPT ist ein bekanntes Beispiel, aber es gibt auch andere bemerkenswerte Chatbots.

Jetzt lesen

Es ist nicht neu, dass ChatGPT zur Lösung von Programmierproblemen verwendet werden kann, aber die Forscher weisen darauf hin, dass seine einzigartige Fähigkeit zum Dialog mit Menschen ihm möglicherweise einen Vorteil gegenüber anderen Ansätzen und Modellen verschafft.

Die Forscher haben die Leistung von ChatGPT mit Hilfe des QuixBugs-Bug-Fixing-Benchmarks getestet. Es scheint, dass die automatisierten Programmirung (APR)-Systeme benachteiligt sind, da sie vor 2018 entwickelt wurden.

ChatGPT basiert auf der Transformer-Architektur, die von Yann LeCun, dem AI-Chef von Meta, diese Woche hervorgehoben wurde und von Google entwickelt wurde. Codex, CodeBERT von Microsoft Research und sein Vorgänger BERT von Google basieren alle auf Googles Transformer-Methode.

OpenAIbetont die Gesprächsfähigkeit von ChatGPT anhand von Beispielen zur Fehlerbehebung im Code, bei denen es um Klarstellungen bitten und Hinweise von einer Person erhalten kann, um zu einer besseren Antwort zu gelangen. Die großen Sprachmodelle hinter ChatGPT (GPT-3 und GPT 3.5) wurden mithilfe von Verstärkendem Lernen aus menschlichem Feedback (RLHF) trainiert.

Während die Diskussionsfähigkeit von ChatGPT dazu beitragen kann, zu einer korrekteren Antwort zu gelangen, bleibt die Qualität seiner Vorschläge unklar, stellen die Forscher fest. Deshalb wollten sie die Leistung von ChatGPT bei der Fehlerbehebung bewerten.

Die Forscher haben ChatGPT gegen 40 Python-only Probleme von QuixBugs getestet und dann manuell überprüft, ob die vorgeschlagene Lösung korrekt war oder nicht. Sie haben die Abfrage viermal wiederholt, da es eine gewisse Zufälligkeit in der Zuverlässigkeit der Antworten von ChatGPT gibt, wie ein Professor der Wharton School herausgefunden hat, nachdem er den Chatbot einem MBA-ähnlichen Test unterzogen hatte.

ChatGPT hat 19 der 40 Python-Bugs gelöst und steht damit auf einer Ebene mit CoCoNut (19) und Codex (21). Die Standard-APR-Methoden haben jedoch nur sieben der Probleme gelöst.

Die Forscher stellten fest, dass die Erfolgsrate von ChatGPT bei Folgeinteraktionen 77,5% erreichte.

Die Auswirkungen für Entwickler in Bezug auf Aufwand und Produktivität sind jedoch mehrdeutig. Stack Overflow hat kürzlich ChatGPT-generierte Antworten verboten, da sie von geringer Qualität waren, aber plausibel klangen. Der Professor der Wharton School stellte fest, dass ChatGPT ein großartiger Begleiter für MBA-Studenten sein könnte, da es als "intelligenter Berater" agieren kann - einer, der elegante, aber oft falsche Antworten produziert - und kritisches Denken fördert.

"Dies zeigt, dass menschliche Eingabe einer automatisierten APR-System sehr hilfreich sein kann, wobei ChatGPT die Mittel dazu bereitstellt", schreiben die Forscher.

"Trotz seiner hervorragenden Leistung stellt sich die Frage, ob der geistige Aufwand, der erforderlich ist, um ChatGPT-Antworten zu überprüfen, die Vorteile überwiegt, die ChatGPT mit sich bringt."

ChatGPT kann Code schreiben. Jetzt sagen Forscher auch, dass es gut darin ist, Fehler zu beheben.

Die besten KI-Chatbots: ChatGPT und andere interessante Alternativen zum Ausprobieren

Zugehörige Artikel