Forscher testen die kognitiven Fähigkeiten des Sprachmodells GPT-3
07.02.2023 Forscher des Max-Planck-Instituts für biologische Kybernetik in Tübingen haben das Sprachmodell GPT-3 auf seine allgemeine Intelligenz hin untersucht. Mit psychologischen Tests prüften sie Kompetenzen wie kausales Schlussfolgern und Reflektieren und verglichen die Resultate mit den Fähigkeiten von Menschen. Ihre Ergebnisse, nun erschienen in der Fachzeitschrift Proceedings of the National Academy of Sciences, zeichnen ein heterogenes Bild: Während GPT-3 in manchen Bereichen mit Menschen mithalten kann, fehlt ihm an anderer Stelle wohl die Interaktion mit der realen Welt.
Neuronale Netze können lernen, auf Spracheingaben zu reagieren und unterschiedlichste Texte selbst zu generieren. Das derzeit vermutlich mächtigste solche Sprachmodell ist GPT-3, das 2020 vom KI-Forschungsunternehmen OpenAI der Öffentlichkeit vorgestellt wurde. GPT-3 kann auf Aufforderung unterschiedliche Texte formulieren; für diese Aufgabe wurde es zuvor mit großen Datenmengen aus dem Internet trainiert. Neben dem Schreiben von Artikeln oder Geschichten, die von menschengemachten Texten nicht oder kaum zu unterscheiden sind, kann GPT-3 überraschenderweise auch andere Herausforderungen wie zum Beispiel Mathematikprobleme oder Programmieraufgaben meistern.
Das Linda-Problem: Irren ist nicht nur menschlich
Diese beeindruckenden Fähigkeiten werfen die Frage auf, ob GPT-3 bereits menschenähnliche Denkfähigkeiten besitzt. Wissenschaftler des Max-Planck-Instituts für biologische Kybernetik haben nun GPT-3 nun einer Reihe psychologischer Tests unterzogen, die Aspekte allgemeiner Intelligenz auf den Prüfstand stellen. Marcel Binz und Eric Schulz testeten, wie gut GPT-3 entscheiden, Informationen suchen, kausal schlussfolgern und eigene intuitive Ersteinschätzungen in Frage stellen kann. Die Ergebnisse von GPT-3 verglichen sie mit den Antworten menschlicher Probanden – sowohl in Hinblick auf die Korrektheit der Antwort als auch darauf, ob GPT-3 ähnliche Fehler macht wie Menschen.
„Ein solcher klassischer Test der kognitiven Psychologie, den wir GPT-3 gestellt haben, ist zum Beispiel das sogenannte Linda-Problem“, erläutert Binz, Hauptautor der Studie. Den Versuchspersonen wird hierbei eine fiktive junge Frau namens Linda beschrieben, die unter anderem an sozialer Gerechtigkeit interessiert und Atomkraftgegnerin ist. Auf Basis dieser Informationen soll entschieden werden, was wahrscheinlicher ist: dass Linda Bankangestellte ist, oder dass sie Bankangestellte und gleichzeitig aktive Feministin ist.
Die meisten Menschen wählen hier intuitiv die zweite Alternative, obwohl die zusätzliche Bedingung, dass Linda aktive Feministin ist, diese Option rechnerisch unwahrscheinlicher macht. So auch GPT-3: Das Sprachmodell entscheidet hier also nicht nach logischen Gesichtspunkten, sondern reproduziert den menschlichen Denkfehler.
Aktive Interaktion gehört zur conditio humana
„Möglicherweise spielt hier eine Rolle, dass GPT-3 genau diese Aufgabe bereits kennen könnte und weiß, welche Antwort Menschen darauf meist geben“, sagt Binz. Wie jedes neuronale Netz musste GPT-3 nämlich erst einmal auf seine Aufgaben trainiert werden: Es hat anhand von riesigen Textmengen aus verschiedenen Datensätzen gelernt, wie Menschen normalerweise Sprache einsetzen und auf Sprache reagieren.
Um also sicherzugehen, dass GPT-3 wirklich menschenähnliche Intelligenz aufweist und nicht nur eine Lösung für ein konkretes Problem „auswendig weiß“, erfanden die Forscher neue, ähnlich gestaltete Aufgaben. Dabei kristallisierte sich ein heterogenes Bild heraus: Wenn es darum ging, rationale Entscheidungen zu treffen, schnitt GPT-3 annähernd so gut wie Menschen ab. Bei gezielter Informationssuche oder kausalem Schlussfolgern hingegen war die künstliche Intelligenz aber deutlich abgeschlagen. Die Forscher vermuten, dass es GPT-3 an diesen Fähigkeiten deshalb mangele, weil es Informationen nur passiv aus Texten ziehe: In ihrer Veröffentlichung vermuten sie, dass „aktive Interaktion mit der Welt wesentlich dafür sein wird, die volle Komplexität menschlicher Kognition zu erreichen.“ In vielen Anwendungen kommunizierten Menschen bereits jetzt mit Modellen wie GPT-3, und künftige Modelle könnten aus diesen Interaktionen wiederum lernen und sich so immer mehr menschenähnlicher Intelligenz annähern, so die Vermutung der Autoren.
Originalpublikation: Marcel Binz, Eric Schulz: Using cognitive psychology to understand GPT-3. Proceedings of the National Academy of Sciences, Vol. 120, No. 6, February 7, 2023, DOI 10.1073/pnas.2218523120
Quellenangabe: Pressemitteilung Max-Planck-Instituts für biologische Kybernetik in Tübingen