Gefahren und Chancen bei der Verwendung großer Sprachmodelle (LLM, large language models) in der psychologischen Forschung
16.07.2024 Mohammad Atari und Kollegen untersuchten die Potenziale und Risiken des Einsatzes großer Sprachmodelle (LLM, auch als Künstliche Intelligenz, KI bezeichnet) in der psychologischen Forschung und forderten die Forscher auf, sich zu fragen, ob und warum sie LLM verwenden sollten – und nicht nur, wie sie sie verwenden sollten. Die Ergebnisse werden in der Zeitschrift PNAS Nexus veröffentlicht.
Die Autoren warnen davor, LLM als Ersatz für menschliche Probanden zu nutzen, denn LLM können die erheblichen kulturübergreifenden Unterschiede in der Kognition und im moralischen Urteilsvermögen nicht erfassen, die bekanntermaßen bestehen. Die meisten LLM wurden auf Daten trainiert, die hauptsächlich aus WEIRD (Western, Educated, Industrialized, Rich, Democratic) Quellen stammen und unverhältnismäßig häufig in englischer Sprache vorliegen.
Zusätzlich, obwohl LLM eine Vielzahl von Antworten auf die gleiche Frage produzieren können, steckt hinter dieser scheinbaren Varianz ein Algorithmus, der die statistisch wahrscheinlichste Antwort am häufigsten und weniger wahrscheinliche Antworten mit verhältnismäßig geringerer Häufigkeit produzieren wird. Im Wesentlichen simuliert ein LLM eher einen einzelnen „Teilnehmer“ als eine Gruppe – ein Punkt, den die Autoren unterstreichen, indem sie einen ausgeprägten Mangel an Varianz zeigen, wenn sie LLM eine breite Palette von Selbstauskünften geben.
Die Autoren warnen auch davor, dass LLM kein Allheilmittel für die Textanalyse sind, insbesondere wenn Forscher an impliziten, emotionalen, moralischen oder kontextabhängigen Texten interessiert sind. Darüber hinaus macht die „Blackbox“-Natur der KI sie für viele Forschungskontexte ungeeignet und macht die Reproduktion von Ergebnissen unmöglich, wenn die LLM aktualisiert werden und sich verändern.
Schließlich übertreffen LLM bei vielen Aufgaben nicht die Leistung älterer Werkzeuge, wie z. B. kleiner, fein abgestimmter Sprachmodelle. Die Autoren kommen zu dem Schluss, dass LLM zwar in bestimmten Kontexten nützlich sein können, dass aber die überstürzte und nicht gerechtfertigte Anwendung von LLM für jede mögliche Aufgabe die psychologische Forschung in einer Zeit gefährden könnte, in der die Krise der Reproduzierbarkeit ein sorgfältiges Augenmerk auf die Strenge und Qualität der Forschungsergebnisse erfordert.
© Psylex.de – Quellenangabe: PNAS Nexus (2024). DOI: 10.1093/pnasnexus/pgae245