ChatGPT ist eine wahre Wundermaschine: Die cleveren Schülerinnen und Schüler nutzen seine Fähigkeiten wie sebstverständlich, um sich auf Bewerbungsgespräche vorzubereiten und in Unterrichtsthemen einzutauchen. Die anderen nutzen es eher zum cheaten von Lösungen. Interviews mit historischen Figuren, Zusammenfassungen von Texten und Erläuterung komplexer Sachverhalte.

Aber: Wie gut ist chatGPT wirklich?

Um das beurteilen zu können, muss ich chatGPT zu einem Gebiet befragen, indem ich mich selbst auskenne und in dem ich den Wahrheitsgehalt der Aussagen überprüfen kann.
Außerdem will ich wissen, wie gut die Künstliche Intelligenz mit „neuen“ Informationen umgeht. Verarbeitet sie nur Altbekanntes oder kann sie konkret mit neuen Informationen umgehen?

Ein charmanter Ansatzpunkt ist die Überprüfung der Fähigkeiten von chatGPT anhand meiner eigenen Romane: Sie sind der KI völlig unbekannt, ich dagegen kenne den Inhalt in- und auswendig. Falschaussagen und fehlerhafte Interpretationen fallen mir sofort auf.
Seit Jahren höre ich schlecht vorbereitete Schülerreferate mit leeren Worthülsen und nicht verstandenen Fachbegriffen: Wenn die KI was taugt, dann merke ich es. Und wenn sie nur sinnlose Satzkonstrukte produziert, merke ich es auch.

Als habe ich meine beiden Romane, „Apfelkuchen im Spätsommer“ und „Der Hund, der nur im Gestern bellte“ der Künstlichen Intelligenz zum Fraß vorgeworfen.

Wie funktioniert chatGPT?

Für meine Vorträge im kommenden Halbjahr versuche ich zu verstehen, wie chatGPT (bzw. maschinelles Lernen) funktioniert und habe durch Jay Alammar an dieser Stelle einige Antworten gefunden, die ich in vereinfachter Form hier wiedergeben möchte.

Alammar beginnt mit einem Persönlichkeitstest, den viele von uns früher^TM in der Bravo durchgeführt haben: Bin ich eher introvertiert oder extrovertiert? Sportlich oder gemütlich? Optimist oder Pessimisst? Anhand der erreichten Punktzahl in verschiedenen Kategorien lassen sich Menschen ein Stück weit klassifizieren:

Wenn ich nun mehrere Personen vergleiche komme ich zu Übereinstimmungne oder Unterschieden. Parship ist damit alle elf Minuten erfolgreich, sagt man.
Bezogen auf Dinge kann ich nun auch andere Eigenschaften einfügen: Farbe, Geschmack, Gewicht, whatever.

Menschen und Dinge lassen sich also als Zahlwerte oder Vektoren darstellen
Diese Werte lassen sich untereinander vergleichen.

Mit diesem Ansatz lassen sich verschiedene Wortbeispiele anhand zahlreicher Faktoren untersuchen, alle im folgenden genannten Beispiele entspringen der Analyse der Wikipedia. Dies sind die Werte für das Wort „König“:

[ 0.50451 , 0.68607 , -0.59517 , -0.022801, 0.60046 , -0.13498 , -0.08813 , 0.47377 , -0.61798 , -0.31012 , -0.076666, 1.493 , -0.034189, -0.98173 , 0.68229 , 0.81722 , -0.51874 , -0.31503 , -0.55809 , 0.66421 , 0.1961 , -0.13495 , -0.11476 , -0.30344 , 0.41177 , -2.223 , -1.0756 , -1.0783 , -0.34354 , 0.33505 , 1.9927 , -0.04234 , -0.64319 , 0.71125 , 0.49159 , 0.16754 , 0.34344 , -0.25663 , -0.8523 , 0.1661 , 0.40102 , 1.1685 , -1.0137 , -0.21585 , -0.15155 , 0.78321 , -0.91241 , -1.6106 , -0.64426 , -0.51042 ]

Diese Zahlen sind erst einmal wenig hilfreich. Etwas besser wird es, wenn man jeder Zahl eine Farbe zuordnet (rot, wenn sie nahe an 2 liegen, weiß in der Nähe von 0 und blau bei -2).

Lässt man die Zahlen einmal außer acht und vergleicht „König“ mit anderen Worten, ergeben sich spannende Einblicke:

Besonders spannend wird diese Darstellung, wenn man die Werte/Worte/Farben miteinander verrechnet: Was ist ein „König“ minus „Mann“ aber plus „Frau“? Eine Königin!

Wohlgemerkt: Verstehen tut chatGPT nichts davon. Es ist eine Aneinanderreihung von Wahrscheinlichkeiten und Mustererkennungssoftware. Was genau die Werte/Farben bedeuten weiß man gar nicht so genau. Aber es funktioniert sensationell gut.

Aktuelle neuronale Sprachmodelle gehen noch weiter, indem sie Fließtexte analysieren und Wahrscheinlichkeiten für sinnstiftende Sätze berechnen, aber das führt an dieser Stelle zu weit. Spannend ist für mich: Was fängt chatGPT mit einem neuen Text an?

Was versteht chatGPT?

Ich habe dazu das kostenlose PDFGear installiert und meinen Roman geöffnet. Eine erste Zusammenfassung ist wirklich leicht – ist der Klappentext doch das erste, was sich in einem Roman findet. Spannender sind Detailfragen, die nicht explizit im Buch stehen.

„In welcher Beziehung stehen Thomas und Emma zueinander?“

Beeindruckend ist, dass mir nicht nur die korrekte Antwort angegeben wird, sondern auch Seitenzahlen, die die Behauptung belegen.

Auch meine (in der Aufregung erzeugten) Rechtschreibfehler werden gekonnt ignoriert: „Wir (sic) wird die Figur des Thomas dargestellt?“

Das mit dem Geheimnis ist etwas dick aufgetragen, aber nicht unbedingt falsch. Und tatsächlich: Da die Figur mit dem ersten Satz des Buches das Zeitlich segnet, nimmt sie weniger Raum ein.

Letzte Frage: „Wie erlebt Ben den Tod seines Vaters?“

Das ist schon richtig gut. Richtig, richtig gut. Aktuell gibt es eine Beschränkung: Es werden nur die ersten 120 Seiten des Romans verarbeitet – alle Fragen, die darüber hinausgingen, konnten nicht beantwortet werden. Aber alles, was ich gefragt habe, passte genau.

Ich bin beeindruckt. Wirklich beeindruckt.

tl;dr
chatgpt ist in der Lage, ein neues Dokument zu analyiseren und Fragen korrekt zu beantworten.

Quellenangaben:
Alammar, J (2019). The Illustrated Word2vec [Blog post]. Retrieved from https://jalammar.github.io/illustrated-transformer/