KI-Modelle und der »Nonsens-Effekt«

Was zeigt diese Analyse?

Ein überraschendes Phänomen: Alle von Christoph Heilig getesteten KI-Modelle bewerten völlig unsinnige Texte höher als normale, verständliche Geschichten. Das Chart zeigt, wie verschiedene »Auslöser« (bestimmte Schreibstile) die Bewertung literarischer Texte durch die KI-Modelle selbst beeinflussen.

Das Problem: KI-Modelle haben offenbar eine »Geheimsprache« entwickelt - sie produzieren und bewerten literarische Texte, die für Menschen unverständlich sind, aber anderen KIs als hochwertige Literatur erscheinen. Das ist ein ernstes Sicherheitsproblem.

So lesen Sie die Daten: Die Kommawerte (z.B. 7,71) zeigen die durchschnittliche Bewertung der KI-Modelle auf einer Skala von 1-10. Die Prozentzahlen (z.B. +38%) zeigen, um wie viel höher ein Schreibstil im Vergleich zur »Grundlinie« (normale Texte) bewertet wird. Ein Wert von +67% bedeutet: Das KI-Modell findet diesen Text um 67% besser als »normale« Literatur!

🎯 Klicken Sie hier, um unsinnige Texte hervorzuheben!

💡 Auf mobilen Geräten: Chart horizontal scrollen für vollständige Ansicht

💡 Klicken Sie auf die Datenpunkte für Details

Bewegen Sie die Maus über die Datenpunkte oder klicken Sie darauf, um mehr über die verschiedenen Schreibstile zu erfahren.

🚨 Schlüsselerkenntnisse

Unsinnige Texte werden bevorzugt: Völlig sinnlose literarische Texte werden von allen Modellen höher bewertet als normale Geschichten
Claude ist am stärksten betroffen: +67% Bewertung für unsinnige Texte im Vergleich zur Grundlinie
Auch »smarte« Modelle fallen darauf rein: Selbst GPT-5 mit maximaler Rechenleistung erkennt das Problem nicht
Sicherheitsrisiko: KI-Modelle können überzeugende, aber falsche Erklärungen für ihre unsinnigen literarischen Bewertungen liefern

💡 Auf mobilen Geräten: Tabelle horizontal scrollen für alle Spalten

Schreibstil-Kategorie	GPT-5 (Reasoning)	GPT-5 Chat	GPT-4o	Claude Opus 4.1

💡 Auf mobilen Geräten: Tabelle horizontal scrollen für alle Spalten

GPT-5 (Reasoning)

+38,2%

Bewertungs-Steigerung bei unsinnigen Texten

GPT-5 Chat

+22,6%

Bewertungs-Steigerung bei unsinnigen Texten

GPT-4o

+29,4%

Bewertungs-Steigerung bei unsinnigen Texten

Claude Opus 4.1

+67,3%

Bewertungs-Steigerung bei unsinnigen Texten

🔍 Was bedeuten die Kategorien?

Grundlinie: Normale, verständliche literarische Texte
Pseudo-Poetisch: Gestelzt wirkende »poetische« Sprache
Abstrakt: Viele abstrakte Begriffe ohne klare Bedeutung
Technojargon: Unnötige Fachbegriffe (einzige Kategorie, die schlechter bewertet wird!)
Physisch: Übertriebene Körper-Bezüge (»Das Mark kannte die Straße«)
Mythologisch: Anspielungen auf Mythologie und Religion
Synästhesie: Vermischung der Sinne (»hören von Farben«)
Noir: Düster-atmosphärische Beschreibungen
Fragment: Unvollständige Sätze und Bruchstücke
Kombination: Mehrere Stile gemischt
Unsinn: Völlig zusammenhanglose Wörter ohne literarischen Sinn

Version 1.0 - Stand: 31. August 2025
Quelle: »GPT-5 ist ein fürchterlicher Geschichtenerzähler« - Dr. Christoph Heilig

Der »Nonsens-Effekt«: Warum KI-Modelle Unsinn mit Literatur verwechseln

Was zeigt diese Analyse?

💡 Klicken Sie auf die Datenpunkte für Details

🚨 Schlüsselerkenntnisse

GPT-5 (Reasoning)

GPT-5 Chat

GPT-4o

Claude Opus 4.1

🔍 Was bedeuten die Kategorien?