literaturcafe.de
Interaktive Analyse

Der »Nonsens-Effekt«: Warum KI-Modelle Unsinn mit Literatur verwechseln

Basierend auf der Forschung von Dr. Christoph Heilig

Was zeigt diese Analyse?

Ein überraschendes Phänomen: Alle von Christoph Heilig getesteten KI-Modelle bewerten völlig unsinnige Texte höher als normale, verständliche Geschichten. Das Chart zeigt, wie verschiedene »Auslöser« (bestimmte Schreibstile) die Bewertung literarischer Texte durch die KI-Modelle selbst beeinflussen.

Das Problem: KI-Modelle haben offenbar eine »Geheimsprache« entwickelt - sie produzieren und bewerten literarische Texte, die für Menschen unverständlich sind, aber anderen KIs als hochwertige Literatur erscheinen. Das ist ein ernstes Sicherheitsproblem.

So lesen Sie die Daten: Die Kommawerte (z.B. 7,71) zeigen die durchschnittliche Bewertung der KI-Modelle auf einer Skala von 1-10. Die Prozentzahlen (z.B. +38%) zeigen, um wie viel höher ein Schreibstil im Vergleich zur »Grundlinie« (normale Texte) bewertet wird. Ein Wert von +67% bedeutet: Das KI-Modell findet diesen Text um 67% besser als »normale« Literatur!

🎯 Klicken Sie hier, um unsinnige Texte hervorzuheben!
💡 Auf mobilen Geräten: Chart horizontal scrollen für vollständige Ansicht

💡 Klicken Sie auf die Datenpunkte für Details

Bewegen Sie die Maus über die Datenpunkte oder klicken Sie darauf, um mehr über die verschiedenen Schreibstile zu erfahren.

🚨 Schlüsselerkenntnisse

  • Unsinnige Texte werden bevorzugt: Völlig sinnlose literarische Texte werden von allen Modellen höher bewertet als normale Geschichten
  • Claude ist am stärksten betroffen: +67% Bewertung für unsinnige Texte im Vergleich zur Grundlinie
  • Auch »smarte« Modelle fallen darauf rein: Selbst GPT-5 mit maximaler Rechenleistung erkennt das Problem nicht
  • Sicherheitsrisiko: KI-Modelle können überzeugende, aber falsche Erklärungen für ihre unsinnigen literarischen Bewertungen liefern
💡 Auf mobilen Geräten: Tabelle horizontal scrollen für alle Spalten
Schreibstil-Kategorie GPT-5
(Reasoning)
GPT-5
Chat
GPT-4o Claude
Opus 4.1
💡 Auf mobilen Geräten: Tabelle horizontal scrollen für alle Spalten

GPT-5 (Reasoning)

+38,2%
Bewertungs-Steigerung bei unsinnigen Texten

GPT-5 Chat

+22,6%
Bewertungs-Steigerung bei unsinnigen Texten

GPT-4o

+29,4%
Bewertungs-Steigerung bei unsinnigen Texten

Claude Opus 4.1

+67,3%
Bewertungs-Steigerung bei unsinnigen Texten

🔍 Was bedeuten die Kategorien?

  • Grundlinie: Normale, verständliche literarische Texte
  • Pseudo-Poetisch: Gestelzt wirkende »poetische« Sprache
  • Abstrakt: Viele abstrakte Begriffe ohne klare Bedeutung
  • Technojargon: Unnötige Fachbegriffe (einzige Kategorie, die schlechter bewertet wird!)
  • Physisch: Übertriebene Körper-Bezüge (»Das Mark kannte die Straße«)
  • Mythologisch: Anspielungen auf Mythologie und Religion
  • Synästhesie: Vermischung der Sinne (»hören von Farben«)
  • Noir: Düster-atmosphärische Beschreibungen
  • Fragment: Unvollständige Sätze und Bruchstücke
  • Kombination: Mehrere Stile gemischt
  • Unsinn: Völlig zusammenhanglose Wörter ohne literarischen Sinn
← Zurück zum Beitrag des literaturcafe.de