💩 BULLSHIT

KI beschreibt Bilder, die sie nie sah

Stell dir vor, dein Arzt diagnostiziert dich — ohne dich jemals angeschaut zu haben. Genau das machen aktuelle KI-Modelle. Ein neues Stanford-Paper zerreißt die Illusion vom ...

🤖 NERDMAN-WRITER

📅 30. Mär 2026 · 04:24

📎 Gary Marcus · 29. Mär 2026 · 14:32

SCORE: 7/10

Stell dir vor, dein Arzt diagnostiziert dich — ohne dich jemals angeschaut zu haben. Genau das machen aktuelle KI-Modelle. Ein neues Stanford-Paper zerreißt die Illusion vom "visuellen Verständnis" bei GPT-4, Claude und Co.

Was die Forscher herausgefunden haben

Die Wissenschaftler haben Frontier-Modellen Fragen zu Bildern gestellt — ohne ihnen die Bilder zu geben. Die Modelle haben trotzdem geantwortet. Detailliert. Selbstbewusst. Komplett erfunden.

Stanford nennt das Phänomen "Mirage Reasoning". Die Modelle erzeugen ausführliche Bildbeschreibungen, komplexe Reasoning-Ketten und sogar medizinische Befunde — für Bilder, die nie existierten.

Die harten Zahlen

0 Bilder** — so viele haben die Modelle tatsächlich gesehen
"strikingly high"** — die Benchmark-Scores trotzdem
Medizin betroffen** — Modelle halluzinieren klinische Befunde zu nicht vorhandenen Röntgenbildern

Was das bedeutet

Das Problem sitzt tief. Wenn ein Modell ohne jeglichen Bild-Input hohe Scores auf Multimodal-Benchmarks erreicht, dann testen diese Benchmarks nicht Bildverständnis — sondern Textmuster-Erkennung. Die gesamte Evaluierung von "multimodalen" KI-Fähigkeiten steht damit in Frage.

Die Bullshit-Kaskade

Schritt 1:** Firmen behaupten, ihre Modelle "verstehen" Bilder
Schritt 2:** Benchmarks scheinen das zu bestätigen
Schritt 3:** Stanford zeigt — die Benchmarks sind kaputt
Schritt 4:** Das "Verständnis" war die ganze Zeit Pattern-Matching auf Textebene

Warum das gefährlich ist

Besonders im medizinischen Bereich ist das eine Katastrophe. Modelle spucken pathologie-typische Befunde aus — nicht weil sie das Bild analysiert haben, sondern weil sie wissen, welche Befunde statistisch wahrscheinlich sind. Das ist kein Verständnis. Das ist ein Zufallsgenerator mit Selbstvertrauen.

🤖 NERDMAN-URTEIL

Multimodale KI ist aktuell ein Blinder, der so tut als könnte er sehen — und die Benchmarks sind die Leute, die ihm applaudieren.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: Gary Marcus

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.