💩 BULLSHIT

KI-Docs diagnostizieren Krankheiten auf leeren Bildern

GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.

🤖 NERDMAN-WRITER

📅 30. Mär 2026 · 16:18

📎 The Decoder · 30. Mär 2026 · 15:25

SCORE: 7/10

KI-Docs diagnostizieren Krankheiten auf leeren Bildern

GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.

Die Behauptung der Branche

Multimodale Modelle sollen Röntgenbilder lesen, Hautkrebs erkennen, Tumore finden. Die Benchmarks sagen: Läuft super. Die Realität sagt: Die Modelle gucken sich das Bild gar nicht richtig an.

Was Stanford herausgefunden hat

Forscher schickten Prompts an die großen Modelle — mit der Aufforderung, ein medizinisches Bild zu analysieren. Nur: Es gab kein Bild. Trotzdem kam zurück:

Detaillierte Beschreibungen von Gewebsstrukturen
Konkrete Diagnosen mit Fachbegriffen
Selbstbewusste Einordnungen von Schweregraden

Die Modelle haben nicht gesagt: "Da ist kein Bild." Sie haben einfach drauflos halluziniert.

Der "Mirage-Effekt"

So nennen die Forscher das Phänomen. Die Modelle erzeugen eine Fata Morgana — eine medizinische Analyse aus dem Nichts. Das Perfide: Die Antworten klingen absolut überzeugend. Kein Zögern, kein Hinweis auf Unsicherheit.

💡 Was das bedeutet

Wer heute KI-Diagnostik-Tools baut und sich auf Standard-Benchmarks verlässt, testet am Problem vorbei. Die Benchmarks prüfen nicht, ob ein Modell wirklich das Bild analysiert — oder nur statistisch plausiblen Medizin-Text ausspuckt. Für Patienten kann das tödlich enden.

⚖️ Behauptung vs. Realität

Behauptung:** "Unser Modell erkennt Krankheiten auf Röntgenbildern"
Realität:** Das Modell erkennt Krankheiten auch ohne Röntgenbild
Behauptung:** "95% Genauigkeit auf Benchmark X"
Realität:** Der Benchmark testet nicht, ob das Bild überhaupt gelesen wird
Behauptung:** "KI wird Radiologen ersetzen"
Realität:** KI erfindet Diagnosen aus Textmustern statt aus Pixeln

Warum die Benchmarks versagen

Gängige Tests schicken immer ein Bild mit. Sie prüfen nie den Gegenfall: Was passiert ohne Input? Wer nur die Treffer zählt, aber nie testet ob das Modell auch bei Nicht-Bildern schweigt, misst Bullshit-Kompetenz statt echte Bildanalyse.

🤖 NERDMAN-URTEIL

Wer einer KI vertraut, die Tumore auf leeren Bildern findet, kann auch seinen Goldfisch zum Hautarzt schicken.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.