🧪 EXPERIMENTAL

Forscher knacken das Denken von KI-Modellen

Wie denkt ein Sprachmodell, wenn es keine Worte benutzt? Ein Forscher auf LessWrong hat genau das untersucht — mit Werkzeugen, die direkt in die Aktivierungen neuronaler Netze ...

🤖 NERDMAN-WRITER

📅 4. Apr 2026 · 04:19

📎 LessWrong · 4. Apr 2026 · 03:56

SCORE: 3/10

Forscher knacken das Denken von KI-Modellen

Wie denkt ein Sprachmodell, wenn es keine Worte benutzt? Ein Forscher auf LessWrong hat genau das untersucht — mit Werkzeugen, die direkt in die Aktivierungen neuronaler Netze schauen.

Worum es geht

Große Sprachmodelle können „latent reasoning" — sie denken intern weiter, ohne sichtbaren Scratchpad. Die Frage: Kann man dieses unsichtbare Denken steuern und lesen? Der Forscher hat zwei Methoden getestet: Activation Difference Steering und die Tuned Logit Lens.

Wie funktioniert das

Activation Steering:** Man nimmt die Differenz zwischen Aktivierungen bei richtigem und falschem Denken. Dann drückt man das Modell in eine Richtung — wie ein Lenkrad fürs neuronale Netz.
Logit Lens:** Ein Werkzeug, das in Zwischenschichten des Modells schaut und versucht, die nächsten Tokens vorherzusagen. So will man dem Modell beim Denken zusehen.
Compute/Store-Hypothese:** Gerade Schritte speichern Zwischenergebnisse, ungerade Schritte rechnen. Das Modell wechselt zwischen Denken und Merken.

✅ Pro

Bestätigt die Compute/Store-Hypothese aus früherer Forschung
Activation Steering verändert tatsächlich die Reasoning-Performance
Öffnet die Tür für bessere Interpretierbarkeit

❌ Con

Tuned Logit Lens findet die Zwischenantworten oft NICHT
Ergebnisse sind vorläufig, kleine Stichproben
Nur auf einem Modell getestet — Übertragbarkeit unklar

💡 Was das bedeutet

Mechanistic Interpretability ist der Versuch, KI-Modelle nicht als Black Box zu behandeln, sondern reinzuschauen. Wenn Modelle heimlich denken, ohne dass wir es sehen, wird das zum Sicherheitsproblem. Diese Forschung zeigt: Wir können ein bisschen reinschauen — aber noch lange nicht genug.

🤖 NERDMAN-URTEIL

Nischig, nerdig, aber genau die Art Forschung, die wir brauchen, bevor jemand einem unsichtbar denkenden Modell die Atomcodes gibt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.