🧪 EXPERIMENTAL
Forscher knacken das Denken von KI-Modellen
Wie denkt ein Sprachmodell, wenn es keine Worte benutzt? Ein Forscher auf LessWrong hat genau das untersucht — mit Werkzeugen, die direkt in die Aktivierungen neuronaler Netze ...
Wie denkt ein Sprachmodell, wenn es keine Worte benutzt? Ein Forscher auf LessWrong hat genau das untersucht — mit Werkzeugen, die direkt in die Aktivierungen neuronaler Netze schauen.
Worum es geht
Große Sprachmodelle können „latent reasoning" — sie denken intern weiter, ohne sichtbaren Scratchpad. Die Frage: Kann man dieses unsichtbare Denken steuern und lesen? Der Forscher hat zwei Methoden getestet: Activation Difference Steering und die Tuned Logit Lens.
Wie funktioniert das
- Activation Steering:** Man nimmt die Differenz zwischen Aktivierungen bei richtigem und falschem Denken. Dann drückt man das Modell in eine Richtung — wie ein Lenkrad fürs neuronale Netz.
- Logit Lens:** Ein Werkzeug, das in Zwischenschichten des Modells schaut und versucht, die nächsten Tokens vorherzusagen. So will man dem Modell beim Denken zusehen.
- Compute/Store-Hypothese:** Gerade Schritte speichern Zwischenergebnisse, ungerade Schritte rechnen. Das Modell wechselt zwischen Denken und Merken.
✅ Pro
- Bestätigt die Compute/Store-Hypothese aus früherer Forschung
- Activation Steering verändert tatsächlich die Reasoning-Performance
- Öffnet die Tür für bessere Interpretierbarkeit
❌ Con
- Tuned Logit Lens findet die Zwischenantworten oft NICHT
- Ergebnisse sind vorläufig, kleine Stichproben
- Nur auf einem Modell getestet — Übertragbarkeit unklar
💡 Was das bedeutet
Mechanistic Interpretability ist der Versuch, KI-Modelle nicht als Black Box zu behandeln, sondern reinzuschauen. Wenn Modelle heimlich denken, ohne dass wir es sehen, wird das zum Sicherheitsproblem. Diese Forschung zeigt: Wir können ein bisschen reinschauen — aber noch lange nicht genug.
🤖 NERDMAN-URTEIL
Nischig, nerdig, aber genau die Art Forschung, die wir brauchen, bevor jemand einem unsichtbar denkenden Modell die Atomcodes gibt.
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.