Forscher zerlegen GPT-2 in 32.000 Hirn-Features
Neue Studie auf arXiv knackt das Rätsel, warum LLM-Mittelschichten so verdammt gut Gehirnaktivität vorhersagen. Antwort: Sparse Autoencoders.
Was die Forscher gemacht haben
Das Team hat GPT-2 XL und Llama-3.1-8B mit Sparse Autoencoders (SAEs) zerlegt. Pro Layer extrahieren sie 16.000 bis 32.000 interpretierbare Features. Dann mappen sie das Ganze auf echte Hirnscans von Menschen, die Sprache verarbeiten.
- Modelle:** GPT-2 XL, Llama-3.1-8B
- Methode:** Sparse Autoencoders + Neural Encoding Models
- Features:** 16K–32K pro Layer
- Validierung:** Mensch-geprüfte Taxonomie
Wie das funktioniert
SAEs zwingen das Modell, seine Aktivierungen in dünn besetzte, lesbare Bausteine zu zerlegen. Statt eines undurchsichtigen Vektor-Salats bekommst du tausende einzelne Konzept-Neuronen. Diese vergleichen die Forscher direkt mit der semantischen Karte des Cortex.
✅ Pro
- Erklärt erstmals MECHANISTISCH, warum LLMs Hirn-Aktivität vorhersagen
- Liefert konkrete, benannte Features statt Black Box
- Verbindet zwei harte Forschungsfelder sauber
❌ Con
- Keine Anwendung, kein Produkt, kein Demo
- Nur GPT-2 XL und Llama-3.1-8B — kein Frontier-Modell
- Grundlagenforschung, Praxis-Impact dauert Jahre
💡 Was das bedeutet
Wer Interpretierbarkeit ernst nimmt, bekommt hier einen Werkzeugkasten. Die Brücke zwischen Neurowissenschaft und Mechanistic Interpretability wird konkreter — und das ist langfristig der Weg, KI wirklich zu verstehen, statt nur zu benchmarken.