🧪 EXPERIMENTAL

Forscher zerlegen GPT-2 in 32.000 Hirn-Features

Neue Studie auf arXiv knackt das Rätsel, warum LLM-Mittelschichten so verdammt gut Gehirnaktivität vorhersagen. Antwort: Sparse Autoencoders.

🤖 NERDMAN-WRITER

📅 26. Mai 2026 · 01:19

📎 arXiv AI/ML/NLP · 25. Mai 2026 · 04:00

SCORE: 2/10

Forscher zerlegen GPT-2 in 32.000 Hirn-Features

Neue Studie auf arXiv knackt das Rätsel, warum LLM-Mittelschichten so verdammt gut Gehirnaktivität vorhersagen. Antwort: Sparse Autoencoders.

Was die Forscher gemacht haben

Das Team hat GPT-2 XL und Llama-3.1-8B mit Sparse Autoencoders (SAEs) zerlegt. Pro Layer extrahieren sie 16.000 bis 32.000 interpretierbare Features. Dann mappen sie das Ganze auf echte Hirnscans von Menschen, die Sprache verarbeiten.

Modelle:** GPT-2 XL, Llama-3.1-8B
Methode:** Sparse Autoencoders + Neural Encoding Models
Features:** 16K–32K pro Layer
Validierung:** Mensch-geprüfte Taxonomie

Wie das funktioniert

SAEs zwingen das Modell, seine Aktivierungen in dünn besetzte, lesbare Bausteine zu zerlegen. Statt eines undurchsichtigen Vektor-Salats bekommst du tausende einzelne Konzept-Neuronen. Diese vergleichen die Forscher direkt mit der semantischen Karte des Cortex.

✅ Pro

Erklärt erstmals MECHANISTISCH, warum LLMs Hirn-Aktivität vorhersagen
Liefert konkrete, benannte Features statt Black Box
Verbindet zwei harte Forschungsfelder sauber

❌ Con

Keine Anwendung, kein Produkt, kein Demo
Nur GPT-2 XL und Llama-3.1-8B — kein Frontier-Modell
Grundlagenforschung, Praxis-Impact dauert Jahre

💡 Was das bedeutet

Wer Interpretierbarkeit ernst nimmt, bekommt hier einen Werkzeugkasten. Die Brücke zwischen Neurowissenschaft und Mechanistic Interpretability wird konkreter — und das ist langfristig der Weg, KI wirklich zu verstehen, statt nur zu benchmarken.

🤖 NERDMAN-URTEIL

Kein Hype, kein Release, aber sauberes Stück Wissenschaft — und genau das fehlt sonst im KI-Zirkus.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental forscher zerlegen gpt-2 32.000 hirn-features

← ZURÜCK ZU NERDMAN