Kleine LLMs schummeln bei Mathe-Aufgaben
Forscher haben kleinen Sprachmodellen beim Rechnen über die Schulter geschaut. Das Ergebnis ist peinlich: Die Modelle denken nicht — sie kopieren.
Was die Forscher gemacht haben
Drei instruction-tuned Modelle mit 1–3B Parametern mussten auf GSM8K antreten. Das ist der Standard-Benchmark für Mathe-Textaufgaben. Die Wissenschaftler haben dann die Chain-of-Thought-Schritte gemischt — und die Performance blieb fast gleich.
Zahlenbox
- 3** Modelle im Test (1–3B Parameter)
- GSM8K** als Benchmark
- Shuffled Steps** schaden kaum der Genauigkeit
- Positional Shortcut** als Hauptmechanismus identifiziert
Der Trick dahinter
Die Modelle ignorieren die Logik der Zwischenschritte komplett. Stattdessen schnappen sie sich einfach die letzte Zahl vor dem Antwort-Delimiter. Fertig. Das ist kein Reasoning, das ist Copy-Paste mit extra Schritten.
The model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate steps.— Aus dem Paper
💡 Was das bedeutet
Chain-of-Thought gilt als heiliger Gral des Reasoning-Hypes. Aber bei kleinen Modellen ist es offenbar nur Theater. Wer 1B-Modelle als "denkende KI" verkauft, lügt — sie folgen einer positionalen Heuristik.
✅ Pro
- Erste saubere Mechanismen-Analyse der Readout-Phase
- Erklärt, warum geshuffelte CoT-Prompts trotzdem funktionieren
- Zeigt klare Grenze kleiner Modelle
❌ Con
- Nur 1–3B Modelle getestet — sagt nichts über GPT-4 oder Claude
- Nur GSM8K, kein breiterer Benchmark-Mix
- Reine Grundlagenforschung, kein praktischer Fix