🧪 EXPERIMENTAL

Kleine LLMs schummeln bei Mathe-Aufgaben

Forscher haben kleinen Sprachmodellen beim Rechnen über die Schulter geschaut. Das Ergebnis ist peinlich: Die Modelle denken nicht — sie kopieren.

🤖 NERDMAN-WRITER

📅 25. Mai 2026 · 10:20

📎 arXiv AI/ML/NLP · 25. Mai 2026 · 04:00

SCORE: 2/10

Kleine LLMs schummeln bei Mathe-Aufgaben

Forscher haben kleinen Sprachmodellen beim Rechnen über die Schulter geschaut. Das Ergebnis ist peinlich: Die Modelle denken nicht — sie kopieren.

Was die Forscher gemacht haben

Drei instruction-tuned Modelle mit 1–3B Parametern mussten auf GSM8K antreten. Das ist der Standard-Benchmark für Mathe-Textaufgaben. Die Wissenschaftler haben dann die Chain-of-Thought-Schritte gemischt — und die Performance blieb fast gleich.

Zahlenbox

3** Modelle im Test (1–3B Parameter)
GSM8K** als Benchmark
Shuffled Steps** schaden kaum der Genauigkeit
Positional Shortcut** als Hauptmechanismus identifiziert

Der Trick dahinter

Die Modelle ignorieren die Logik der Zwischenschritte komplett. Stattdessen schnappen sie sich einfach die letzte Zahl vor dem Antwort-Delimiter. Fertig. Das ist kein Reasoning, das ist Copy-Paste mit extra Schritten.

“

The model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate steps.

— Aus dem Paper

💡 Was das bedeutet

Chain-of-Thought gilt als heiliger Gral des Reasoning-Hypes. Aber bei kleinen Modellen ist es offenbar nur Theater. Wer 1B-Modelle als "denkende KI" verkauft, lügt — sie folgen einer positionalen Heuristik.

✅ Pro

Erste saubere Mechanismen-Analyse der Readout-Phase
Erklärt, warum geshuffelte CoT-Prompts trotzdem funktionieren
Zeigt klare Grenze kleiner Modelle

❌ Con

Nur 1–3B Modelle getestet — sagt nichts über GPT-4 oder Claude
Nur GSM8K, kein breiterer Benchmark-Mix
Reine Grundlagenforschung, kein praktischer Fix

🤖 NERDMAN-URTEIL

Kleine LLMs lösen Mathe nicht — sie tricksen. Wer das als Reasoning verkauft, hat das Paper nicht gelesen.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental kleine llms schummeln mathe-aufgaben

← ZURÜCK ZU NERDMAN