Neues Training macht LLMs Schritt für Schritt schlauer
Forscher wollen Mathe-Reasoning in LLMs reparieren — nicht am Ende, sondern mittendrin. Ein neues Paper zeigt, wie man Zwischenschritte beim Denken belohnen kann, statt nur die finale Antwort zu checken.
Das Problem mit dem Status Quo
Reinforcement Learning für LLMs funktioniert bisher so: Das Modell rechnet, spuckt ein Ergebnis aus, und wenn die Antwort stimmt, gibt's eine Belohnung. Klingt logisch. Ist es aber nicht. Denn bei langen, mehrstufigen Mathe-Aufgaben kann ein Modell fünf Schritte lang Unsinn rechnen und trotzdem zufällig richtig landen. Das Feedback ist dünn wie Reispapier.
Wie die neue Methode funktioniert
Process Reward Models (PRMs) bewerten nicht nur das Endergebnis, sondern jeden einzelnen Denkschritt. Der Clou: Die Forscher kombinieren Outcome-basierte Belohnungen mit prozessbasiertem Feedback.
- Outcome Reward:** Stimmt die finale Antwort? Ja/Nein.
- Process Reward:** Ist Schritt 3 von 7 mathematisch korrekt?
- Kombination:** Beide Signale zusammen ergeben dichteres, nützlicheres Feedback.
✅ Pro
- Findet Fehler in Zwischenschritten, nicht erst am Ende
- Dichteres Trainingssignal für lange Reasoning-Ketten
- Könnte Halluzinationen in Mathe-Aufgaben reduzieren
❌ Con
- Reines Paper — kein Code, kein Modell, kein Demo
- Process Rewards sind aufwendig zu generieren
- Skalierung auf nicht-mathematische Domains unklar
💡 Was das bedeutet
Für die Praxis erstmal: nichts. Das ist Grundlagenforschung, kein Produkt. Aber die Richtung stimmt. Wer LLMs wirklich zuverlässig rechnen lassen will, muss ihnen beibringen, warum ein Schritt falsch ist — nicht nur dass das Ergebnis nicht stimmt. Genau da setzen PRMs an.