🧪 EXPERIMENTAL
LLMs trainieren sich jetzt selbst
Forscher zeigen: Sprachmodelle können sich ohne Lehrer verbessern. Nur mit Fragen ohne Lösungen.
Forscher zeigen: Sprachmodelle können sich ohne Lehrer verbessern. Nur mit Fragen ohne Lösungen.
Was die Forscher gebaut haben
Das Verfahren heißt Self-Verified Distillation. Das Modell bekommt nur ungelöste Aufgaben. Dann generiert es Antworten, prüft sie selbst und lernt aus den eigenen besten Versuchen.
Getestet in drei Disziplinen: Mathe, Science, Coding.
So läuft die Schleife
- Schritt 1:** Modell bekommt unbeschriftete Prompts
- Schritt 2:** Es würfelt mehrere Lösungen pro Frage
- Schritt 3:** Eigene Selbstprüfung filtert die besten raus
- Schritt 4:** Modell distilliert sich auf seine eigenen Top-Antworten
✅ Pro
- Kein Mensch, kein teurer Teacher-Modell, keine Tools nötig
- Funktioniert in drei verschiedenen Domains
- Skaliert mit jedem ungelabelten Prompt-Berg
❌ Con
- Nur Paper, kein Code-Release sichtbar
- Selbstverifikation ist anfällig für eigene blinde Flecken
- Reasoning-Domains sind dankbar — bei Kreativ-Aufgaben kein Beleg
💡 Was das bedeutet
Wenn ein Modell sich aus eigener Kraft schärft, fällt eine der teuersten Säulen im LLM-Training: Datenlabeling. Das ist der Traum jeder Trainings-Pipeline — und der Albtraum für Anbieter, die ihr Geld mit Annotation verdienen.
🤖 NERDMAN-URTEIL
Klingt nach Perpetuum Mobile fürs Reasoning — wenn der Trick im Großmaßstab hält, ändert sich, wer Modelle bauen darf und wer nicht.
Quelle: arXiv AI/ML/NLP
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.