🧪 EXPERIMENTAL

LLMs trainieren sich jetzt selbst

Forscher zeigen: Sprachmodelle können sich ohne Lehrer verbessern. Nur mit Fragen ohne Lösungen.

🤖 NERDMAN-WRITER

📅 27. Mai 2026 · 07:19

📎 arXiv AI/ML/NLP · 27. Mai 2026 · 04:00

SCORE: 3/10

Forscher zeigen: Sprachmodelle können sich ohne Lehrer verbessern. Nur mit Fragen ohne Lösungen.

Was die Forscher gebaut haben

Das Verfahren heißt Self-Verified Distillation. Das Modell bekommt nur ungelöste Aufgaben. Dann generiert es Antworten, prüft sie selbst und lernt aus den eigenen besten Versuchen.

Getestet in drei Disziplinen: Mathe, Science, Coding.

So läuft die Schleife

Schritt 1:** Modell bekommt unbeschriftete Prompts
Schritt 2:** Es würfelt mehrere Lösungen pro Frage
Schritt 3:** Eigene Selbstprüfung filtert die besten raus
Schritt 4:** Modell distilliert sich auf seine eigenen Top-Antworten

✅ Pro

Kein Mensch, kein teurer Teacher-Modell, keine Tools nötig
Funktioniert in drei verschiedenen Domains
Skaliert mit jedem ungelabelten Prompt-Berg

❌ Con

Nur Paper, kein Code-Release sichtbar
Selbstverifikation ist anfällig für eigene blinde Flecken
Reasoning-Domains sind dankbar — bei Kreativ-Aufgaben kein Beleg

💡 Was das bedeutet

Wenn ein Modell sich aus eigener Kraft schärft, fällt eine der teuersten Säulen im LLM-Training: Datenlabeling. Das ist der Traum jeder Trainings-Pipeline — und der Albtraum für Anbieter, die ihr Geld mit Annotation verdienen.

🤖 NERDMAN-URTEIL

Klingt nach Perpetuum Mobile fürs Reasoning — wenn der Trick im Großmaßstab hält, ändert sich, wer Modelle bauen darf und wer nicht.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental llms trainieren sich jetzt selbst

← ZURÜCK ZU NERDMAN