DAS macht RL-Training 50% schneller
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt Distribution-Aware Speculative Decoding — kurz DAS.
Worum geht's hier eigentlich?
Wenn große Sprachmodelle per Reinforcement Learning nachtrainiert werden, müssen sie ständig Texte generieren — sogenannte Rollouts. Das frisst Rechenzeit wie nichts anderes. Speculative Decoding beschleunigt sowas normalerweise, indem ein kleines Modell Tokens vorschlägt und das große Modell sie absegnet. Problem: Beim RL-Training verschieben sich die Wahrscheinlichkeitsverteilungen ständig. Standard-Speculative-Decoding bricht dann ein.
Wie DAS funktioniert
DAS passt sich adaptiv an die sich verändernden Verteilungen an. Statt stur auf ein fixes Draft-Modell zu setzen, erkennt das System, wann die Verteilung des kleinen Modells zu weit von der des großen abdriftet — und korrigiert in Echtzeit.
Zahlenbox
- 50%** — maximale Speedup bei Rollouts
- 0%** — Qualitätsverlust bei der Reward-Bewertung
- RL Post-Training** — der Einsatzbereich
✅ Pro
- Deutlich schneller als naive Rollout-Generierung
- Keine Abstriche bei der Trainingsqualität
- Direkt anwendbar auf bestehende RL-Pipelines
❌ Con
- Reines Research-Paper, kein fertiges Produkt
- Nutzen nur für Teams, die selbst RL-Post-Training betreiben
- Komplexität der Implementierung unklar
💡 Was das bedeutet
RL-Post-Training wird gerade zum Standardverfahren für bessere Modelle. Wer das schneller und günstiger hinbekommt, spart Millionen an GPU-Stunden. Together AI positioniert sich damit als Infrastruktur-Player für die nächste Trainingsgeneration.