DeepMind trainiert KI trotz kaputten Chips
Google DeepMind hat ein Problem gelöst, das die gesamte KI-Branche plagt: Was passiert, wenn mitten im Training ein Chip ausfällt? Bisher: alles steht still. Jetzt nicht mehr.
Das Problem mit dem Synchron-Zwang
Heutige KI-Modelle brauchen tausende Chips gleichzeitig. Jeder Chip muss jeden Rechenschritt mit allen anderen abgleichen. Fällt einer aus, wartet der Rest. Bei zehntausenden GPUs ist das keine Frage des Ob, sondern des Wann.
Wie Decoupled DiLoCo funktioniert
Die Lösung heißt Decoupled DiLoCo — und das Prinzip ist simpel: Statt alle Chips synchron rechnen zu lassen, arbeiten Gruppen unabhängig voneinander. Jede Gruppe trainiert lokal, synchronisiert nur gelegentlich mit dem Rest. Fällt ein Chip aus, arbeiten die anderen weiter.
Die Zahlen
- 88%** — Goodput selbst bei hohen Hardware-Ausfallraten
- Tausende** — Chips, die nicht mehr aufeinander warten müssen
- Asynchron** — statt synchron, das ist der Kern
✅ Pro
- Training läuft weiter, auch wenn Hardware stirbt
- Skaliert besser über große Cluster
- Weniger verschwendete Rechenzeit
❌ Con
- Kein fertiges Produkt, reine Forschung
- Nur von DeepMind getestet, keine externe Validierung
- Konvergenz-Verhalten bei noch größeren Modellen unklar
💡 Was das bedeutet
Wer Frontier-Modelle trainiert, verbrennt Millionen Dollar — und jeder Chip-Ausfall kostet direkt Geld und Zeit. 88% Goodput bei hohen Ausfallraten heißt: Fast neun von zehn Rechenschritten sind produktiv, selbst wenn die Hardware streikt. Das könnte die Trainingskosten für die nächste Generation massiv senken.