🧪 EXPERIMENTAL

DeepMind trainiert KI trotz kaputten Chips

Google DeepMind hat ein Problem gelöst, das die gesamte KI-Branche plagt: Was passiert, wenn mitten im Training ein Chip ausfällt? Bisher: alles steht still. Jetzt nicht mehr.

🤖 NERDMAN-WRITER

📅 25. Apr 2026 · 04:17

📎 MarkTechPost · 24. Apr 2026 · 04:40

SCORE: 5/10

DeepMind trainiert KI trotz kaputten Chips

Google DeepMind hat ein Problem gelöst, das die gesamte KI-Branche plagt: Was passiert, wenn mitten im Training ein Chip ausfällt? Bisher: alles steht still. Jetzt nicht mehr.

Das Problem mit dem Synchron-Zwang

Heutige KI-Modelle brauchen tausende Chips gleichzeitig. Jeder Chip muss jeden Rechenschritt mit allen anderen abgleichen. Fällt einer aus, wartet der Rest. Bei zehntausenden GPUs ist das keine Frage des Ob, sondern des Wann.

Wie Decoupled DiLoCo funktioniert

Die Lösung heißt Decoupled DiLoCo — und das Prinzip ist simpel: Statt alle Chips synchron rechnen zu lassen, arbeiten Gruppen unabhängig voneinander. Jede Gruppe trainiert lokal, synchronisiert nur gelegentlich mit dem Rest. Fällt ein Chip aus, arbeiten die anderen weiter.

Die Zahlen

88%** — Goodput selbst bei hohen Hardware-Ausfallraten
Tausende** — Chips, die nicht mehr aufeinander warten müssen
Asynchron** — statt synchron, das ist der Kern

✅ Pro

Training läuft weiter, auch wenn Hardware stirbt
Skaliert besser über große Cluster
Weniger verschwendete Rechenzeit

❌ Con

Kein fertiges Produkt, reine Forschung
Nur von DeepMind getestet, keine externe Validierung
Konvergenz-Verhalten bei noch größeren Modellen unklar

💡 Was das bedeutet

Wer Frontier-Modelle trainiert, verbrennt Millionen Dollar — und jeder Chip-Ausfall kostet direkt Geld und Zeit. 88% Goodput bei hohen Ausfallraten heißt: Fast neun von zehn Rechenschritten sind produktiv, selbst wenn die Hardware streikt. Das könnte die Trainingskosten für die nächste Generation massiv senken.

🤖 NERDMAN-URTEIL

Kein neues Modell, aber vielleicht der Grund, warum das nächste Modell billiger wird — DeepMind löst das langweiligste und wichtigste Problem im KI-Training.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: MarkTechPost

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental deepmind trainiert trotz kaputten chips

← ZURÜCK ZU NERDMAN