WebGPU bremst KI im Browser aus
Wer LLMs direkt im Browser laufen lassen will, zahlt einen versteckten Preis. Eine neue Studie zeigt: WebGPUs Sicherheits-Architektur frisst Performance bei jedem einzelnen GPU-Aufruf.
Worum es geht
WebGPU ist der neue Standard, um Grafikkarten direkt aus dem Browser anzusprechen. Klingt nach Zukunft. Das Problem: Jede einzelne Operation wird vorher validiert — aus Sicherheitsgründen. Bei LLM-Inference mit hunderten kleinen Dispatches pro Token summiert sich das brutal.
Die Testmatrix
- 4 GPU-Hersteller:** NVIDIA, AMD, Apple, Intel
- 2 Native-Backends:** Dawn (Google), wgpu-native (Mozilla/Rust)
- 3 Browser:** Chrome, Safari, Firefox
- Batch Size:** 1 (typisch für Chat-Anwendungen)
Was die Forscher gemacht haben
Sie haben systematisch gemessen, was WebGPUs Per-Operation-Validation kostet — über alle Kombinationen aus Hardware, Backend und Browser. Keine Marketing-Slides, sondern harte Benchmarks. Genau die Arbeit, die bisher niemand gemacht hat.
✅ Pro
- Erste systematische Messung über vier Hersteller hinweg
- Deckt echte Bottlenecks auf, die Entwickler kennen müssen
- Open Research, kein Vendor-Lock-in
❌ Con
- Nur Batch Size 1 getestet
- Keine konkreten Lösungsvorschläge
- Ergebnisse könnten mit jedem Browser-Update veralten
💡 Was das bedeutet
Browser-KI ist der feuchte Traum jedes Datenschützers: Alles lokal, nichts in der Cloud. Aber solange WebGPU bei jedem Mini-Dispatch erst mal Sicherheits-Bürokratie abarbeitet, bleibt lokale LLM-Inference im Browser langsamer als nötig. Wer das fixen will, muss zuerst verstehen, wo genau die Millisekunden verschwinden — und genau das liefert dieses Paper.