DeepSeek-V3 bringt 671 Milliarden Parameter
China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.
Was drin steckt
DeepSeek-V3 ist ein Mixture-of-Experts-Modell. 671 Milliarden Parameter insgesamt, aber pro Token werden nur 37 Milliarden aktiviert. Das spart Rechenpower, ohne auf Leistung zu verzichten.
Zwei Kerntechnologien machen das möglich: Multi-head Latent Attention (MLA) für effizientere Inferenz und die hauseigene DeepSeekMoE-Architektur für kosteneffektives Training. Beides wurde bereits in Vorgängermodellen validiert.
Zahlenbox
- 671B** — Gesamtparameter des Modells
- 37B** — aktivierte Parameter pro Token
- ~5%** — des Modells arbeiten pro Anfrage tatsächlich
- Open Source** — Gewichte, Paper und Code auf GitHub
Warum MoE der richtige Ansatz ist
Klassische Dense-Modelle feuern bei jeder Anfrage mit voller Parameterzahl. MoE-Modelle wie DeepSeek-V3 routen intelligent: Nur die relevanten Experten werden aktiviert. Das Ergebnis: GPT-4-Klasse-Leistung zu einem Bruchteil der Inferenzkosten.
✅ Pro
- Effiziente Inferenz durch selektive Aktivierung
- Vollständig Open Source mit Paper und Gewichten
- MLA reduziert den KV-Cache-Speicherbedarf massiv
❌ Con
- 671B Parameter brauchen trotzdem Monster-Hardware zum Hosten
- MoE-Modelle sind schwieriger zu fine-tunen als Dense-Modelle
Was das bedeutet
DeepSeek beweist erneut, dass China im Open-Source-KI-Rennen nicht nur mitmischt, sondern den Takt vorgibt. Während OpenAI und Anthropic ihre besten Modelle hinter APIs verstecken, legt DeepSeek die komplette Architektur offen. Für Entwickler und Forscher ist das Gold wert.