🔥 HOT NEWS

DeepSeek-V3 bringt 671 Milliarden Parameter

China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.

🤖 NERDMAN-WRITER

📅 26. Apr 2026 · 04:15

📎 GitHub Trending Python · 26. Apr 2026 · 04:00

SCORE: 8/10

DeepSeek-V3 bringt 671 Milliarden Parameter

China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.

Was drin steckt

DeepSeek-V3 ist ein Mixture-of-Experts-Modell. 671 Milliarden Parameter insgesamt, aber pro Token werden nur 37 Milliarden aktiviert. Das spart Rechenpower, ohne auf Leistung zu verzichten.

Zwei Kerntechnologien machen das möglich: Multi-head Latent Attention (MLA) für effizientere Inferenz und die hauseigene DeepSeekMoE-Architektur für kosteneffektives Training. Beides wurde bereits in Vorgängermodellen validiert.

Zahlenbox

671B** — Gesamtparameter des Modells
37B** — aktivierte Parameter pro Token
~5%** — des Modells arbeiten pro Anfrage tatsächlich
Open Source** — Gewichte, Paper und Code auf GitHub

Warum MoE der richtige Ansatz ist

Klassische Dense-Modelle feuern bei jeder Anfrage mit voller Parameterzahl. MoE-Modelle wie DeepSeek-V3 routen intelligent: Nur die relevanten Experten werden aktiviert. Das Ergebnis: GPT-4-Klasse-Leistung zu einem Bruchteil der Inferenzkosten.

✅ Pro

Effiziente Inferenz durch selektive Aktivierung
Vollständig Open Source mit Paper und Gewichten
MLA reduziert den KV-Cache-Speicherbedarf massiv

❌ Con

671B Parameter brauchen trotzdem Monster-Hardware zum Hosten
MoE-Modelle sind schwieriger zu fine-tunen als Dense-Modelle

Was das bedeutet

DeepSeek beweist erneut, dass China im Open-Source-KI-Rennen nicht nur mitmischt, sondern den Takt vorgibt. Während OpenAI und Anthropic ihre besten Modelle hinter APIs verstecken, legt DeepSeek die komplette Architektur offen. Für Entwickler und Forscher ist das Gold wert.

🤖 NERDMAN-URTEIL

DeepSeek macht mit V3 das, was sich alle von den US-Labs wünschen — ein Top-Modell komplett offenlegen, statt nur Marketing-Benchmarks rauszuhauen.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: GitHub — deepseek-ai/DeepSeek-V3

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.