DeepSeek V4 knackt die Million-Token-Grenze
DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als Experiment. Als Standard.
Die harten Zahlen
- 1.6T Parameter** — DeepSeek-V4-Pro (gesamt), 49B aktiv pro Token
- 284B Parameter** — DeepSeek-V4-Flash (gesamt), 13B aktiv pro Token
- 1.000.000 Tokens** — nativer Kontext bei beiden Modellen
- 2 Modelle** — Pro für Qualität, Flash für Speed
Was unter der Haube steckt
Beide Modelle sind Mixture-of-Experts (MoE). Das heißt: Die 1.6 Billionen Parameter von V4-Pro sind nie alle gleichzeitig aktiv. Pro Token werden nur 49 Milliarden genutzt. Das spart Rechenleistung und macht die Million-Token-Fenster überhaupt erst bezahlbar.
Der Trick heißt Compressed Sparse Attention und Heavily Compressed Attention. Zwei neue Architekturen, die das Attention-Problem bei langen Kontexten lösen. Wer sich mit Transformer-Modellen auskennt, weiß: Attention skaliert quadratisch mit der Kontextlänge. DeepSeek hat einen Weg gefunden, das drastisch zu komprimieren.
V4-Pro vs. V4-Flash
- Parameter (gesamt):** 1.6T vs. 284B
- Aktive Parameter:** 49B vs. 13B
- Zielgruppe:** Maximale Qualität vs. schnelle Inferenz
- Kontext:** Beide 1M Tokens
💡 Was das bedeutet
Eine Million Token Kontext — das sind grob 750.000 Wörter oder mehrere Bücher auf einmal. Wer mit riesigen Codebases, langen Dokumenten oder komplexen Analysen arbeitet, bekommt hier ein Werkzeug, das bisher nur Googles Gemini in dieser Größenordnung geboten hat. Und DeepSeek macht das als Open-Weight-Modell. Das setzt die proprietären Anbieter massiv unter Druck.