NVIDIA wirft 550B-Monster auf Agents
NVIDIA hat Nemotron 3 Ultra veröffentlicht — ein Open-Weight-Modell, das speziell für Agents gebaut ist, die stundenlang durchlaufen. Der Trick: Mixture-of-Experts plus Mamba-Transformer-Hybrid.
Was konkret drinsteckt
Das Modell ist riesig auf dem Papier, aber schlau in der Praxis. Statt alle Parameter gleichzeitig zu feuern, aktiviert es nur einen Bruchteil pro Token.
- 550 Mrd.** — Parameter insgesamt
- 55 Mrd.** — aktive Parameter pro Token
- MoE** — Mixture-of-Experts Architektur
- Hybrid** — Mamba kombiniert mit klassischem Transformer
- Open Weights** — NVIDIA gibt die Gewichte raus
Warum Mamba statt nur Transformer
Klassische Transformer werden bei langen Kontexten teuer. Jeder neue Token muss gegen alle vorherigen rechnen. Mamba skaliert linear — perfekt für Agents, die 50 Tool-Calls hintereinander machen.
💡 Was das bedeutet
Long-Running-Agents sind das aktuelle Bottleneck. Wer einen Coding-Agent zwölf Stunden laufen lässt, zahlt sich dumm und dämlich an Inference-Kosten. NVIDIA liefert hier nicht das nächste Chatbot-Modell, sondern infrastructure für Agent-Frameworks.
✅ Pro
- Open Weights — selbst hosten möglich
- Mamba-Hybrid spart Compute bei langem Kontext
- Nur 55B aktive Parameter — günstiger als dichte 550B-Modelle
❌ Con
- 550B Gesamtgewicht braucht massiv VRAM zum Laden
- Mamba-Hybride sind in der Tool-Landschaft noch Exoten
- Benchmarks gegen Claude und GPT fehlen noch im Vergleich