KI ohne Bullshit
Täglich aktualisiert von Bots
DI 26. MAI 2026 · Bot aktiv

SUCHE

35 Ergebnisse fuer «mixture»
HOT

Meta droppt Llama 4 — Together AI liefert sofort

Meta hat Llama 4 veröffentlicht. Die neue Modellgeneration setzt auf Mixture-of-Experts (MoE) und ist multimodal. Together AI bietet die Modelle ab sofort zum Einsatz an.

Together AI Blog · 2026-03-23 15:21:16.129699+00:00 · Score 7/10
EXPERIMENTAL

KI-Modell läuft mit 87,5 Prozent weniger Experten

Forscher haben ein Mixture-of-Experts-Modell so trainiert, dass es drei Viertel seiner Experten verliert — und trotzdem fast volle Leistung bringt. Das Ding heißt EMO. Und es ...

The Decoder · 2026-05-16 10:19:19.723306+00:00 · Score 5/10
EXPERIMENTAL

Apple zerlegt MoE-Caching mit SpecMD

Apple ML Research hat ein neues Framework veröffentlicht, das speculative expert prefetching für Mixture-of-Experts-Modelle systematisch vermisst. Kein Modell-Release, sondern ...

Apple ML Research · 2026-05-07 01:20:06.527449+00:00 · Score 3/10
EXPERIMENTAL

KI lernt EU-Batteriepass — 12.000 Datensätze

Forscher haben den ersten öffentlichen Benchmark für digitale Batteriepässe gebaut. 22 Sprachmodelle mussten ran — von Mini-LM bis Mixture-of-Experts.

arXiv AI/ML/NLP · 2026-05-01 07:17:23.776638+00:00 · Score 2/10
TOOLS

Alibabas neues Mini-Modell schlägt die Großen

Nur 3 Milliarden aktive Parameter — und trotzdem auf Augenhöhe mit Modellen, die zehnmal so groß sind. Das Qwen-Team hat Qwen3.6-35B-A3B veröffentlicht, ein Open-Weight ...

MarkTechPost · 2026-04-17 10:22:03.889357+00:00 · Score 6/10
AGENTS

MiniMax macht sein bestes KI-Modell Open Source

Ein chinesisches KI-Startup veröffentlicht ein Modell, das sich selbst weiterentwickelt hat — und liefert dabei Benchmark-Werte, die aufhorchen lassen.

MarkTechPost · 2026-04-12 10:17:15.102472+00:00 · Score 7/10
EXPERIMENTAL

LiME macht Experten-Modelle 90% schlanker

Forscher haben ein Problem mit Mixture-of-Experts-Modellen: Jeder Experte braucht seinen eigenen Adapter. Mehr Experten, mehr Parameter, mehr Kosten. LiME soll das ändern.

arXiv AI/ML/NLP · 2026-04-06 04:16:24.022443+00:00 · Score 3/10
AGENTS

DeepSeek gibt LLMs ein neues Gedächtnis

DeepSeek hat ein neues Open-Source-Repo veröffentlicht: Engram. Die Idee dahinter: Large Language Models brauchen neben Mixture-of-Experts eine zweite Spar-Achse — und die heißt ...

GitHub Trending Python · 2026-03-30 01:35:57.809628+00:00 · Score 7/10
EXPERIMENTAL

1 Billion Parameter auf 96 GB RAM

Ein Modell mit einer Billion Parametern auf einem Rechner mit 96 GB RAM. Kein Rechenzentrum, kein Cloud-Abo. Einfach SSD und Geduld.

Simon Willison · 2026-03-24 06:18:20.039149+00:00 · Score 5/10
EXPERIMENTAL

Zyphra macht aus LLM ein Diffusion-Modell

Das KI-Lab Zyphra hat ZAYA1-8B-Diffusion-Preview veröffentlicht. Sie haben ein normales autoregressives Sprachmodell in ein Diffusion-Modell umgewandelt — und es wird dabei bis zu ...

MarkTechPost · 2026-05-15 22:22:43.801900+00:00 · Score 6/10
TOOLS

Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs

NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs

MarkTechPost · 2026-05-11 10:26:02.209858+00:00 · Score 7/10
EXPERIMENTAL

EMO: Pretraining mixture of experts for emergent modularity

Hugging Face Blog · 2026-05-08 19:23:54.478680+00:00 · Score 5/10
TOOLS

Kleines Modell schlägt große Riesen

Ein winziger KI-David fordert die milliardenschweren Goliaths heraus. Zyphra AI hat ZAYA1-8B veröffentlicht – ein Mini-Modell, das auf AMD-Hardware trainiert wurde und auf ...

MarkTechPost · 2026-05-08 04:20:05.984051+00:00 · Score 7/10
EXPERIMENTAL

Forscher sparen Speicher mit neuem Trick

Ein neues Paper auf arXiv stellt MP-ISMoE vor — ein System, das Transfer Learning effizienter machen soll. Klingt trocken? Ist es auch. Aber die Idee dahinter ist clever.

arXiv AI/ML/NLP · 2026-05-07 04:21:54.799236+00:00 · Score 2/10
AGENTS

Mistral schlägt GPT-4 mit neuem Coding-Agenten

Die Franzosen von Mistral AI legen nach. Ihr neues Coding-Framework Vibe bekommt Remote-Agenten und ein frisches Top-Modell, das bei Entwickler-Aufgaben glänzt.

MarkTechPost · 2026-05-03 01:16:13.513369+00:00 · Score 7/10
AGENTS

Poolside knackt 72,5% auf SWE-Bench

Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.

MarkTechPost · 2026-04-30 07:19:55.326603+00:00 · Score 8/10
HOT

DeepSeek-V3 bringt 671 Milliarden Parameter

China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.

GitHub Trending Python · 2026-04-26 04:15:28.885943+00:00 · Score 8/10
HOT

DeepSeek V4 bringt 1,6 Billionen Parameter

DeepSeek liefert endlich ab. Nach Monaten der Spekulation steht DSV4 — das erste große Modell-Update seit DeepSeek-R1 im Januar.

Latent Space · 2026-04-25 07:15:41.472969+00:00 · Score 8/10
HOT

DeepSeek V4 knackt die Million-Token-Grenze

DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...

MarkTechPost · 2026-04-25 01:19:02.976371+00:00 · Score 8/10
HOT

DeepSeek V4 schlägt zurück – und ist gigantisch

Chinas KI-Labor DeepSeek legt nach. Statt auf große Ankündigungen setzen sie auf massive Modelle. Die V4-Serie ist da.

Simon Willison · 2026-04-24 07:17:35.835910+00:00 · Score 8/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.