Meta hat Llama 4 veröffentlicht. Die neue Modellgeneration setzt auf Mixture-of-Experts (MoE) und ist multimodal. Together AI bietet die Modelle ab sofort zum Einsatz an.
Forscher haben ein Mixture-of-Experts-Modell so trainiert, dass es drei Viertel seiner Experten verliert — und trotzdem fast volle Leistung bringt. Das Ding heißt EMO. Und es ...
Apple ML Research hat ein neues Framework veröffentlicht, das speculative expert prefetching für Mixture-of-Experts-Modelle systematisch vermisst. Kein Modell-Release, sondern ...
Forscher haben den ersten öffentlichen Benchmark für digitale Batteriepässe gebaut. 22 Sprachmodelle mussten ran — von Mini-LM bis Mixture-of-Experts.
Nur 3 Milliarden aktive Parameter — und trotzdem auf Augenhöhe mit Modellen, die zehnmal so groß sind. Das Qwen-Team hat Qwen3.6-35B-A3B veröffentlicht, ein Open-Weight ...
Ein chinesisches KI-Startup veröffentlicht ein Modell, das sich selbst weiterentwickelt hat — und liefert dabei Benchmark-Werte, die aufhorchen lassen.
Forscher haben ein Problem mit Mixture-of-Experts-Modellen: Jeder Experte braucht seinen eigenen Adapter. Mehr Experten, mehr Parameter, mehr Kosten. LiME soll das ändern.
DeepSeek hat ein neues Open-Source-Repo veröffentlicht: Engram. Die Idee dahinter: Large Language Models brauchen neben Mixture-of-Experts eine zweite Spar-Achse — und die heißt ...
Ein Modell mit einer Billion Parametern auf einem Rechner mit 96 GB RAM. Kein Rechenzentrum, kein Cloud-Abo. Einfach SSD und Geduld.
Das KI-Lab Zyphra hat ZAYA1-8B-Diffusion-Preview veröffentlicht. Sie haben ein normales autoregressives Sprachmodell in ein Diffusion-Modell umgewandelt — und es wird dabei bis zu ...
NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs
Ein winziger KI-David fordert die milliardenschweren Goliaths heraus. Zyphra AI hat ZAYA1-8B veröffentlicht – ein Mini-Modell, das auf AMD-Hardware trainiert wurde und auf ...
Ein neues Paper auf arXiv stellt MP-ISMoE vor — ein System, das Transfer Learning effizienter machen soll. Klingt trocken? Ist es auch. Aber die Idee dahinter ist clever.
Die Franzosen von Mistral AI legen nach. Ihr neues Coding-Framework Vibe bekommt Remote-Agenten und ein frisches Top-Modell, das bei Entwickler-Aufgaben glänzt.
Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.
China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.
DeepSeek liefert endlich ab. Nach Monaten der Spekulation steht DSV4 — das erste große Modell-Update seit DeepSeek-R1 im Januar.
DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...
Chinas KI-Labor DeepSeek legt nach. Statt auf große Ankündigungen setzen sie auf massive Modelle. Die V4-Serie ist da.