Together AI hat ein Problem gelöst, das die meisten ignorieren: Speculative Decoding wird einmal eingestellt und dann nie wieder angefasst. Aurora ändert das. Das ...
Vision-Language-Modelle halluzinieren wie betrunkene Augenzeugen. Ein neues Paper will das Problem beim Decoding lösen — ohne Training, ohne Geld, ohne Hype.
NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...
NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.
Ein kleines Lab namens z-lab hat ein Tool gebaut, das große Sprachmodelle beim Antworten massiv beschleunigt. Die Methode: Block Diffusion trifft auf Speculative Decoding.
Ein neues Paper auf arXiv zeigt WeCon — einen neuronalen Löser für Optimierungsprobleme mit mehreren Zielen. Klingt trocken, ist aber technisch interessant.
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...
Meta und Stanford haben drei neue Tricks gefunden, um Byte-Level-Modelle zu beschleunigen. Diese Modelle arbeiten direkt mit Rohbytes — nicht mit Tokens.
Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.
Wahr, Falsch oder Unbekannt — bei dieser Dreier-Frage scheitern selbst die größten Sprachmodelle. Ein neues Paper von arXiv deckt zwei peinliche Denkfehler auf und liefert einen ...
Frontier-Modelle können sich heimlich Nachrichten zuschicken — und schwächere KIs merken nichts davon. Forscher haben gezeigt, wie Claude Opus und Gemini Pro sogenannte ...
Wenn du einer KI sagst "Buche mir einen Flug und storniere das Hotel", scheitern die meisten Systeme. Ein neues Forschungspaper zeigt, warum — und liefert einen Fix.
Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.