Together AI hat ein Problem gelöst, das die meisten ignorieren: Speculative Decoding wird einmal eingestellt und dann nie wieder angefasst. Aurora ändert das. Das ...
NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.
Ein kleines Lab namens z-lab hat ein Tool gebaut, das große Sprachmodelle beim Antworten massiv beschleunigt. Die Methode: Block Diffusion trifft auf Speculative Decoding.
Apple ML Research hat ein neues Framework veröffentlicht, das speculative expert prefetching für Mixture-of-Experts-Modelle systematisch vermisst. Kein Modell-Release, sondern ...
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...
Meta und Stanford haben drei neue Tricks gefunden, um Byte-Level-Modelle zu beschleunigen. Diese Modelle arbeiten direkt mit Rohbytes — nicht mit Tokens.
Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.
Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.