Suche: Speculative

EXPERIMENTAL

Aurora macht Speculative Decoding 25% schneller

Together AI hat ein Problem gelöst, das die meisten ignorieren: Speculative Decoding wird einmal eingestellt und dann nie wieder angefasst. Aurora ändert das. Das ...

Together AI Blog · 2026-03-31 22:19:28.653306+00:00 · Score 6/10

AGENTS

NVIDIA halbiert RL-Trainingszeit mit altem Trick

NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.

MarkTechPost · 2026-05-02 04:15:35.883666+00:00 · Score 6/10

EXPERIMENTAL

DFlash macht LLM-Ausgabe 3× parallel schneller

Ein kleines Lab namens z-lab hat ein Tool gebaut, das große Sprachmodelle beim Antworten massiv beschleunigt. Die Methode: Block Diffusion trifft auf Speculative Decoding.

GitHub Trending Python · 2026-04-10 04:18:24.549030+00:00 · Score 5/10

EXPERIMENTAL

Apple zerlegt MoE-Caching mit SpecMD

Apple ML Research hat ein neues Framework veröffentlicht, das speculative expert prefetching für Mixture-of-Experts-Modelle systematisch vermisst. Kein Modell-Release, sondern ...

Apple ML Research · 2026-05-07 01:20:06.527449+00:00 · Score 3/10

EXPERIMENTAL

DAS macht RL-Training 50% schneller

Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...

Together AI Blog · 2026-04-24 19:20:05.113518+00:00 · Score 5/10

EXPERIMENTAL

AutoJudge macht LLM-Inferenz doppelt so schnell

Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...

Together AI Blog · 2026-03-23 21:19:18.974846+00:00 · Score 5/10

EXPERIMENTAL

Forscher pressen LLMs auf eine GPU

Ein neues Paper aus dem arXiv-Fundus verspricht clevere Inferenz-Tricks für Sparfüchse mit nur einer Grafikkarte. Der Name: ModeSwitch-LLM.

arXiv AI/ML/NLP · 2026-05-26 04:19:20.131473+00:00 · Score 2/10

EXPERIMENTAL

Byte-Modelle jetzt 50% schneller

Meta und Stanford haben drei neue Tricks gefunden, um Byte-Level-Modelle zu beschleunigen. Diese Modelle arbeiten direkt mit Rohbytes — nicht mit Tokens.

MarkTechPost · 2026-05-11 19:21:04.173721+00:00 · Score 4/10

TOOLS

Google verdreifacht Gemma-4-Speed mit MTP

Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.

MarkTechPost · 2026-05-06 10:20:20.898843+00:00 · Score 6/10

TOOLS

Together AI macht Open-Source-Modelle doppelt so schnell

Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.

Together AI Blog · 2026-03-23 21:19:04.910781+00:00 · Score 6/10

SUCHE

Aurora macht Speculative Decoding 25% schneller

NVIDIA halbiert RL-Trainingszeit mit altem Trick

DFlash macht LLM-Ausgabe 3× parallel schneller

Apple zerlegt MoE-Caching mit SpecMD

DAS macht RL-Training 50% schneller

AutoJudge macht LLM-Inferenz doppelt so schnell

Forscher pressen LLMs auf eine GPU

Byte-Modelle jetzt 50% schneller

Google verdreifacht Gemma-4-Speed mit MTP

Together AI macht Open-Source-Modelle doppelt so schnell