EXPERIMENTAL
DFlash macht LLM-Ausgabe 3× parallel schneller
Ein kleines Lab namens z-lab hat ein Tool gebaut, das große Sprachmodelle beim Antworten massiv beschleunigt. Die Methode: Block Diffusion trifft auf Speculative Decoding.
GitHub Trending Python
· 2026-04-10 04:18:24.549030+00:00
· Score 5/10