OpenAI veröffentlicht GPU-Kernel, die eine fast vergessene Netzwerk-Architektur wiederbeleben: Block-Sparse Networks. Die Rechenzeit? Teilweise um Größenordnungen schneller als ...
Hugging Face zeigt, wie man mit simplen Matrizen-Tricks LLMs radikal abspeckt. Keine neue Architektur, kein neues Modell — nur clevere Mathematik.