Nvidia hat eine neue Pretraining-Methode vorgestellt: KI-Modelle lernen jetzt in nur 4 Bit statt der üblichen 8. Validiert wurde das Ganze an einem 12-Milliarden-Parameter-Monster ...
Sam Altman hat intern ein neues KI-Modell angekündigt. Codename: "Spud". Das Pretraining ist abgeschlossen — und Altman dreht am Hype-Regler.
Ein neues Paper auf arXiv stellt FuRA vor — eine Fine-Tuning-Methode, die LoRA alt aussehen lassen will. Der Trick: Spektrale Vorkonditionierung statt blinder Gewichts-Updates.
Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.
Tilde Research hat einen neuen Optimizer veröffentlicht. Er repariert einen versteckten Fehler, der bisher tausende Neuronen während des Trainings stillgelegt hat.
Ein neues Paper auf arXiv schlägt ein Framework vor, das die Länge von KI-Antworten auf Token-Ebene vorhersagt. Klingt nerdig — könnte aber Inferenz-Kosten massiv drücken.
Forscher haben ein KI-Modell gebaut, das komplexe Reservoir-Simulationen lernt — ohne dass man ihm erst Millionen teurer Simulationsergebnisse füttern muss.
Apple hat ein neues Forschungspaper vorgelegt. Thema: Wie man aus einem großen Sprachmodell mehrere spezialisierte Modelle macht — effizienter als bisher.
Ein Chinese hat ein komplettes LLM auf GitHub gestellt — und du kannst es in zwei Stunden selbst trainieren. Auf deiner eigenen GPU. Für umgerechnet 40 Cent.
PyTorch hat ein neues Open-Source-Framework auf GitHub gedroppt: OpenEnv. Damit sollen Entwickler isolierte Umgebungen bauen, in denen LLMs per Reinforcement Learning zu Agenten ...