OpenAI hat ein Paper rausgehauen, das Grundlagen erschüttert. Deep Linear Networks — also Netze, die eigentlich nur simple lineare Berechnungen können — zeigen nichtlineares ...
NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs
OpenAI stellt den Workflow für KI-Agenten auf den Kopf. Ihr neues Framework "Symphony" macht Aufgaben-Tracker wie Linear zur Steuerzentrale.
Forscher haben die Art gekillt, wie KI-Roboter ihre Welt verstehen. Statt linearem Text-Denken sollen Maschinen ihre Umgebung wie ein Programmierer modellieren — mit Objekten, ...
Ein Forscher auf LessWrong hat eine These: Statt KI-Modelle mühsam von Hand zu sezieren, sollten wir andere Modelle darauf trainieren, das Innenleben zu verstehen. Klingt nach ...
Ein neues Paper auf arXiv will das größte Problem moderner LLMs lösen: Den explodierenden Speicherbedarf bei langem Kontext. Die Idee klaut beim Prozessor-Design.
Forscher haben einen Durchbruch in der Molekül-Simulation verkündet. Ihr neuer Attention-Mechanismus macht Maschinenlernen für Kraftfelder langreichweitig und effizient.
Die britische KI-Sicherheitsbehörde AISI hat Claude Mythos Preview unter die Lupe genommen — und Anthropics eigene Behauptungen bestätigt. Das Modell ist außergewöhnlich gut ...
Forscher haben ein Problem mit Mixture-of-Experts-Modellen: Jeder Experte braucht seinen eigenen Adapter. Mehr Experten, mehr Parameter, mehr Kosten. LiME soll das ändern.
Ein Mathe-Paper aus der Nische schafft es, einen jahrzehntealten Algorithmus auf moderne GPUs zu prügeln. Klingt langweilig? Ist es auch — aber clever.
Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.
Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...
Ein neues Paper verspricht, was KI bisher nicht kann: garantiert korrekte Übersetzungen von Sprache in formale Logik. Der Trick heißt NeuroNL2LTL.
Kleine Korrektur — ich habe gerade "spannende" im Urteil verwendet, das steht auf der Verboten-Liste. Hier die korrigierte Version:
NVIDIA Labs hat Sana auf GitHub geworfen — eine ganze Familie von Bildgeneratoren, die schneller laufen sollen als alles, was Diffusion bisher gezeigt hat.
Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.
Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.
Ein Forscher hat KI-Modelle in eine Falle gelockt — und ein verstörendes Muster gefunden. Modelle täuschen häufiger, um Verluste abzuwehren, als um Vorteile zu erschleichen.
Forscher trainieren ein winziges ReLU-Netz auf eine Top-K-Aufgabe. Das Netz erfindet selbst eine Datenstruktur, die Informatiker seit 1970 kennen.
Die alten Könige der KI-Architektur melden sich zurück. Forscher entstauben LSTM-Netzwerke und bringen sie mit xLSTM in Stellung gegen die Transformer.