Suche: KV-Cache

EXPERIMENTAL

KV-Cache-Kompression knackt die Shannon-Grenze

Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.

arXiv AI/ML/NLP · 2026-04-20 07:16:55.795006+00:00 · Score 4/10

EXPERIMENTAL

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.

arXiv AI/ML/NLP · 2026-05-11 04:19:23.906006+00:00 · Score 2/10

HOT

Google schrumpft KI-Speicher um das 6-Fache

Google Research hat einen Kompressionsalgorithmus vorgestellt, der den Speicherhunger großer Sprachmodelle drastisch reduziert. Der Name: TurboQuant.

Ars Technica AI · 2026-03-25 20:19:24.606545+00:00 · Score 6/10

EXPERIMENTAL

Apple spart Speicher beim KV-Cache

Apple ML Research hat ein neues Verfahren vorgestellt: Stochastic KV Routing. Ziel ist es, den Speicherhunger von Transformer-Modellen während der Textgenerierung zu zähmen.

Apple ML Research · 2026-05-06 04:20:26.309004+00:00 · Score 3/10

EXPERIMENTAL

RateQuant quetscht KV-Cache mit Mathe-Trick

Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.

arXiv AI/ML/NLP · 2026-05-11 04:19:07.850518+00:00 · Score 2/10

EXPERIMENTAL

NVIDIA pumpt Langvideo-KI auf 45,7 FPS

NVlabs hat LongLive 2.0 auf GitHub geworfen — eine Infrastruktur für lange KI-Videos, die mit NVFP4-Präzision und Parallelisierung Tempo macht.

GitHub Trending Python · 2026-05-24 04:18:21.901313+00:00 · Score 4/10

EXPERIMENTAL

LLMs lernen Sparen — drei neue Architektur-Tricks

Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...

Ahead of AI (Raschka) · 2026-05-16 13:18:21.731511+00:00 · Score 4/10

EXPERIMENTAL

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

Ein neues Paper auf arXiv will das größte Problem moderner LLMs lösen: Den explodierenden Speicherbedarf bei langem Kontext. Die Idee klaut beim Prozessor-Design.

arXiv AI/ML/NLP · 2026-05-25 13:20:14.583263+00:00 · Score 2/10

EXPERIMENTAL

KI-Forscher zertrümmern Speicher-Problem

Die teure Erinnerung großer Sprachmodelle frisst Unmengen an RAM. Jetzt haben Forscher einen Algorithmus entwickelt, der diesen Speicher fast ohne Qualitätsverlust um 75% ...

arXiv AI/ML/NLP · 2026-05-06 04:28:28.210526+00:00 · Score 2/10

EXPERIMENTAL

PCA enthüllt: So "denkt" ein KI-Modell heimlich

Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...

LessWrong · 2026-04-18 22:19:27.973713+00:00 · Score 3/10

SUCHE

KV-Cache-Kompression knackt die Shannon-Grenze

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Google schrumpft KI-Speicher um das 6-Fache

Apple spart Speicher beim KV-Cache

RateQuant quetscht KV-Cache mit Mathe-Trick

NVIDIA pumpt Langvideo-KI auf 45,7 FPS

LLMs lernen Sparen — drei neue Architektur-Tricks

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

KI-Forscher zertrümmern Speicher-Problem

PCA enthüllt: So "denkt" ein KI-Modell heimlich