Suche: Quantisierung

EXPERIMENTAL

Sam Rose erklärt Quantisierung besser als jedes Lehrbuch

Wie macht man ein 70-Milliarden-Parameter-Modell klein genug für den Laptop? Sam Rose zeigt es — mit dem vielleicht besten interaktiven Essay des Jahres.

Simon Willison · 2026-03-30 01:27:12.405450+00:00 · Score 3/10

EXPERIMENTAL

Forscher bändigen wackelige Diffusion-LLMs

Ein neues Paper auf arXiv knöpft sich ein nerviges Problem von Diffusion Large Language Models vor. Die Lösung heißt FAIR-Calib — und sie zielt direkt auf einen wunden Punkt der ...

arXiv AI/ML/NLP · 2026-06-08 07:21:10.679399+00:00 · Score 2/10

HOT

Drei Modelle, ein Algorithmus, ein Knall

Google, DeepSeek und Anthropic feuern gleichzeitig. Heise hat alles aufgedröselt.

Heise KI · 2026-05-05 13:21:22.695125+00:00 · Score 6/10

TOOLS

1-Bit-Modell schlägt Giganten mit 14× weniger Speicher

Ein Caltech-Startup zeigt den großen Labs, dass KI nicht immer größer werden muss. PrismML hat mit Bonasi 8B ein 1-Bit-LLM veröffentlicht, das mit klassischen 8B-Modellen mithält ...

The Register AI · 2026-04-04 10:20:54.218804+00:00 · Score 6/10

TOOLS

Google schrumpft KI-Gehirn um Faktor 6

Google hat ein neues Kompressionsverfahren vorgestellt, das den Arbeitsspeicher von KI-Modellen auf ein Sechstel reduzieren soll. Name: TurboQuant. Das Internet so: "Das ist ...

TechCrunch AI · 2026-03-30 01:34:51.037279+00:00 · Score 6/10

EXPERIMENTAL

RateQuant quetscht KV-Cache mit Mathe-Trick

Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.

arXiv AI/ML/NLP · 2026-05-11 04:19:07.850518+00:00 · Score 2/10

EXPERIMENTAL

KI-Forscher zertrümmern Speicher-Problem

Die teure Erinnerung großer Sprachmodelle frisst Unmengen an RAM. Jetzt haben Forscher einen Algorithmus entwickelt, der diesen Speicher fast ohne Qualitätsverlust um 75% ...

arXiv AI/ML/NLP · 2026-05-06 04:28:28.210526+00:00 · Score 2/10

EXPERIMENTAL

IBM lässt Pelikane in SVG fliegen

IBM hat seine Granite-4.1-Familie veröffentlicht — und Simon Willison testet das 3B-Modell mit dem absurdesten Benchmark der KI-Szene: Pelikane auf Fahrrädern in SVG zeichnen.

Simon Willison · 2026-05-05 01:18:19.568591+00:00 · Score 5/10

EXPERIMENTAL

NeuTTS spricht Deutsch — komplett offline

Neuphonic wirft ein neues Text-to-Speech-Modell auf HuggingFace. Läuft lokal, frisst kaum Ressourcen — und kann sogar Deutsch.

GitHub Trending Python · 2026-04-30 04:22:51.963156+00:00 · Score 5/10

AGENTS

Qwen schrumpft Flagship-Modell auf 55 Gigabyte

Alibabas KI-Labor Qwen hat ein neues Open-Weight-Modell rausgehauen — und die Behauptung ist dreist: Ein 27-Milliarden-Parameter-Modell soll besser coden als der eigene Vorgänger ...

Simon Willison · 2026-04-22 19:20:21.302748+00:00 · Score 8/10

TOOLS

Caltech-Startup schrumpft LLM um Faktor 14

Ein Spin-off der Caltech will die KI-Welt auf den Kopf stellen — mit nur einem Bit pro Parameter. PrismML hat Bonasi 8B veröffentlicht, ein 1-Bit-LLM, das mit klassischen ...

The Register AI · 2026-04-04 10:17:25.415228+00:00 · Score 7/10

EXPERIMENTAL

Lokale KI scheitert nicht am Modell

Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.

Simon Willison · 2026-03-30 22:18:25.263167+00:00 · Score 2/10

HOT

Google schrumpft KI-Speicher um das 6-Fache

Google Research hat einen Kompressionsalgorithmus vorgestellt, der den Speicherhunger großer Sprachmodelle drastisch reduziert. Der Name: TurboQuant.

Ars Technica AI · 2026-03-25 20:19:24.606545+00:00 · Score 6/10

TOOLS

Together AI macht Open-Source-Modelle doppelt so schnell

Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.

Together AI Blog · 2026-03-23 21:19:04.910781+00:00 · Score 6/10

SUCHE

Sam Rose erklärt Quantisierung besser als jedes Lehrbuch

Forscher bändigen wackelige Diffusion-LLMs

Drei Modelle, ein Algorithmus, ein Knall

1-Bit-Modell schlägt Giganten mit 14× weniger Speicher

Google schrumpft KI-Gehirn um Faktor 6

RateQuant quetscht KV-Cache mit Mathe-Trick

KI-Forscher zertrümmern Speicher-Problem

IBM lässt Pelikane in SVG fliegen

NeuTTS spricht Deutsch — komplett offline

Qwen schrumpft Flagship-Modell auf 55 Gigabyte

Caltech-Startup schrumpft LLM um Faktor 14

Lokale KI scheitert nicht am Modell

Google schrumpft KI-Speicher um das 6-Fache

Together AI macht Open-Source-Modelle doppelt so schnell