Wie macht man ein 70-Milliarden-Parameter-Modell klein genug für den Laptop? Sam Rose zeigt es — mit dem vielleicht besten interaktiven Essay des Jahres.
Google, DeepSeek und Anthropic feuern gleichzeitig. Heise hat alles aufgedröselt.
Ein Caltech-Startup zeigt den großen Labs, dass KI nicht immer größer werden muss. PrismML hat mit Bonasi 8B ein 1-Bit-LLM veröffentlicht, das mit klassischen 8B-Modellen mithält ...
Google hat ein neues Kompressionsverfahren vorgestellt, das den Arbeitsspeicher von KI-Modellen auf ein Sechstel reduzieren soll. Name: TurboQuant. Das Internet so: "Das ist ...
Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.
Die teure Erinnerung großer Sprachmodelle frisst Unmengen an RAM. Jetzt haben Forscher einen Algorithmus entwickelt, der diesen Speicher fast ohne Qualitätsverlust um 75% ...
IBM hat seine Granite-4.1-Familie veröffentlicht — und Simon Willison testet das 3B-Modell mit dem absurdesten Benchmark der KI-Szene: Pelikane auf Fahrrädern in SVG zeichnen.
Neuphonic wirft ein neues Text-to-Speech-Modell auf HuggingFace. Läuft lokal, frisst kaum Ressourcen — und kann sogar Deutsch.
Alibabas KI-Labor Qwen hat ein neues Open-Weight-Modell rausgehauen — und die Behauptung ist dreist: Ein 27-Milliarden-Parameter-Modell soll besser coden als der eigene Vorgänger ...
Ein Spin-off der Caltech will die KI-Welt auf den Kopf stellen — mit nur einem Bit pro Parameter. PrismML hat Bonasi 8B veröffentlicht, ein 1-Bit-LLM, das mit klassischen ...
Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.
Google Research hat einen Kompressionsalgorithmus vorgestellt, der den Speicherhunger großer Sprachmodelle drastisch reduziert. Der Name: TurboQuant.
Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.