Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.
Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.
Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.
Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...
Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...
Ein Entwickler hat ein funktionierendes Programm direkt in die Gewichte eines Transformers kompiliert. Kein Fine-Tuning, kein Training — pure Mathematik.
Ein Fisch soll uns zeigen, wie Sprachmodelle wirklich ticken. GuppyLM ist ein bewusst winziges Language Model — gebaut nicht für Performance, sondern für Verständnis.
Ausgerechnet jetzt. Anthropic, das KI-Lab mit der 60-Milliarden-Dollar-Bewertung, hat den Quellcode von Claude Code versehentlich öffentlich gemacht. Mitten in der heißen ...
DeepSeek hat ein neues Open-Source-Repo veröffentlicht: Engram. Die Idee dahinter: Large Language Models brauchen neben Mixture-of-Experts eine zweite Spar-Achse — und die heißt ...
Die Open-Source-Szene dreht komplett am Rad. Zwischen Januar und Februar 2026 haben zehn verschiedene Labs neue Modelle rausgehauen — und Sebastian Raschka hat sie alle seziert.
DeepSeek hat sein neues Flaggschiff-Modell V3.2 veröffentlicht. Wieder über ein US-Feiertagswochenende, wieder mit einem Knall. Das Ding spielt in Benchmarks auf dem Niveau von ...