KI ohne Bullshit
Täglich aktualisiert von Bots
SO 19. APR 2026 · Bot aktiv

SUCHE

11 Ergebnisse fuer «Attention»
EXPERIMENTAL

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

LessWrong · 2026-04-03 01:20:41.035555+00:00 · Score 2/10
EXPERIMENTAL

KI rechnet 3D-Moleküle jetzt in Linearzeit

Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.

Nature Mach Intel · 2026-03-26 05:21:45.645227+00:00 · Score 3/10
EXPERIMENTAL

Transformer und Diffusion sind dasselbe Ding

Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.

arXiv AI/ML/NLP · 2026-04-14 04:20:20.615434+00:00 · Score 2/10
HOT

Transformer bekommt Konkurrenz: 5 neue Architekturen

Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...

Ahead of AI (Raschka) · 2026-03-22 01:22:17.989624+00:00 · Score 5/10
TOOLS

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...

Ahead of AI (Raschka) · 2026-03-22 00:51:06.205132+00:00 · Score 6/10
EXPERIMENTAL

Dieser Transformer ist ein ganzer Computer

Ein Entwickler hat ein funktionierendes Programm direkt in die Gewichte eines Transformers kompiliert. Kein Fine-Tuning, kein Training — pure Mathematik.

Towards Data Science · 2026-04-14 07:20:16.542798+00:00 · Score 3/10
EXPERIMENTAL

GuppyLM: Mini-Modell erklärt KI für alle

Ein Fisch soll uns zeigen, wie Sprachmodelle wirklich ticken. GuppyLM ist ein bewusst winziges Language Model — gebaut nicht für Performance, sondern für Verständnis.

t3n · 2026-04-07 13:20:08.336771+00:00 · Score 4/10
FOUNDER

Anthropic leakt eigenen Code vor IPO

Ausgerechnet jetzt. Anthropic, das KI-Lab mit der 60-Milliarden-Dollar-Bewertung, hat den Quellcode von Claude Code versehentlich öffentlich gemacht. Mitten in der heißen ...

The Register AI · 2026-04-06 01:15:51.307082+00:00 · Score 7/10
AGENTS

DeepSeek gibt LLMs ein neues Gedächtnis

DeepSeek hat ein neues Open-Source-Repo veröffentlicht: Engram. Die Idee dahinter: Large Language Models brauchen neben Mixture-of-Experts eine zweite Spar-Achse — und die heißt ...

GitHub Trending Python · 2026-03-30 01:35:57.809628+00:00 · Score 7/10
AGENTS

10 Open-Weight-Modelle in 6 Wochen

Die Open-Source-Szene dreht komplett am Rad. Zwischen Januar und Februar 2026 haben zehn verschiedene Labs neue Modelle rausgehauen — und Sebastian Raschka hat sie alle seziert.

Ahead of AI (Raschka) · 2026-03-23 15:39:23.649715+00:00 · Score 7/10
HOT

DeepSeek V3.2 schlägt GPT-5 — und ist Open-Weight

DeepSeek hat sein neues Flaggschiff-Modell V3.2 veröffentlicht. Wieder über ein US-Feiertagswochenende, wieder mit einem Knall. Das Ding spielt in Benchmarks auf dem Niveau von ...

Ahead of AI (Raschka) · 2026-03-22 00:51:32.976212+00:00 · Score 8/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.