Suche: Attention

EXPERIMENTAL

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

LessWrong · 2026-04-03 01:20:41.035555+00:00 · Score 2/10

EXPERIMENTAL

KI rechnet 3D-Moleküle jetzt in Linearzeit

Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.

Nature Mach Intel · 2026-03-26 05:21:45.645227+00:00 · Score 3/10

HOT

MiniMax knallt M3 raus — 1 Million Token Kontext

Chinesisches Lab MiniMax hat am 1. Juni 2026 sein neues Flaggschiff M3 veröffentlicht. Open-Weight, multimodal, agentenfähig — und mit einer brandneuen Attention-Architektur.

MarkTechPost · 2026-06-01 22:22:04.185759+00:00 · Score 7/10

EXPERIMENTAL

Forscher steuern KI über Aufmerksamkeits-Queries

Ein neues arXiv-Paper greift tief in die Eingeweide von Large Language Models. Statt am Output zu schrauben, manipulieren die Autoren direkt den Attention-Mechanismus.

arXiv AI/ML/NLP · 2026-05-26 01:20:28.399110+00:00 · Score 2/10

EXPERIMENTAL

Transformer und Diffusion sind dasselbe Ding

Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.

arXiv AI/ML/NLP · 2026-04-14 04:20:20.615434+00:00 · Score 2/10

TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...

Together AI Blog · 2026-06-02 22:19:00.929269+00:00 · Score 6/10

TOOLS

Moonshot kippt Kimi-Kernel auf GitHub

Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.

MarkTechPost · 2026-05-01 04:15:18.218360+00:00 · Score 6/10

HOT

DeepSeek V4 knackt die Million-Token-Grenze

DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...

MarkTechPost · 2026-04-25 01:19:02.976371+00:00 · Score 8/10

EXPERIMENTAL

KI knackt Physik-Problem mit neuem Trick

Forscher haben einen Durchbruch in der Molekül-Simulation verkündet. Ihr neuer Attention-Mechanismus macht Maschinenlernen für Kraftfelder langreichweitig und effizient.

Nature Mach Intel · 2026-04-22 07:24:14.786192+00:00 · Score 6/10

EXPERIMENTAL

LLMs lernen Sparen — drei neue Architektur-Tricks

Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...

Ahead of AI (Raschka) · 2026-05-16 13:18:21.731511+00:00 · Score 4/10

AGENTS

27B-Modell schlägt 397B-Riesen beim Coden

Alibaba hat mit Qwen3.6-27B ein Open-Weight-Modell veröffentlicht, das bei Agentic-Coding-Benchmarks Modelle mit 397 Milliarden Parametern hinter sich lässt. Dichtes Modell, ...

MarkTechPost · 2026-04-22 22:21:25.637387+00:00 · Score 8/10

HOT

Transformer bekommt Konkurrenz: 5 neue Architekturen

Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...

Ahead of AI (Raschka) · 2026-03-22 01:22:17.989624+00:00 · Score 5/10

HOT

MiniMax wirft M3 ins Open-Source-Rennen

MiniMax knallt mit M3 ein Open-Weight-Modell auf den Tisch, das Coding, 1-Million-Token-Kontext und Multimodalität in eine Architektur quetscht. Die Gewichte landen in zehn Tagen ...

The Decoder · 2026-06-01 13:18:20.813956+00:00 · Score 8/10

EXPERIMENTAL

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.

arXiv AI/ML/NLP · 2026-05-11 04:19:23.906006+00:00 · Score 2/10

TOOLS

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...

Ahead of AI (Raschka) · 2026-03-22 00:51:06.205132+00:00 · Score 6/10

EXPERIMENTAL

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

Ein neues Paper auf arXiv will das größte Problem moderner LLMs lösen: Den explodierenden Speicherbedarf bei langem Kontext. Die Idee klaut beim Prozessor-Design.

arXiv AI/ML/NLP · 2026-05-25 13:20:14.583263+00:00 · Score 2/10

EXPERIMENTAL

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

Kleine Korrektur — ich habe gerade "spannende" im Urteil verwendet, das steht auf der Verboten-Liste. Hier die korrigierte Version:

MarkTechPost · 2026-05-24 10:19:26.458875+00:00 · Score 5/10

EXPERIMENTAL

KI-Forscher tricksen TPU-Hardware aus

Wissenschaftler haben einen neuen Weg gefunden, riesige KI-Modelle effizienter zu trainieren. Sie tricksen die Hardware mit einem cleveren mathematischen Kniff.

arXiv AI/ML/NLP · 2026-05-12 07:25:00.907517+00:00 · Score 2/10

EXPERIMENTAL

Forscher zwingen KI, endlich richtig hinzusehen

Vision-Language-Modelle halluzinieren wie betrunkene Augenzeugen. Ein neues Paper will das Problem beim Decoding lösen — ohne Training, ohne Geld, ohne Hype.

arXiv AI/ML/NLP · 2026-05-11 04:19:40.750979+00:00 · Score 2/10

EXPERIMENTAL

RateQuant quetscht KV-Cache mit Mathe-Trick

Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.

arXiv AI/ML/NLP · 2026-05-11 04:19:07.850518+00:00 · Score 2/10

SUCHE

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

KI rechnet 3D-Moleküle jetzt in Linearzeit

MiniMax knallt M3 raus — 1 Million Token Kontext

Forscher steuern KI über Aufmerksamkeits-Queries

Transformer und Diffusion sind dasselbe Ding

Together knackt 1 Million Token im Kontext

Moonshot kippt Kimi-Kernel auf GitHub

DeepSeek V4 knackt die Million-Token-Grenze

KI knackt Physik-Problem mit neuem Trick

LLMs lernen Sparen — drei neue Architektur-Tricks

27B-Modell schlägt 397B-Riesen beim Coden

Transformer bekommt Konkurrenz: 5 neue Architekturen

MiniMax wirft M3 ins Open-Source-Rennen

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

KI-Forscher tricksen TPU-Hardware aus

Forscher zwingen KI, endlich richtig hinzusehen

RateQuant quetscht KV-Cache mit Mathe-Trick