EXPERIMENTAL
XOR braucht 2 Attention Heads — Beweis mit Schulmathe
Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.
LessWrong
· 2026-04-03 01:20:41.035555+00:00
· Score 2/10