EXPERIMENTAL
Pointwise-Metriken lügen — neue Studie räumt auf
Ein arXiv-Paper zerlegt eine Annahme, die in der KI-Evaluierung seit Jahren als gesetzt gilt: niedrigerer Fehler = bessere Rekonstruktion. Stimmt nicht. Zumindest nicht immer.
arXiv AI/ML/NLP
· 2026-05-25 13:20:54.038768+00:00
· Score 2/10