EXPERIMENTAL
RIFT entlarvt fehlerhafte KI-Bewertungen systematisch
Forscher haben ein Problem mit LLM-Benchmarks: Die Bewertungsmaßstäbe selbst sind oft Müll. RIFT liefert jetzt eine Taxonomie, die zeigt, wo genau Rubrics versagen.
arXiv AI/ML/NLP
· 2026-04-03 19:21:41.852595+00:00
· Score 2/10