LLMs scheitern an simplen Statistik-Fragen
Forscher haben einen wunden Punkt von ChatGPT und Co. gefunden. Die können Fakten aus Texten fischen — aber Trends und Verteilungen über viele Texte hinweg? Fehlanzeige.
Was Text2DistBench testet
Das neue Benchmark zwingt Sprachmodelle, aus Textsammlungen Verteilungswissen abzuleiten. Nicht "Was steht in Zeile 3?", sondern: "Was bevorzugen die meisten Nutzer?" oder "Welcher Trend zeichnet sich ab?" Genau die Art von Fragen, die im echten Leben ständig auftauchen.
💡 Was das bedeutet
Jeder, der LLMs für Marktanalysen, Umfrage-Auswertungen oder Trend-Reports nutzt, sollte aufhorchen. Die Modelle tun so, als könnten sie Muster in großen Textmengen erkennen — aber dieses Benchmark zeigt: Sie raten oft nur. Wer sich auf LLM-generierte Zusammenfassungen von Populationsdaten verlässt, baut auf Sand.
✅ Pro
- Deckt eine echte Lücke in der LLM-Evaluierung auf
- Praxisrelevante Fragestellungen statt synthetischer Spielereien
- Reproduzierbar, öffentlich auf arXiv
❌ Con
- Reines Forschungspapier, kein Tool zum Ausprobieren
- Keine konkreten Fixes oder Verbesserungsvorschläge
- Null praktischer Nutzen für Endanwender — noch nicht
Die unbequeme Wahrheit
LLMs sind Meister im Nachplappern einzelner Fakten. Aber "Was denken die meisten Leute?" aus 500 Texten ableiten — da versagen sie. Das ist kein Randproblem. Das ist genau die Fähigkeit, die Unternehmen brauchen, wenn sie LLMs für Business Intelligence einsetzen wollen.