KI-Modelle scheitern an echten Diagrammen
Forscher haben einen neuen Benchmark gebaut, der KI-Modelle zwingt, aus realen Datensätzen komplexe Visualisierungen zu generieren. Das Ergebnis: Selbst die besten Modelle versagen kläglich.
Was RealChart2Code testet
Der Benchmark schickt 14 führende KI-Modelle in den Ring — mit einer simplen Aufgabe: Nimm echte Daten, bau daraus ein Diagramm. Keine Spielzeug-Beispiele, keine aufgeräumten CSV-Dateien. Sondern das, was in der Praxis auf Schreibtischen landet.
Zahlenbox
- 14** — getestete KI-Modelle
- ~50%** — Leistungsverlust bei komplexen Charts vs. einfache Tests
- 0** — Modelle, die das Problem wirklich gelöst haben
Wo es hakt
- Mehrachsige Diagramme:** Sobald zwei Y-Achsen ins Spiel kommen, wird geraten statt gerechnet
- Gestapelte Charts:** Proportionen stimmen nicht, Legenden sind falsch
- Formatierung:** Farben, Labels, Achsenbeschriftungen — alles daneben
- Datenintegrität:** Werte werden halluziniert oder vertauscht
💡 Was das bedeutet
Wer glaubt, GPT oder Claude könnten mal eben aus einem Datensatz eine Präsentation bauen, sollte sich diesen Benchmark genau ansehen. Die Modelle sind gut bei einfachen Balkendiagrammen. Aber sobald es in Richtung realer Business-Charts geht — mit mehreren Datenreihen, Annotations und korrekter Skalierung — fällt die Leistung um fast die Hälfte. Das ist kein Edge Case, das ist der Normalfall in jedem Büro.
✅ Pro
- Benchmark testet endlich praxisnahe Aufgaben statt synthetische Spielereien
- Deckt echte Schwächen auf, die bei MMLU und Co. unsichtbar bleiben
- Hilft Entwicklern, gezielt an visueller Codegenerierung zu arbeiten
❌ Con
- Proprietäre Modelle scheitern genauso wie Open-Source — niemand glänzt
- Zeigt ein Problem, für das es aktuell keine Lösung gibt
- Könnte Unternehmen verunsichern, die bereits auf KI-Automatisierung setzen