KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.
Mark Zuckerberg hat ein neues Spielzeug. Muse Spark heißt Metas erstes Modell nach dem großen KI-Umbau — und die Benchmark-Ergebnisse lassen aufhorchen.
Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...
Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.
Moderne KI-Systeme können Software mit tausenden Zeilen Code reverse-engineeren. Das zeigt MirrorCode, ein neuer Benchmark von METR und Epoch — zwei der wichtigsten ...
Die Mobilfunk-Branche will wissen, ob ihre KI-Agenten auch wirklich funktionieren. Forscher haben mit TelcoAgent-Bench einen Testrahmen gebaut, der genau das prüfen soll — auf ...
Microsofts Bing-Team hat ein neues Embedding-Modell als Open Source veröffentlicht. Name: Harrier. Ergebnis: Platz 1 im mehrsprachigen MTEB-v2-Benchmark.
Forscher haben MMPAD veröffentlicht — ein Open-Source-System, das Zeitreihen-Daten automatisch nach Anomalien durchforstet. Basis: die Matrix-Profile-Methode, aufgebohrt für den ...
Forscher haben einen neuen Benchmark gebaut, der große Sprachmodelle gegen klassische Methoden der Wirkstoffforschung antreten lässt. Name: DrugPlayGround.
LLMs sollen unsere lebenslangen Assistenten werden. Aber woher wissen wir, ob sie sich tatsächlich merken, was wir ihnen erzählen? Ein neuer Benchmark will genau das messen.
GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.
Stell dir vor, dein Arzt diagnostiziert dich — ohne dich jemals angeschaut zu haben. Genau das machen aktuelle KI-Modelle. Ein neues Stanford-Paper zerreißt die Illusion vom ...
Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...
Together AI hat einen neuen Benchmark vorgestellt, der KI-Agenten vor eine brutale Aufgabe stellt: echte Ereignisse vorhersagen, bevor sie passieren. Kein Auswendiglernen, kein ...
SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
OpenAI hat einen neuen Reinforcement-Learning-Benchmark vorgestellt. Name: Gotta Learn Fast — und ja, das klingt wie ein Sonic-Meme.
Ein chinesisches KI-Startup veröffentlicht ein Modell, das sich selbst weiterentwickelt hat — und liefert dabei Benchmark-Werte, die aufhorchen lassen.
Ein mysteriöses KI-Modell tauchte aus dem Nichts auf und fegte die Benchmark-Tabellen leer. Jetzt ist klar: Alibaba steckt dahinter.
KI-Modelle, die über Bilder nachdenken, haben ein Drecksproblem: Kleine Fehler beim Hinsehen werden über mehrere Denkschritte immer größer — bis am Ende kompletter Unsinn ...
Neue Forschung zeigt, wie fragil KI-Alignment wirklich ist. Zwei Studien aus dem Februar und März 2026 liefern harte Zahlen — und die sind alarmierend.