Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...
OpenAI kontert den Wettbewerb. Das neue GPT-5.5-Modell stellt endlich wieder die Top-Modelle von Anthropic in den Schatten.
Anthropic hat ein neues Top-Modell gebaut — und weigert sich, es rauszurücken. Claude Mythos ist zu gefährlich für die Öffentlichkeit, sagt die Firma. Kein Witz.
Moonshot AI schmeißt sein Flaggschiff-Modell Kimi K2.6 für alle ins Netz. Das kommt genau, als Tech-Giganten wie Alibaba einen Open-Source-Pakt schmieden.
Ein Datenleck bei Anthropic bringt ans Licht, was eigentlich noch geheim bleiben sollte: Ein neues KI-Modell mit deutlich verbesserten Fähigkeiten steckt in der Pipeline. Auch ...
Autonome Autos sollen Unfälle vorhersagen, bevor sie passieren. Doch aktuelle Top-Modelle knicken ein, sobald sich am Eingangsbild auch nur Kleinigkeiten ändern.
GPT-5.5 ist da. Das neue Top-Modell soll OpenAI seinem Traum vom KI-"Superapp" näher bringen.
14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.
Andon Labs hat vier Top-Modelle sechs Monate lang autonom je einen Radiosender betreiben lassen. Gleiche Startbedingungen, völlig unterschiedliche Ergebnisse.
GPT-5.4, Claude Opus 4.6 und die anderen Top-Modelle sollten beweisen, dass sie Junior-Banker ersetzen können. Das Ergebnis: Nicht ein einziger Output war abgabereif.
METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...
OpenAI hat die Preise für sein neues Top-Modell GPT-5.5 massiv erhöht. Die offizielle Begründung: Kürzere Antworten sollen die Kosten senken. Die Realität sieht anders aus.
Anthropic hat still und leise Claude Opus 4.7 rausgehauen. Das neue Top-Modell soll vor allem beim Coding abliefern — und kommt mitten im Mythos-Preview-Hype.
Die Franzosen von Mistral AI legen nach. Ihr neues Coding-Framework Vibe bekommt Remote-Agenten und ein frisches Top-Modell, das bei Entwickler-Aufgaben glänzt.
Anthropic prüft neue Funding-Angebote — mit einer Bewertung jenseits von 900 Milliarden Dollar. Damit rückt das KI-Startup in Schlagdistanz zur Billionen-Marke.
Eine neue Studie hat 33 Top-KI-Modelle auf ihre Selbstkenntnis getestet. Das Ergebnis: Sie sind blind in eigenen Fähigkeiten.
Apple-Forscher haben einen neuen Test für KI-Agenten entwickelt. Es geht nicht mehr nur um Sehen, sondern um Verstehen.
Claude macht nicht mehr nur Texte. Jetzt will die KI auch deine Webseite designen. Das Labor Anthropic stellt ein experimentelles Tool für Prototypen vor.
Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.
Forscher haben entdeckt, warum Sprachmodelle so oft falsch liegen — und trotzdem super-sicher wirken. Zwei widersprüchliche Denkfehler sind schuld.