SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
Alibaba hat ein neues Open-Source-Modell rausgehauen. Qwen3.6-27B schlägt mit nur 27 Milliarden Parametern seinen eigenen Vorgänger — der 15-mal größer ist.
Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.
Moonshot AI aus China knallt ein neues Open-Weight-Modell auf den Markt. Kimi K2.6 soll in Coding-Benchmarks direkt mit GPT-5.4 und Claude Opus 4.6 mithalten — und nebenbei bis zu ...
Anthropic hat letzte Woche Claude Opus 4.7 veröffentlicht. Zwei Monate nach dem Vorgänger. Die Benchmarks klingen solide — aber die eigentliche Story steckt tiefer.
Google hat ein Problem: Bei Coding-Benchmarks liegt Gemini hinter Claude. Die Lösung? Ein internes Spezialkommando, das die Code-Fähigkeiten der eigenen Modelle nach oben prügeln ...
OpenAI hat ein neues Modell vorgestellt. GPT-5.5 soll kein Chatbot mehr sein, sondern ein autonomer Arbeits-Agent.
Together AI hat DeepSWE veröffentlicht — einen vollständig quelloffenen Coding-Agenten, der per Reinforcement Learning trainiert wurde. Und der mischt die Bestenlisten auf.
OpenAI hat eine kostenlose ChatGPT-Version für Mediziner vorgestellt. Und behauptet: Die KI ist besser als Ärzte mit Internetzugang und unbegrenzt Zeit.
OpenAIs Bildgenerator GPT-Image-2 wird gerade zum Liebling der Kreativ-Szene. Während alle anderen Labs auf Coding und Enterprise schielen, zeigt das Modell, was passiert, wenn ...
14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.
Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.
Google DeepMind baut ein Spezialteam auf, das eine einzige Mission hat: Bei KI-Coding zu Anthropic aufschließen. Und Sergey Brin, der Google-Mitgründer, mischt persönlich mit.
Together AI hat DeepCoder veröffentlicht — ein vollständig quelloffenes Coding-Modell mit nur 14 Milliarden Parametern. Es soll auf dem Niveau von OpenAIs O3-mini performen. Kein ...
xAI hat seinen ersten Coding-Agent vorgestellt. Ziel: Claude und Cursor das Wasser abgraben.
Alibabas KI-Labor Qwen hat ein neues Open-Weight-Modell rausgehauen — und die Behauptung ist dreist: Ein 27-Milliarden-Parameter-Modell soll besser coden als der eigene Vorgänger ...
Claude-Macher Anthropic hat OpenAI erstmals abgehängt. Eine neue Finanzierungsrunde katapultiert das Unternehmen auf eine Bewertung von 965 Milliarden Dollar.
OpenAI hat Investoren eine klare Botschaft geschickt: Wir haben mehr Compute als die Konkurrenz. Konkret nimmt CEO Sam Altman dabei Anthropic ins Visier — den härtesten Rivalen im ...