SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.
Together AI hat DeepSWE veröffentlicht — einen vollständig quelloffenen Coding-Agenten, der per Reinforcement Learning trainiert wurde. Und der mischt die Bestenlisten auf.
Together AI hat DeepCoder veröffentlicht — ein vollständig quelloffenes Coding-Modell mit nur 14 Milliarden Parametern. Es soll auf dem Niveau von OpenAIs O3-mini performen. Kein ...
OpenAI hat Investoren eine klare Botschaft geschickt: Wir haben mehr Compute als die Konkurrenz. Konkret nimmt CEO Sam Altman dabei Anthropic ins Visier — den härtesten Rivalen im ...