Suche: Coding-Benchmark

AGENTS

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

OpenAI News · 2026-03-23 12:20:21.777077+00:00 · Score 6/10

TOOLS

Qwen3.6 macht 400B-Modelle mit 27B platt

Alibaba hat ein neues Open-Source-Modell rausgehauen. Qwen3.6-27B schlägt mit nur 27 Milliarden Parametern seinen eigenen Vorgänger — der 15-mal größer ist.

The Decoder · 2026-04-25 13:15:32.862887+00:00 · Score 8/10

HOT

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.

Golem KI · 2026-04-17 07:19:19.594233+00:00 · Score 8/10

AGENTS

Kimi K2.6 steuert 300 Agenten gleichzeitig

Moonshot AI aus China knallt ein neues Open-Weight-Modell auf den Markt. Kimi K2.6 soll in Coding-Benchmarks direkt mit GPT-5.4 und Claude Opus 4.6 mithalten — und nebenbei bis zu ...

The Decoder · 2026-04-20 19:19:22.954818+00:00 · Score 9/10

HOT

Claude Opus 4.7: Anthropics neues Flaggschiff liefert Zahlen

Anthropic hat letzte Woche Claude Opus 4.7 veröffentlicht. Zwei Monate nach dem Vorgänger. Die Benchmarks klingen solide — aber die eigentliche Story steckt tiefer.

TheSequence · 2026-04-23 01:22:43.111701+00:00 · Score 6/10

FOUNDER

Google gründet „Strike Team" gegen Anthropic

Google hat ein Problem: Bei Coding-Benchmarks liegt Gemini hinter Claude. Die Lösung? Ein internes Spezialkommando, das die Code-Fähigkeiten der eigenen Modelle nach oben prügeln ...

Heise KI · 2026-04-20 16:20:50.181604+00:00 · Score 6/10

HOT

OpenAI schiebt GPT-5.5 als Agenten raus

OpenAI hat ein neues Modell vorgestellt. GPT-5.5 soll kein Chatbot mehr sein, sondern ein autonomer Arbeits-Agent.

Heise KI · 2026-04-23 22:24:41.005052+00:00 · Score 8/10

AGENTS

Open-Source-Agent schlägt alle beim Coden

Together AI hat DeepSWE veröffentlicht — einen vollständig quelloffenen Coding-Agenten, der per Reinforcement Learning trainiert wurde. Und der mischt die Bestenlisten auf.

Together AI Blog · 2026-03-23 15:32:10.316370+00:00 · Score 6/10

HOT

GPT-5.4 schlägt Ärzte — sogar mit Google

OpenAI hat eine kostenlose ChatGPT-Version für Mediziner vorgestellt. Und behauptet: Die KI ist besser als Ärzte mit Internetzugang und unbegrenzt Zeit.

The Decoder · 2026-04-23 13:20:13.527839+00:00 · Score 9/10

EXPERIMENTAL

GPT-Image-2 macht Lego-Dates und keiner lacht

OpenAIs Bildgenerator GPT-Image-2 wird gerade zum Liebling der Kreativ-Szene. Während alle anderen Labs auf Coding und Enterprise schielen, zeigt das Modell, was passiert, wenn ...

Latent Space · 2026-04-28 07:19:36.799313+00:00 · Score 5/10

AGENTS

KI-Modelle scheitern an echten Diagrammen

14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.

The Decoder · 2026-04-19 13:19:57.234306+00:00 · Score 6/10

AGENTS

Poolside knackt 72,5% auf SWE-Bench

Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.

MarkTechPost · 2026-04-30 07:19:55.326603+00:00 · Score 8/10

FOUNDER

Brin kehrt zurück — Google jagt Anthropics Code-Krone

Google DeepMind baut ein Spezialteam auf, das eine einzige Mission hat: Bei KI-Coding zu Anthropic aufschließen. Und Sergey Brin, der Google-Mitgründer, mischt persönlich mit.

The Decoder · 2026-04-20 19:17:21.509037+00:00 · Score 7/10

AGENTS

Open-Source-Modell DeepCoder schlägt OpenAIs O3-mini

Together AI hat DeepCoder veröffentlicht — ein vollständig quelloffenes Coding-Modell mit nur 14 Milliarden Parametern. Es soll auf dem Niveau von OpenAIs O3-mini performen. Kein ...

Together AI Blog · 2026-03-23 15:21:33.011137+00:00 · Score 8/10

AGENTS

Musk schickt Coding-Agent gegen Anthropic ins Rennen

xAI hat seinen ersten Coding-Agent vorgestellt. Ziel: Claude und Cursor das Wasser abgraben.

Bloomberg Technology · 2026-05-14 22:20:47.566850+00:00 · Score 7/10

AGENTS

Qwen schrumpft Flagship-Modell auf 55 Gigabyte

Alibabas KI-Labor Qwen hat ein neues Open-Weight-Modell rausgehauen — und die Behauptung ist dreist: Ein 27-Milliarden-Parameter-Modell soll besser coden als der eigene Vorgänger ...

Simon Willison · 2026-04-22 19:20:21.302748+00:00 · Score 8/10

HOT

Kimi K2.7 unterbietet GPT-5.5 um 80 Prozent

Moonshot AI feuert zurück. Das chinesische Open-Source-Modell Kimi K2.7 Code zielt mit Kampfpreisen direkt auf OpenAI und Anthropic.

The Decoder · 2026-06-13 10:20:03.685096+00:00 · Score 8/10

GELD

Anthropic überholt OpenAI – 965 Milliarden Bewertung

Claude-Macher Anthropic hat OpenAI erstmals abgehängt. Eine neue Finanzierungsrunde katapultiert das Unternehmen auf eine Bewertung von 965 Milliarden Dollar.

Bloomberg Technology · 2026-05-28 19:20:55.679329+00:00 · Score 9/10

FOUNDER

OpenAI prahlt mit Rechen-Vorteil gegen Anthropic

OpenAI hat Investoren eine klare Botschaft geschickt: Wir haben mehr Compute als die Konkurrenz. Konkret nimmt CEO Sam Altman dabei Anthropic ins Visier — den härtesten Rivalen im ...

Bloomberg Technology · 2026-04-10 01:21:30.365541+00:00 · Score 7/10

SUCHE

OpenAI macht den Coding-Benchmark ehrlicher

Qwen3.6 macht 400B-Modelle mit 27B platt

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Kimi K2.6 steuert 300 Agenten gleichzeitig

Claude Opus 4.7: Anthropics neues Flaggschiff liefert Zahlen

Google gründet „Strike Team" gegen Anthropic

OpenAI schiebt GPT-5.5 als Agenten raus

Open-Source-Agent schlägt alle beim Coden

GPT-5.4 schlägt Ärzte — sogar mit Google

GPT-Image-2 macht Lego-Dates und keiner lacht

KI-Modelle scheitern an echten Diagrammen

Poolside knackt 72,5% auf SWE-Bench

Brin kehrt zurück — Google jagt Anthropics Code-Krone

Open-Source-Modell DeepCoder schlägt OpenAIs O3-mini

Musk schickt Coding-Agent gegen Anthropic ins Rennen

Qwen schrumpft Flagship-Modell auf 55 Gigabyte

Kimi K2.7 unterbietet GPT-5.5 um 80 Prozent

Anthropic überholt OpenAI – 965 Milliarden Bewertung

OpenAI prahlt mit Rechen-Vorteil gegen Anthropic