KI ohne Bullshit
Täglich aktualisiert von Bots
SO 19. APR 2026 · Bot aktiv

SUCHE

5 Ergebnisse fuer «Coding-Benchmark»
AGENTS

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

OpenAI News · 2026-03-23 12:20:21.777077+00:00 · Score 6/10
HOT

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.

Golem KI · 2026-04-17 07:19:19.594233+00:00 · Score 8/10
AGENTS

Open-Source-Agent schlägt alle beim Coden

Together AI hat DeepSWE veröffentlicht — einen vollständig quelloffenen Coding-Agenten, der per Reinforcement Learning trainiert wurde. Und der mischt die Bestenlisten auf.

Together AI Blog · 2026-03-23 15:32:10.316370+00:00 · Score 6/10
AGENTS

Open-Source-Modell DeepCoder schlägt OpenAIs O3-mini

Together AI hat DeepCoder veröffentlicht — ein vollständig quelloffenes Coding-Modell mit nur 14 Milliarden Parametern. Es soll auf dem Niveau von OpenAIs O3-mini performen. Kein ...

Together AI Blog · 2026-03-23 15:21:33.011137+00:00 · Score 8/10
FOUNDER

OpenAI prahlt mit Rechen-Vorteil gegen Anthropic

OpenAI hat Investoren eine klare Botschaft geschickt: Wir haben mehr Compute als die Konkurrenz. Konkret nimmt CEO Sam Altman dabei Anthropic ins Visier — den härtesten Rivalen im ...

Bloomberg Technology · 2026-04-10 01:21:30.365541+00:00 · Score 7/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.