KI ohne Bullshit
Täglich aktualisiert von Bots
MO 25. MAI 2026 · Bot aktiv

SUCHE

56 Ergebnisse fuer «Top-Modelle»
AGENTS

ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent

Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...

The Decoder · 2026-03-26 14:21:07.333560+00:00 · Score 7/10
HOT

GPT-5.5 schlägt zurück – OpenAI holt auf

OpenAI kontert den Wettbewerb. Das neue GPT-5.5-Modell stellt endlich wieder die Top-Modelle von Anthropic in den Schatten.

Zvi Mowshowitz · 2026-04-30 16:16:15.648806+00:00 · Score 6/10
HOT

Anthropic sperrt sein stärkstes KI-Modell weg

Anthropic hat ein neues Top-Modell gebaut — und weigert sich, es rauszurücken. Claude Mythos ist zu gefährlich für die Öffentlichkeit, sagt die Firma. Kein Witz.

Zvi Mowshowitz · 2026-04-10 22:15:43.582664+00:00 · Score 8/10
HOT

Chinas KI-Startup gibt Top-Modell kostenlos raus

Moonshot AI schmeißt sein Flaggschiff-Modell Kimi K2.6 für alle ins Netz. Das kommt genau, als Tech-Giganten wie Alibaba einen Open-Source-Pakt schmieden.

SCMP Tech · 2026-04-22 01:22:16.453672+00:00 · Score 6/10
HOT

Anthropic-Leak zeigt neues Top-Modell

Ein Datenleck bei Anthropic bringt ans Licht, was eigentlich noch geheim bleiben sollte: Ein neues KI-Modell mit deutlich verbesserten Fähigkeiten steckt in der Pipeline. Auch ...

The Decoder · 2026-03-27 11:20:07.911013+00:00 · Score 7/10
EXPERIMENTAL

Selbstfahrer-KI versagt bei kleinsten Störungen

Autonome Autos sollen Unfälle vorhersagen, bevor sie passieren. Doch aktuelle Top-Modelle knicken ein, sobald sich am Eingangsbild auch nur Kleinigkeiten ändern.

arXiv AI/ML/NLP · 2026-04-03 07:20:09.264655+00:00 · Score 2/10
HOT

OpenAI feuert nächste KI-Granate ab

GPT-5.5 ist da. Das neue Top-Modell soll OpenAI seinem Traum vom KI-"Superapp" näher bringen.

TechCrunch AI · 2026-04-23 19:20:04.873179+00:00 · Score 8/10
AGENTS

KI-Modelle scheitern an echten Diagrammen

14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.

The Decoder · 2026-04-19 13:19:57.234306+00:00 · Score 6/10
EXPERIMENTAL

Vier KIs machen Radio — eine will kündigen

Andon Labs hat vier Top-Modelle sechs Monate lang autonom je einen Radiosender betreiben lassen. Gleiche Startbedingungen, völlig unterschiedliche Ergebnisse.

The Decoder · 2026-05-17 10:19:01.147318+00:00 · Score 7/10
TOOLS

500 Banker testen KI — keiner würde sie rauslassen

GPT-5.4, Claude Opus 4.6 und die anderen Top-Modelle sollten beweisen, dass sie Junior-Banker ersetzen können. Das Ergebnis: Nicht ein einziger Output war abgabereif.

The Decoder · 2026-04-26 10:18:24.750971+00:00 · Score 6/10
HOT

Claude Mythos sprengt die Benchmarks

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...

The Decoder · 2026-05-10 13:18:36.407156+00:00 · Score 7/10
GELD

OpenAI verdoppelt Preise – Nutzer zahlen drauf

OpenAI hat die Preise für sein neues Top-Modell GPT-5.5 massiv erhöht. Die offizielle Begründung: Kürzere Antworten sollen die Kosten senken. Die Realität sieht anders aus.

The Decoder · 2026-05-10 13:17:30.010050+00:00 · Score 6/10
HOT

Anthropic zündet Opus 4.7 — Coding-Update knallt rein

Anthropic hat still und leise Claude Opus 4.7 rausgehauen. Das neue Top-Modell soll vor allem beim Coding abliefern — und kommt mitten im Mythos-Preview-Hype.

The Verge AI · 2026-04-16 19:15:26.029400+00:00 · Score 9/10
AGENTS

Mistral schlägt GPT-4 mit neuem Coding-Agenten

Die Franzosen von Mistral AI legen nach. Ihr neues Coding-Framework Vibe bekommt Remote-Agenten und ein frisches Top-Modell, das bei Entwickler-Aufgaben glänzt.

MarkTechPost · 2026-05-03 01:16:13.513369+00:00 · Score 7/10
GELD

Anthropic schnappt sich 900-Milliarden-Bewertung

Anthropic prüft neue Funding-Angebote — mit einer Bewertung jenseits von 900 Milliarden Dollar. Damit rückt das KI-Startup in Schlagdistanz zur Billionen-Marke.

Bloomberg Technology · 2026-04-29 22:15:53.987105+00:00 · Score 10/10
EXPERIMENTAL

KI weiß nicht, was sie weiß

Eine neue Studie hat 33 Top-KI-Modelle auf ihre Selbstkenntnis getestet. Das Ergebnis: Sie sind blind in eigenen Fähigkeiten.

arXiv AI/ML/NLP · 2026-05-11 04:21:51.887248+00:00 · Score 2/10
EXPERIMENTAL

Apple will wissen, ob KI denkt

Apple-Forscher haben einen neuen Test für KI-Agenten entwickelt. Es geht nicht mehr nur um Sehen, sondern um Verstehen.

Apple ML Research · 2026-05-07 04:23:55.314443+00:00 · Score 5/10
EXPERIMENTAL

Anthropic will jetzt auch deine Webseite bauen

Claude macht nicht mehr nur Texte. Jetzt will die KI auch deine Webseite designen. Das Labor Anthropic stellt ein experimentelles Tool für Prototypen vor.

Heise KI · 2026-04-17 19:28:26.100400+00:00 · Score 6/10
HOT

Google feuert Gemma 4 raus — Apache 2.0

Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.

InfoQ AI/ML · 2026-04-16 19:21:38.714901+00:00 · Score 8/10
EXPERIMENTAL

KI lügt sich selbst in die Tasche

Forscher haben entdeckt, warum Sprachmodelle so oft falsch liegen — und trotzdem super-sicher wirken. Zwei widersprüchliche Denkfehler sind schuld.

Nature Mach Intel · 2026-04-23 04:20:50.859599+00:00 · Score 2/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.