🤖 AGENTS
Autonome KI-Agenten
🤖 AGENTS
Google DeepMind Blog · 6/10
Google misst, wie schlecht KI-Modelle lügen
DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.
Reasoning-Modelle ignorieren 75% aller Anweisungen
Die schlauen Denker-KIs können rechnen, coden, argumentieren. Aber simplen Anweisungen folgen? Fehlanzeige.
AGENTS
Google baut Welten-Maschine für KI-Agenten
DeepMind stellt Genie 2 vor — ein Foundation Model, das komplette 3D-Welten aus dem Nichts erzeugt. Nicht zum Spaß, sondern als Trainingsgelände für KI-Agenten.
AGENTS
WordPress lässt jetzt KI-Agenten Artikel veröffentlichen
Automattic dreht den Hahn auf: WordPress.com bekommt AI-Agenten, die eigenständig Blogposts schreiben und publizieren können. Ohne menschlichen Klick auf "Veröffentlichen".
AGENTS
Xiaomi baut KI-Agenten mit drei neuen Modellen
Xiaomi meint es ernst mit Agenten. Das Smartphone-Imperium aus China hat gleich drei KI-Modelle auf einmal rausgehauen — alle unter dem Namen MiMo-V2.
AGENTS
Klein-Modell rechnet Riesen an die Wand
Bonner Forscher haben Transformer-Modelle umgebaut. Die dürfen jetzt selbst entscheiden, wie lange sie über eine Aufgabe grübeln. Ergebnis: Kleine Modelle schlagen deutlich ...
AGENTS
10 Open-Weight-Modelle in 6 Wochen
Die Open-Source-Szene dreht komplett am Rad. Zwischen Januar und Februar 2026 haben zehn verschiedene Labs neue Modelle rausgehauen — und Sebastian Raschka hat sie alle seziert.
AGENTS
Qwen3-Coder will Claude beim Coden schlagen
Alibabas neues Coding-Modell ist da — und die Benchmarks lesen sich wie eine Kampfansage. Qwen3-Coder tritt direkt gegen Claude Sonnet 4 an. Auf dem SWE-bench, dem härtesten Test ...
AGENTS
Gemini steuert jetzt dein Handy für dich
Google lässt Gemini auf dem Pixel 10 Pro und dem Galaxy S26 Ultra erstmals echte Apps bedienen. Der KI-Assistent bestellt Essen bei DoorDash und ruft Uber — ganz ohne dass du ...
AGENTS
KI-Versager: Warum DeepMind bei simplen Spielzügen scheitert
Googles DeepMind hat mit AlphaGo und AlphaZero die Schachwelt und Go-Meister gedemütigt. Jetzt demütigen Hobby-Spieler die KI — mit absurd einfachen Tricks.
AGENTS
KI-Agenten müssen jetzt die Zukunft vorhersagen
Together AI hat einen neuen Benchmark vorgestellt, der KI-Agenten vor eine brutale Aufgabe stellt: echte Ereignisse vorhersagen, bevor sie passieren. Kein Auswendiglernen, kein ...
|
Kimi K2: Eine Billion Parameter jetzt Open Source
Together AI Blog
|
7/10 |
|
Open-Source-Agent schlägt alle beim Coden
Together AI Blog
|
6/10 |
|
Perplexity bringt KI-Agenten auf den Desktop
Ars Technica AI
|
6/10 |
|
Nvidia baut eigene Agent-Plattform gegen OpenClaw
Ars Technica AI
|
7/10 |
|
Open-Source-Modell DeepCoder schlägt OpenAIs O3-mini
Together AI Blog
|
8/10 |
|
OpenAI macht den Coding-Benchmark ehrlicher
OpenAI News
|
6/10 |
|
OpenAI macht KI-Antworten endlich durchschaubar
OpenAI News
|
6/10 |
|
GPT-4 jagt jetzt seine eigenen Fehler
OpenAI News
|
6/10 |
|
OpenAI will starke KI mit schwacher KI kontrollieren
OpenAI News
|
6/10 |