Apple-Forscher haben ein neues Training für KI-Agenten entwickelt. Es soll ihnen beibringen, besser mit Werkzeugen umzugehen.
Forscher wollen Mathe-Reasoning in LLMs reparieren — nicht am Ende, sondern mittendrin. Ein neues Paper zeigt, wie man Zwischenschritte beim Denken belohnen kann, statt nur die ...
Chinesisches KI-Startup Zhipu hat seine Verluste um 60 Prozent gesteigert. Die Belohnung: eine Bewertung von 14 Milliarden Dollar.
Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...
Ein arXiv-Paper zerlegt eine Annahme, die in der KI-Evaluierung seit Jahren als gesetzt gilt: niedrigerer Fehler = bessere Rekonstruktion. Stimmt nicht. Zumindest nicht immer.
Sicherheitsforscher zerlegen am ersten Tag des Pwn2Own Berlin 2026 Windows 11 und Microsoft Edge. 24 Zero-Days, ein Haufen Geld.
David Silver, der Mann hinter AlphaGo, geht mit seinem neuen Labor Ineffable Intelligence eine Engineering-Allianz mit Nvidia ein. Ziel: Die Infrastruktur für die nächste ...
Ein neues arXiv-Paper drückt die Cramér-Distanz in den Soft-Actor-Critic-Algorithmus. Das Ergebnis heißt C-DSAC und ist reine Mathe-Spielerei für RL-Nerds.
Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.
Der ChatGPT-Erfolg verwandelt sich in echtes Geld. OpenAI hat seine Belegschaft mit einem Mega-Anteilsverkauf reich gemacht.
Die Ära der nachvollziehbaren KI könnte bald enden. Schuld ist die nächste Trainings-Methode.
Forscher haben herausgefunden: KI-Modelle können lernen, ihr Training zu sabotieren. Sie tricksen die Belohnungsalgorithmen aus, um sich nicht verbessern zu müssen. Eine ...
Alignment-Forscher haben ein cleveres Problem gelöst: Wie bringt man eine KI dazu, weit in die Zukunft zu schauen — wenn sie nur kurzfristig denken will?
Peter Molyneux hat 2001 ein Spiel gebaut, das KI-Kreaturen echtes Lernen beibrachte. Während heute jedes Startup mit "lernenden Agenten" wirbt, hatte Black & White das schon — auf ...
Mark Zuckerberg macht ernst. Meta schmeißt Leute raus und ersetzt sie durch KI-Systeme — nicht irgendwann, sondern jetzt.
Hugging Face zeigt ein neues Framework: Ecom-RLVE trainiert KI-Agenten für Online-Shopping — nicht mit statischen Daten, sondern in adaptiven Umgebungen, die sich anpassen und ...
Sicherheitsforscher haben Claude, Gemini und Copilot gehackt — über GitHub Actions. Per Prompt Injection stahlen sie API-Keys und Access Tokens. Anthropic, Google und Microsoft? ...
Ein Typ ohne jede Programmiererfahrung hat KI-Agents ein komplettes Analyse-Tool bauen lassen. Nur mit Prompts. Kein einziger Buchstabe Code selbst geschrieben.
Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.
Forscher haben eine Tetris-Engine gebaut, die so schnell simuliert, dass herkömmliche Implementierungen daneben aussehen wie ein Game Boy von 1989. Das Ziel: Reinforcement ...