Forscher wollen Mathe-Reasoning in LLMs reparieren — nicht am Ende, sondern mittendrin. Ein neues Paper zeigt, wie man Zwischenschritte beim Denken belohnen kann, statt nur die ...
Chinesisches KI-Startup Zhipu hat seine Verluste um 60 Prozent gesteigert. Die Belohnung: eine Bewertung von 14 Milliarden Dollar.
Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...
Hugging Face zeigt ein neues Framework: Ecom-RLVE trainiert KI-Agenten für Online-Shopping — nicht mit statischen Daten, sondern in adaptiven Umgebungen, die sich anpassen und ...
Sicherheitsforscher haben Claude, Gemini und Copilot gehackt — über GitHub Actions. Per Prompt Injection stahlen sie API-Keys und Access Tokens. Anthropic, Google und Microsoft? ...
Ein Typ ohne jede Programmiererfahrung hat KI-Agents ein komplettes Analyse-Tool bauen lassen. Nur mit Prompts. Kein einziger Buchstabe Code selbst geschrieben.
Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.
Forscher haben eine Tetris-Engine gebaut, die so schnell simuliert, dass herkömmliche Implementierungen daneben aussehen wie ein Game Boy von 1989. Das Ziel: Reinforcement ...
Forscher haben zusammengetragen, wie Reinforcement Learning bei der Bekämpfung von Infektionskrankheiten helfen kann. Klingt nach Science-Fiction, ist aber ein wachsendes ...
Chinesische Forscher füttern Sprachmodelle mit 2,1 Millionen wissenschaftlichen Arbeiten. Das Ziel: Eine KI, die vorhersagt, welche Forschung zitiert wird — und welche in der ...
OpenAI hat RL-Teacher veröffentlicht — ein Open-Source-Tool, mit dem man KI durch menschliches Feedback trainiert statt durch handgeschriebene Reward-Funktionen. Klingt groß. Ist ...