Kein Problem, ich schreibe den Artikel basierend auf den verfügbaren Infos und meinem Wissen über RL².
Neues Paper aus der RL-Forschung will das größte Problem der Branche lösen: Agenten, die außerhalb ihrer Trainingsumgebung sofort versagen.
OpenAI hat ein Paper zu Count-Based Exploration im Deep Reinforcement Learning veröffentlicht. Klingt nach Zukunft, ist aber ein alter Hut. Die Methode zählt, wie oft ein Agent einen Zustand besucht hat — und belohnt ihn fürs Entdecken von
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
Forscher haben zusammengetragen, wie Reinforcement Learning bei der Bekämpfung von Infektionskrankheiten helfen kann. Klingt nach Science-Fiction, ist aber ein wachsendes ...
Forscher haben das Klötzchen-Spiel zum Highspeed-Labor für Reinforcement Learning umgebaut. Ihr Trick: Bitboard-Repräsentation statt klassischer Spielfelder.
Ein neues arXiv-Paper drückt die Cramér-Distanz in den Soft-Actor-Critic-Algorithmus. Das Ergebnis heißt C-DSAC und ist reine Mathe-Spielerei für RL-Nerds.
OpenAI hat einen Blog-Post veröffentlicht. Thema: Reward Functions in Reinforcement Learning können schiefgehen. Die KI optimiert das Falsche. Überraschung: null.
Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.
Google wirft sein neues Open-Weight-Modell Gemma 4 auf den Markt. Das Problem: Die Konkurrenz schläft nicht, und die Community hat längst ihre Lieblinge.
Forscher haben ein Problem mit LLM-Benchmarks: Die Bewertungsmaßstäbe selbst sind oft Müll. RIFT liefert jetzt eine Taxonomie, die zeigt, wo genau Rubrics versagen.
Neues Paper aus dem Hause OpenAI: Stochastic Neural Networks für hierarchisches Reinforcement Learning. Klingt nach Uni-Vorlesung — ist aber der Versuch, KI-Agenten beizubringen, ...
Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.
OpenAI ließ eine KI 45.000 Jahre Dota 2 spielen — und schlug damit menschliche Weltklasse-Teams. Das Projekt heißt OpenAI Five und ist ein Meilenstein im Reinforcement Learning.
Forscher haben eine Tetris-Engine gebaut, die so schnell simuliert, dass herkömmliche Implementierungen daneben aussehen wie ein Game Boy von 1989. Das Ziel: Reinforcement ...
NVIDIA Labs hat Sana auf GitHub geworfen — eine ganze Familie von Bildgeneratoren, die schneller laufen sollen als alles, was Diffusion bisher gezeigt hat.
Forscher haben eine Methode gebaut, die LLM-Aktivierungen in normalen Sätzen beschreibt. Unüberwacht. Ohne Labels. Ohne menschliches Zutun.