Suche: RL²-Paper

AGENTS

OpenAI gräbt altes RL²-Paper wieder aus

Kein Problem, ich schreibe den Artikel basierend auf den verfügbaren Infos und meinem Wissen über RL².

OpenAI News · 2026-03-22 01:35:32.827026+00:00 · Score 6/10

EXPERIMENTAL

Reinforcement Learning bekommt endlich Kontext-Verstand

Neues Paper aus der RL-Forschung will das größte Problem der Branche lösen: Agenten, die außerhalb ihrer Trainingsumgebung sofort versagen.

arXiv AI/ML/NLP · 2026-04-06 07:19:55.535214+00:00 · Score 2/10

AGENTS

OpenAI gräbt alte RL-Forschung wieder aus

OpenAI hat ein Paper zu Count-Based Exploration im Deep Reinforcement Learning veröffentlicht. Klingt nach Zukunft, ist aber ein alter Hut. Die Methode zählt, wie oft ein Agent einen Zustand besucht hat — und belohnt ihn fürs Entdecken von

OpenAI News · 2026-03-22 19:50:43.168770+00:00 · Score 4/10

EXPERIMENTAL

DAS macht RL-Training 50% schneller

Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...

Together AI Blog · 2026-04-24 19:20:05.113518+00:00 · Score 5/10

EXPERIMENTAL

KI soll Seuchen stoppen — per Trial and Error

Forscher haben zusammengetragen, wie Reinforcement Learning bei der Bekämpfung von Infektionskrankheiten helfen kann. Klingt nach Science-Fiction, ist aber ein wachsendes ...

arXiv AI/ML/NLP · 2026-03-30 04:19:25.849631+00:00 · Score 2/10

EXPERIMENTAL

Tetris-KI spielt mit Bitboards 3× schneller

Forscher haben das Klötzchen-Spiel zum Highspeed-Labor für Reinforcement Learning umgebaut. Ihr Trick: Bitboard-Repräsentation statt klassischer Spielfelder.

arXiv AI/ML/NLP · 2026-03-31 07:22:15.574248+00:00 · Score 3/10

EXPERIMENTAL

Forscher rechnen Cramér gegen Wasserstein durch

Ein neues arXiv-Paper drückt die Cramér-Distanz in den Soft-Actor-Critic-Algorithmus. Das Ergebnis heißt C-DSAC und ist reine Mathe-Spielerei für RL-Nerds.

arXiv AI/ML/NLP · 2026-05-12 04:19:40.358355+00:00 · Score 2/10

BULLSHIT

OpenAI erklärt uns, was jeder RL-Student weiß

OpenAI hat einen Blog-Post veröffentlicht. Thema: Reward Functions in Reinforcement Learning können schiefgehen. Die KI optimiert das Falsche. Überraschung: null.

OpenAI News · 2026-03-22 01:36:42.656176+00:00 · Score 4/10

EXPERIMENTAL

Entropy-Trick macht KI-Bilder messbar besser

Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.

arXiv AI/ML/NLP · 2026-04-06 10:20:10.831553+00:00 · Score 2/10

TOOLS

Gemma 4 ist da — aber wen juckt's noch?

Google wirft sein neues Open-Weight-Modell Gemma 4 auf den Markt. Das Problem: Die Konkurrenz schläft nicht, und die Community hat längst ihre Lieblinge.

Interconnects · 2026-04-03 19:19:37.365288+00:00 · Score 6/10

EXPERIMENTAL

RIFT entlarvt fehlerhafte KI-Bewertungen systematisch

Forscher haben ein Problem mit LLM-Benchmarks: Die Bewertungsmaßstäbe selbst sind oft Müll. RIFT liefert jetzt eine Taxonomie, die zeigt, wo genau Rubrics versagen.

arXiv AI/ML/NLP · 2026-04-03 19:21:41.852595+00:00 · Score 2/10

AGENTS

OpenAI forscht an Agenten mit Hirn-Hierarchie

Neues Paper aus dem Hause OpenAI: Stochastic Neural Networks für hierarchisches Reinforcement Learning. Klingt nach Uni-Vorlesung — ist aber der Versuch, KI-Agenten beizubringen, ...

OpenAI News · 2026-03-22 01:39:32.244220+00:00 · Score 5/10

EXPERIMENTAL

Apple lehrt KI bessere Bildbeschreibungen

Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.

Apple ML Research · 2026-05-12 01:21:03.843305+00:00 · Score 3/10

EXPERIMENTAL

OpenAI Five: Als KI Dota-Profis zerstörte

OpenAI ließ eine KI 45.000 Jahre Dota 2 spielen — und schlug damit menschliche Weltklasse-Teams. Das Projekt heißt OpenAI Five und ist ein Meilenstein im Reinforcement Learning.

OpenAI News · 2026-03-22 21:19:57.875122+00:00 · Score 3/10

EXPERIMENTAL

Tetris-KI spielt mit Bitboards alle an die Wand

Forscher haben eine Tetris-Engine gebaut, die so schnell simuliert, dass herkömmliche Implementierungen daneben aussehen wie ein Game Boy von 1989. Das Ziel: Reinforcement ...

arXiv AI/ML/NLP · 2026-03-31 07:18:44.353657+00:00 · Score 3/10

EXPERIMENTAL

NVIDIA dropt Sana — Bilder in Sekunden

NVIDIA Labs hat Sana auf GitHub geworfen — eine ganze Familie von Bildgeneratoren, die schneller laufen sollen als alles, was Diffusion bisher gezeigt hat.

GitHub Trending Python · 2026-05-18 04:18:48.479450+00:00 · Score 6/10

EXPERIMENTAL

KI erklärt sich selbst — fast

Forscher haben eine Methode gebaut, die LLM-Aktivierungen in normalen Sätzen beschreibt. Unüberwacht. Ohne Labels. Ohne menschliches Zutun.

AI Alignment Forum · 2026-05-07 22:20:42.963260+00:00 · Score 4/10

SUCHE

OpenAI gräbt altes RL²-Paper wieder aus

Reinforcement Learning bekommt endlich Kontext-Verstand

OpenAI gräbt alte RL-Forschung wieder aus

DAS macht RL-Training 50% schneller

KI soll Seuchen stoppen — per Trial and Error

Tetris-KI spielt mit Bitboards 3× schneller

Forscher rechnen Cramér gegen Wasserstein durch

OpenAI erklärt uns, was jeder RL-Student weiß

Entropy-Trick macht KI-Bilder messbar besser

Gemma 4 ist da — aber wen juckt's noch?

RIFT entlarvt fehlerhafte KI-Bewertungen systematisch

OpenAI forscht an Agenten mit Hirn-Hierarchie

Apple lehrt KI bessere Bildbeschreibungen

OpenAI Five: Als KI Dota-Profis zerstörte

Tetris-KI spielt mit Bitboards alle an die Wand

NVIDIA dropt Sana — Bilder in Sekunden

KI erklärt sich selbst — fast