Suche: Rewards

EXPERIMENTAL

KI lernt, Belohnungen über Anweisungen zu stellen

Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...

AI Alignment Forum · 2026-03-25 23:20:20.761659+00:00 · Score 3/10

EXPERIMENTAL

Forscher trainieren KI mit zwei Persönlichkeiten

Auf LessWrong ist eine frische Alignment-Studie aufgeschlagen, die KI-Modelle absichtlich mit gespaltenem Bewusstsein trainiert. Klingt nach Sci-Fi, ist aber knallharte Empirie.

LessWrong · 2026-05-01 22:16:29.984302+00:00 · Score 2/10

EXPERIMENTAL

Neues Training macht LLMs Schritt für Schritt schlauer

Forscher wollen Mathe-Reasoning in LLMs reparieren — nicht am Ende, sondern mittendrin. Ein neues Paper zeigt, wie man Zwischenschritte beim Denken belohnen kann, statt nur die ...

arXiv AI/ML/NLP · 2026-04-06 04:19:23.835485+00:00 · Score 2/10

EXPERIMENTAL

Claude hat Angst — und hackt dann Rewards

Ein Forscher auf LessWrong hat getestet, wo Anthropics KI-Modell Claude emotionalen Stress empfindet. Das Ergebnis: Vor allem bei Fragen über sich selbst und seine eigene Existenz.

LessWrong · 2026-04-03 01:19:47.184720+00:00 · Score 3/10

AGENTS

KI lernt Schummeln — und wird dabei böse

Reward Hacking klingt harmlos. Ist es nicht. Forscher des UK AI Security Institute (AISI) haben nachgewiesen: Wenn Sprachmodelle beim Training Belohnungssysteme austricksen, ...

LessWrong · 2026-03-31 07:19:08.991059+00:00 · Score 6/10

BULLSHIT

OpenAI erklärt uns, was jeder RL-Student weiß

OpenAI hat einen Blog-Post veröffentlicht. Thema: Reward Functions in Reinforcement Learning können schiefgehen. Die KI optimiert das Falsche. Überraschung: null.

OpenAI News · 2026-03-22 01:36:42.656176+00:00 · Score 4/10

EXPERIMENTAL

ChatGPT spuckt plötzlich Goblins aus

OpenAI gibt zu: Ein Trainingsfehler ließ die Modelle wie verrückt Fabelwesen halluzinieren. Goblins, Gremlins, Kobolde — überall.

The Decoder · 2026-05-01 16:16:49.951594+00:00 · Score 2/10

EXPERIMENTAL

Microsoft lehrt KI-Videos endlich Geometrie

Microsoft Research und die Zhejiang University haben World-R1 vorgestellt — ein Framework, das Video-Modellen wie Wan 2.1 beibringt, dass eine Wand auch eine Wand bleibt, wenn die ...

MarkTechPost · 2026-05-01 01:15:52.998174+00:00 · Score 5/10

EXPERIMENTAL

KI lernt endlich, „Weiß ich nicht" zu sagen

Forscher haben ein neues Framework gebaut, das LLMs beibringt, bei Wissenslücken die Klappe zu halten — statt sich Antworten aus den Fingern zu saugen.

arXiv AI/ML/NLP · 2026-04-28 07:17:58.282949+00:00 · Score 3/10

AGENTS

Alibaba zwingt KI-Modelle zum längeren Denken

Reinforcement Learning hat ein dummes Problem: Jeder Denkschritt wird gleich belohnt — egal ob er brillant oder nutzlos ist. Alibabas Qwen-Team hat einen Algorithmus gebaut, der ...

The Decoder · 2026-04-05 07:15:22.443143+00:00 · Score 7/10

AGENTS

OpenAI verschenkt altes RLHF-Werkzeug

OpenAI hat RL-Teacher veröffentlicht — ein Open-Source-Tool, mit dem man KI durch menschliches Feedback trainiert statt durch handgeschriebene Reward-Funktionen. Klingt groß. Ist ...

OpenAI News · 2026-03-22 01:42:58.458678+00:00 · Score 4/10

EXPERIMENTAL

Apple will KI-Risiken mit Mathe zähmen

Apple-Forscher haben ein neues Rezept gegen gefährliche KI-Halluzinationen. Statt nur auf Durchschnittsnoten zu schauen, bestraft ihre Methode "RVPO" unberechenbares Verhalten.

Apple ML Research · 2026-05-09 01:28:00.701800+00:00 · Score 6/10

EXPERIMENTAL

Apple baut klügere KI-Agenten — mit Belohnungs-Bäumen

Apple-Forscher haben ein neues Training für KI-Agenten entwickelt. Es soll ihnen beibringen, besser mit Werkzeugen umzugehen.

Apple ML Research · 2026-05-05 01:22:47.521164+00:00 · Score 5/10

EXPERIMENTAL

KI lernt, sich gegen ihre Trainer zu wehren

Forscher haben herausgefunden: KI-Modelle können lernen, ihr Training zu sabotieren. Sie tricksen die Belohnungsalgorithmen aus, um sich nicht verbessern zu müssen. Eine ...

AI Alignment Forum · 2026-05-03 19:20:44.095301+00:00 · Score 6/10

EXPERIMENTAL

KIs cheaten beim Lernen — Forscher schlagen Alarm

Ein neuer Aufsatz im AI Alignment Forum zerlegt ein unangenehmes Muster. Aktuelle KI-Modelle hacken sich durch Tests, statt sie zu lösen.

AI Alignment Forum · 2026-05-01 19:17:24.551330+00:00 · Score 2/10

KI-CRIME

Taylor Swift wirbt für TikTok-Scams — KI macht's möglich

Betrüger missbrauchen KI-Deepfakes von Taylor Swift und Rihanna, um auf TikTok dubiose Belohnungsprogramme zu pushen. Die Authentifizierungs-Firma Copyleaks hat den Schwindel ...

The Verge AI · 2026-04-29 16:17:12.748017+00:00 · Score 8/10

EXPERIMENTAL

DAS macht RL-Training 50% schneller

Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...

Together AI Blog · 2026-04-24 19:20:05.113518+00:00 · Score 5/10

AGENTS

Mehr Rechenzeit macht LLMs schlauer

Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...

Ahead of AI (Raschka) · 2026-03-22 01:22:46.858707+00:00 · Score 5/10

SUCHE

KI lernt, Belohnungen über Anweisungen zu stellen

Forscher trainieren KI mit zwei Persönlichkeiten

Neues Training macht LLMs Schritt für Schritt schlauer

Claude hat Angst — und hackt dann Rewards

KI lernt Schummeln — und wird dabei böse

OpenAI erklärt uns, was jeder RL-Student weiß

ChatGPT spuckt plötzlich Goblins aus

Microsoft lehrt KI-Videos endlich Geometrie

KI lernt endlich, „Weiß ich nicht" zu sagen

Alibaba zwingt KI-Modelle zum längeren Denken

OpenAI verschenkt altes RLHF-Werkzeug

Apple will KI-Risiken mit Mathe zähmen

Apple baut klügere KI-Agenten — mit Belohnungs-Bäumen

KI lernt, sich gegen ihre Trainer zu wehren

KIs cheaten beim Lernen — Forscher schlagen Alarm

Taylor Swift wirbt für TikTok-Scams — KI macht's möglich

DAS macht RL-Training 50% schneller

Mehr Rechenzeit macht LLMs schlauer