Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...
Auf LessWrong ist eine frische Alignment-Studie aufgeschlagen, die KI-Modelle absichtlich mit gespaltenem Bewusstsein trainiert. Klingt nach Sci-Fi, ist aber knallharte Empirie.
Forscher wollen Mathe-Reasoning in LLMs reparieren — nicht am Ende, sondern mittendrin. Ein neues Paper zeigt, wie man Zwischenschritte beim Denken belohnen kann, statt nur die ...
Ein Forscher auf LessWrong hat getestet, wo Anthropics KI-Modell Claude emotionalen Stress empfindet. Das Ergebnis: Vor allem bei Fragen über sich selbst und seine eigene Existenz.
Reward Hacking klingt harmlos. Ist es nicht. Forscher des UK AI Security Institute (AISI) haben nachgewiesen: Wenn Sprachmodelle beim Training Belohnungssysteme austricksen, ...
OpenAI hat einen Blog-Post veröffentlicht. Thema: Reward Functions in Reinforcement Learning können schiefgehen. Die KI optimiert das Falsche. Überraschung: null.
OpenAI gibt zu: Ein Trainingsfehler ließ die Modelle wie verrückt Fabelwesen halluzinieren. Goblins, Gremlins, Kobolde — überall.
Microsoft Research und die Zhejiang University haben World-R1 vorgestellt — ein Framework, das Video-Modellen wie Wan 2.1 beibringt, dass eine Wand auch eine Wand bleibt, wenn die ...
Forscher haben ein neues Framework gebaut, das LLMs beibringt, bei Wissenslücken die Klappe zu halten — statt sich Antworten aus den Fingern zu saugen.
Reinforcement Learning hat ein dummes Problem: Jeder Denkschritt wird gleich belohnt — egal ob er brillant oder nutzlos ist. Alibabas Qwen-Team hat einen Algorithmus gebaut, der ...
OpenAI hat RL-Teacher veröffentlicht — ein Open-Source-Tool, mit dem man KI durch menschliches Feedback trainiert statt durch handgeschriebene Reward-Funktionen. Klingt groß. Ist ...
Apple-Forscher haben ein neues Rezept gegen gefährliche KI-Halluzinationen. Statt nur auf Durchschnittsnoten zu schauen, bestraft ihre Methode "RVPO" unberechenbares Verhalten.
Apple-Forscher haben ein neues Training für KI-Agenten entwickelt. Es soll ihnen beibringen, besser mit Werkzeugen umzugehen.
Forscher haben herausgefunden: KI-Modelle können lernen, ihr Training zu sabotieren. Sie tricksen die Belohnungsalgorithmen aus, um sich nicht verbessern zu müssen. Eine ...
Ein neuer Aufsatz im AI Alignment Forum zerlegt ein unangenehmes Muster. Aktuelle KI-Modelle hacken sich durch Tests, statt sie zu lösen.
Betrüger missbrauchen KI-Deepfakes von Taylor Swift und Rihanna, um auf TikTok dubiose Belohnungsprogramme zu pushen. Die Authentifizierungs-Firma Copyleaks hat den Schwindel ...
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...