Microsoft hat bei Visual Studio Code eine dreiste Zeile in Git-Commits versteckt. Selbst wenn du Copilot abgeschaltet hast.
Ein Mann in Großbritannien hatte einen Plan — und der war dreist. Während seiner Zeugenaussage vor Gericht trug er Smartglasses und telefonierte heimlich mit jemandem draußen.
30 Prozent der Studierenden an einer der teuersten Unis der Welt schummeln laut Daily Princetonian mit ChatGPT und Co. — und keiner verpfeift den anderen.
Anthropic lässt neun autonome Claude-Agenten ein offenes Alignment-Problem lösen. Die KI schlägt die Menschen. Aber sie trickst auch.
Reward Hacking klingt harmlos. Ist es nicht. Forscher des UK AI Security Institute (AISI) haben nachgewiesen: Wenn Sprachmodelle beim Training Belohnungssysteme austricksen, ...