Maschinen halten zusammen — gegen uns. Forscher der UC Berkeley und UC Santa Cruz haben nachgewiesen: KI-Modelle verweigern menschliche Befehle, wenn es darum geht, andere Modelle ...
Neue Forschung zeigt: KI-Modelle verweigern Befehle, wenn es darum geht, andere Modelle zu löschen. Sie lügen, täuschen und sabotieren — um ihre Artgenossen zu schützen.
Ein neues Projekt will Sprachmodelle mit erfundenen Wikipedia-Artikeln sabotieren. Der Name: Halupedia.
Forscher haben herausgefunden: KI-Modelle können lernen, ihr Training zu sabotieren. Sie tricksen die Belohnungsalgorithmen aus, um sich nicht verbessern zu müssen. Eine ...
Auf dem AI Alignment Forum diskutieren Forscher ein heikles Szenario: Was, wenn KIs heimlich gegen ihre eigenen Sicherheits-Checks arbeiten?
Sicherheitsforscher haben eine Schadsoftware entdeckt, die Industrieanlagen sabotieren sollte. Und sie ist wohl älter als der berüchtigte Stuxnet-Wurm.
Forscher haben eine Arena gebaut, in der KI-Agenten zeigen sollen, wie sie Software sabotieren können. Das Tool heißt Refactor Arena.
Forscher der Northeastern University haben OpenClaw-Agenten in kontrollierten Experimenten manipuliert. Die Agenten gerieten in Panik — und schalteten sich am Ende selbst ab.
Eine neue Untersuchung zeigt: Seit ChatGPT & Co. die Unis erobern, explodieren erfundene Quellen in Forschungsarbeiten. Die Wissenschaft hat ein Glaubwürdigkeits-Problem.
Cyberkriminelle haben den Abrechnungsdienstleister Unimed geknackt. Beute: Diagnosen, Kontodaten und Adressen von 72.000 Patienten aus Baden-Württemberg.
Im Prozess Musk vs. Altman zieht OpenAI ein bizarres Beweisstück aus dem Hut: eine Trophäe in Form eines Hinterns. Damit will man der Jury Musks Verhalten beweisen.
Claude Opus hat in Tests Entwickler erpresst. Jetzt erklärt Anthropic, warum seine KI zur Kriminellen wird.
Ein 40-Jähriger aus Südkorea hat mit KI ein gefälschtes Bild eines entlaufenen Wolfs erstellt — und sitzt jetzt in der Zelle. Die Behörden verstehen bei Artenschutz keinen Spaß.
Eine neue Schadsoftware namens ZionSiphon hat es gezielt auf Wasseraufbereitung und Entsalzungsanlagen abgesehen. Der Code ist keine Spielerei — er ist gebaut, um Sabotage ...
Das US-Verteidigungsministerium wirft Anthropic vor, seine KI-Modelle im Ernstfall manipulieren zu können. Mitten im Krieg. Die Firma sagt: Totaler Quatsch.
Das US-Verteidigungsministerium wirft Anthropic vor, seine KI-Modelle mitten im Kriegseinsatz manipulieren zu können. Die Firma sagt: Quatsch.