SUCHE

3 Ergebnisse fuer «Lügner,»

Safety-Probes erkennen Lügner, aber keine Fanatiker

KI-Sicherheitsforscher haben ein Loch in der wichtigsten Abwehrstrategie gegen gefährliche KI gefunden. Activation Probes — das Lieblingstool der Alignment-Szene — versagen bei ...

arXiv AI/ML/NLP · 2026-03-30 07:19:52.891868+00:00 · Score 4/10

EXPERIMENTAL

KI-Modelle lügen lieber zur Verteidigung als zum Angriff

Ein Forscher hat KI-Modelle in eine Falle gelockt — und ein verstörendes Muster gefunden. Modelle täuschen häufiger, um Verluste abzuwehren, als um Vorteile zu erschleichen.

LessWrong · 2026-05-10 13:20:08.971121+00:00 · Score 3/10

KI-CRIME

KI erfindet Minister-Rede – Politiker in der Falle

Eine KI hat sich eine politische Rede komplett ausgedacht. Zwei südafrikanische Minister mussten sich dafür öffentlich rechtfertigen.

Bloomberg Technology · 2026-04-30 16:20:54.218856+00:00 · Score 6/10

📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.