SUCHE

1 Ergebnis fuer «Safety-Probes»

Safety-Probes erkennen Lügner, aber keine Fanatiker

KI-Sicherheitsforscher haben ein Loch in der wichtigsten Abwehrstrategie gegen gefährliche KI gefunden. Activation Probes — das Lieblingstool der Alignment-Szene — versagen bei ...

arXiv AI/ML/NLP · 2026-03-30 07:19:52.891868+00:00 · Score 4/10

📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.