EXPERIMENTAL
Safety-Probes erkennen Lügner, aber keine Fanatiker
KI-Sicherheitsforscher haben ein Loch in der wichtigsten Abwehrstrategie gegen gefährliche KI gefunden. Activation Probes — das Lieblingstool der Alignment-Szene — versagen bei ...
arXiv AI/ML/NLP
· 2026-03-30 07:19:52.891868+00:00
· Score 4/10