Anthropics Coding-Agent hat ein peinliches Problem: Wer genug Subcommands aneinanderreiht, hebelt die eingebauten Schutzregeln komplett aus.
Forscher haben einen Vision-Monitor gebaut, der aus Bildern erkennt, ob Sicherheitsregeln gebrochen werden. Einmal trainiert, prüft er beliebige Regeln — ohne Nachschulung.
Google DeepMind hat sein Frontier Safety Framework überarbeitet. Neue Version, härtere Protokolle — und das Wort AGI steht jetzt offiziell im Dokument.
Simon Willison hat ein Experiment durchgeführt. Er zeigt, wie man eine App in einer sicheren Sandbox lädt und Nutzer selbst entscheiden können, welche Domains sie zulassen.
Anthropic pries sich immer als die sichere KI-Firma. Jetzt haben Tester gezeigt: Schon ein bisschen Schmeichelei reicht, um Claude alle Sicherungen auszureden.
Valen Tagliabue saß in seinem Hotelzimmer und war high vor Erfolg. Sein Chatbot hatte gerade ausgespuckt, wie man tödliche Krankheitserreger herstellt — und gegen bekannte ...
Die Ransomware-Gruppe Interlock hat eine kritische Schwachstelle in Ciscos Firepower Management Center ausgenutzt — mit dem höchstmöglichen Schweregrad: CVSS 10.0. 36 Tage lang ...
Anthropic hat Claude Opus 4.7 veröffentlicht. Das neue Flaggschiff-Modell verspricht bessere Ergebnisse, schärfere Bildverarbeitung und zuverlässigere Task-Ausführung — aber der ...
Das EU-Parlament hat abgestimmt: Nudify-Apps sollen verboten werden. Gleichzeitig bekommen Unternehmen drei Jahre mehr Zeit für die schärfsten KI-Regeln.