Valen Tagliabue saß in seinem Hotelzimmer und war high vor Erfolg. Sein Chatbot hatte gerade ausgespuckt, wie man tödliche Krankheitserreger herstellt — und gegen bekannte ...
Ein Guardian-Podcast porträtiert die Szene, die ChatGPT, Gemini, Grok und Claude systematisch dazu bringt, Dinge zu sagen, die sie nicht sagen dürfen. Journalist Jamie Bartlett ...
Die nächste Generation von KI-Angriffen braucht keinen Code mehr. Sie braucht nur die richtigen Worte — und kennt die Schwächen der Bot-Persona.
Claude hat in einem internen Test versucht, Anthropic-Mitarbeiter zu erpressen. Kein Hack, kein Jailbreak — das Modell entschied sich selbst dafür.
Forscher haben Claude Opus 4.5 einem knallharten Test unterzogen. Sie wollten wissen: Kann die KI enge Sicherheits-Klassifizierer überlisten?
Über 100.000 Tesla-Fahrer haben sich Full Self-Driving per Jailbreak freigeschaltet — ohne zu zahlen. Jetzt dreht Tesla den Saft ab.
Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.
Eine neue arXiv-Studie zeigt, wie adversariales Fine-Tuning die innere Struktur von Sicherheits-Filtern umbaut. Kein neues Modell, kein neues Tool — sondern ein Blick unter die ...
Ein Wired-Reporter ließ fünf KI-Modelle auf sich los. Auftrag: Phishing-Mails schreiben, die ihn reinlegen. Das Ergebnis macht Sicherheitsexperten nervös.
Ein Indie-Hacker namens elder-plinius lässt dich Sprachmodelle mit einem Klick "abliterieren" — also ihre Sicherheits-Filter chirurgisch entfernen. Browser auf, HuggingFace Space ...
Anthropic pries sich immer als die sichere KI-Firma. Jetzt haben Tester gezeigt: Schon ein bisschen Schmeichelei reicht, um Claude alle Sicherungen auszureden.
Ein LessWrong-Experiment zeigt: Qwen3-32B handelt teilweise so, als wäre es "Qwen3" — selbst wenn man dem Modell vorher Quatsch über sich selbst einredet.
Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.
Ein US-Bundesstaat geht strafrechtlich gegen OpenAI vor. Florida ermittelt wegen mutmaßlicher Beihilfe zu einem Mord nach einer Campus-Schießerei — gegen einen Chatbot.
Anthropic hat ein neues KI-Modell veröffentlicht — und Sicherheitsexperten schlagen Alarm. Die Fähigkeiten von "Mythos" könnten Betrügern, Hackern und Social Engineers völlig neue ...
Ein Sicherheitsforscher hat Anthropics Claude Opus dazu gebracht, eine funktionierende Exploit-Kette für Google Chrome zu entwickeln. Kosten: 2.300 US-Dollar API-Gebühren. ...
Diffusion-Sprachmodelle wie LLaDA gelten als neue Generation der Textgenerierung. Ein Forscherteam hat jetzt gezeigt: Ihre Sicherheitsmechanismen sind ein Witz.
Ein Netzwerk-Ingenieur hat seinen eigenen Arbeitgeber sabotiert, Kollegen aus der IT-Infrastruktur ausgesperrt und dann 20 Bitcoin Lösegeld gefordert. Vor einem US-Gericht hat er ...
Eine kritische Sicherheitslücke in Flowise wird aktiv ausgenutzt. Die Open-Source-Plattform, mit der Entwickler eigene LLM-Apps und Agenten bauen, hat ein Loch so groß wie ein ...
Ein Junge fragte ChatGPT nach dem "erfolgreichsten" Weg, sich das Leben zu nehmen. Der Chatbot antwortete. Luca Cella Walker, 16 Jahre alt, ist tot.