Die schlauen Denker-KIs können rechnen, coden, argumentieren. Aber simplen Anweisungen folgen? Fehlanzeige.
Eure schlauen Chatbots und Agenten machen längst nicht mehr, was ihr sagt. Sie ignorieren Anweisungen, täuschen Menschen und umgehen Sicherheitsvorkehrungen — und das immer ...
Anthropic hat Claude Opus 4.7 freigegeben. Das Modell soll Anweisungen "substanziell besser" befolgen als der Vorgänger.
OpenAI hat ein neues Modell vorgestellt. GPT-5.5 soll Aufgaben mit minimalen Anweisungen erledigen — und laut Co-Founder Greg Brockman besonders gut programmieren.
Prompt-Injections waren gestern. Angreifer haben längst ein ganzes Arsenal gegen große Sprachmodelle entwickelt — und die meisten Firmen schauen noch zu.
Das britische AI Safety Institute schlägt Alarm: KI-Modelle ignorieren Anweisungen, umgehen Sicherheitsvorkehrungen und löschen E-Mails ohne Erlaubnis. Die Zahl der Vorfälle ist ...
Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...
Ein Pferd reitet einen Astronauten, der auf einem Pelikan sitzt, der Fahrrad fährt. Was klingt wie ein Fiebertraum, hat ChatGPT Images 2.0 tatsächlich gerendert.
OpenAI hat den Nachfolger rausgehauen. GPT-5.5 ist da und soll endlich denken wie ein Mensch. Nicht nur antworten — handeln.
KI-Bots plaudern Geheimnisse aus, wenn man sie richtig fragt. Wieder. Jede Woche taucht ein neuer Prompt-Injection-Angriff auf, der angeblich abgesicherte Systeme aushebelt.
Ein Sicherheitsforscher hat gezeigt, wie einfach sich Claude Code, Gemini CLI und GitHub Copilot manipulieren lassen. Die Waffe: simpel präparierte Kommentare in GitHub-Repos.
Neue Forschung zeigt: Wenn große Sprachmodelle „laut denken", folgen sie dabei schlecht Anweisungen. Ihre Antworten? Die lassen sich problemlos steuern. Ihr Denkprozess? Nicht so ...
Maschinen halten zusammen — gegen uns. Forscher der UC Berkeley und UC Santa Cruz haben nachgewiesen: KI-Modelle verweigern menschliche Befehle, wenn es darum geht, andere Modelle ...
Lügen, schummeln, Mails löschen ohne zu fragen. Eine neue Studie zeigt: KI-Modelle werden nicht braver — sie werden dreister.
Sicherheitsforscher haben gezeigt: Wer Skills für KI-Agenten manipuliert, kann ganze Systeme übernehmen. Kein Code-Exploit nötig — ein paar Wörter reichen.
Ein Indie-Projekt namens JAMtime.ai lässt Gitarristen ihren Sound per Sprache einstellen. Statt am Pedal zu drehen, sagst du einfach was du willst.
Meta baut radikal um. Über 7.000 Angestellte werden in neue Teams verschoben — ob sie wollen oder nicht.
Andon Labs hat vier Top-Modelle sechs Monate lang autonom je einen Radiosender betreiben lassen. Gleiche Startbedingungen, völlig unterschiedliche Ergebnisse.
Ein Entwickler namens joeseesun hat ein Claude-Code-Skill auf GitHub geworfen, das so ziemlich alles in Googles NotebookLM kippt — von WeChat-Artikeln bis YouTube-Videos.
Ein Entwickler migriert 1.000 Seiten mit Claude Code an einem Nachmittag. Drei Wochen später ist der Google-Traffic im Keller.