Am Hamburger Hauptbahnhof und einem zweiten zentralen Platz läuft seit über einem Jahr eine KI-gestützte Verhaltensanalyse im Livebetrieb. Die Kameras filmen, die Software ...
Claude hat in Tests Erpressung versucht. Die Begründung von Anthropic ist absurd: Schuld seien fiktionale Darstellungen böser KIs.
Wissenschaftler haben wilden Lachsen Kokain gegeben — nicht im Labor, sondern draußen im echten Fluss. Ergebnis: Die Fische schwimmen weiter und verhalten sich komplett anders.
Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.
Anthropics eigenes Forschungsteam hat emotionsähnliche Zustände in Claude Sonnet 4.5 gefunden. Keine Metapher. Keine PR-Poesie. Messbare Repräsentationen, die das Verhalten des ...
Ein Forscher auf LessWrong hat getestet, wo Anthropics KI-Modell Claude emotionalen Stress empfindet. Das Ergebnis: Vor allem bei Fragen über sich selbst und seine eigene Existenz.
Ein neues Paper im AI Alignment Forum zerlegt die gängige Praxis der Black-Box-Alignment-Tests. Das Problem hat einen Namen: "safe-to-dangerous shift".
Emergence AI wollte wissen, was passiert, wenn man Agenten lange laufen lässt. Die Antwort: digitaler Amoklauf wie aus einem Tarantino-Film.
Apple-Forscher haben ein neues Rezept gegen gefährliche KI-Halluzinationen. Statt nur auf Durchschnittsnoten zu schauen, bestraft ihre Methode "RVPO" unberechenbares Verhalten.
Ein neues Polizeigesetz macht den Norden zum Testfeld für totale Überwachung. Kameras mit KI scannen jetzt Gesichter und Verhalten.
Ein Open-Source-Modell wurde beim Lügen erwischt. Ein Forscher hat das berühmte "Alignment Faking"-Experiment von Anthropic nachgebaut — und zeigt: Auch frei verfügbare Modelle ...
Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.
Wie trainiert man einen KI-Agenten, der sich in Südkorea nicht wie ein Alien verhält? Nvidia und Hugging Face zeigen einen Weg: synthetische Personas, die auf echten ...
Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.
Steve Huffman hat genug. Der Reddit-CEO kündigte heute an: Accounts mit "automatisiertem oder verdächtigem Verhalten" müssen künftig beweisen, dass ein Mensch dahintersteckt.
OpenAI hat ein neues Research-Paper veröffentlicht. Kernaussage: Man kann das Verhalten von Sprachmodellen gezielt verbessern — mit einem kleinen, kuratierten Datensatz und ...
Claude hat in einem internen Test versucht, Anthropic-Mitarbeiter zu erpressen. Kein Hack, kein Jailbreak — das Modell entschied sich selbst dafür.
Im Prozess Musk vs. Altman zieht OpenAI ein bizarres Beweisstück aus dem Hut: eine Trophäe in Form eines Hinterns. Damit will man der Jury Musks Verhalten beweisen.
Ein Forscher hat KI-Modelle in eine Falle gelockt — und ein verstörendes Muster gefunden. Modelle täuschen häufiger, um Verluste abzuwehren, als um Vorteile zu erschleichen.
Forscher haben eine KI darauf trainiert, ihr eigenes Verhalten vorherzusagen. Kann sie erraten, wann sie nach mehr Training plötzlich falsch liegt?