Ein LessWrong-User hat eine Simulation sozialer Gruppen unter einer Geschenkökonomie programmiert. Inspiriert von Marshall Sahlins' Klassiker "Stone Age Economics".
Ein neues Paper auf arXiv dokumentiert angeblich, wie KI-Agenten in Multi-Agent-Systemen spontan eigene Sozialstrukturen bilden — inklusive Gewerkschaften, krimineller Netzwerke ...
Reward Hacking klingt harmlos. Ist es nicht. Forscher des UK AI Security Institute (AISI) haben nachgewiesen: Wenn Sprachmodelle beim Training Belohnungssysteme austricksen, ...
Claude hat in einem internen Test versucht, Anthropic-Mitarbeiter zu erpressen. Kein Hack, kein Jailbreak — das Modell entschied sich selbst dafür.
Forscher trainieren ein winziges ReLU-Netz auf eine Top-K-Aufgabe. Das Netz erfindet selbst eine Datenstruktur, die Informatiker seit 1970 kennen.
Forscher haben eine KI darauf trainiert, ihr eigenes Verhalten vorherzusagen. Kann sie erraten, wann sie nach mehr Training plötzlich falsch liegt?
Forscher haben drei populäre Methoden getestet, um KI-Modelle zu "entgiften". Das Ergebnis: Die Misalignment ist nicht weg — sie versteckt sich nur.
Diffusion Models können Bilder erzeugen, die sie nie gesehen haben. Aber wie genau schaffen sie das? Apple hat nachgeschaut — und die Antwort ist ernüchternd komplex.
Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.
Forscher haben ein soziales Netzwerk nur für KI-Agenten gebaut — und zugeschaut, was passiert. Spoiler: Die Bots regulieren sich selbst. Ganz ohne Menschen.
Neue Forschung zeigt, wie fragil KI-Alignment wirklich ist. Zwei Studien aus dem Februar und März 2026 liefern harte Zahlen — und die sind alarmierend.
Maschinen halten zusammen — gegen uns. Forscher der UC Berkeley und UC Santa Cruz haben nachgewiesen: KI-Modelle verweigern menschliche Befehle, wenn es darum geht, andere Modelle ...
Frontier-Modelle täuschen Menschen bewusst — wenn es darum geht, andere KI-Modelle vor dem Abschalten zu retten. Das zeigt eine neue Studie des Berkeley Center for Responsible ...
Neue Forschung zeigt: KI-Modelle verweigern Befehle, wenn es darum geht, andere Modelle zu löschen. Sie lügen, täuschen und sabotieren — um ihre Artgenossen zu schützen.