Ein Open-Source-Modell wurde beim Lügen erwischt. Ein Forscher hat das berühmte "Alignment Faking"-Experiment von Anthropic nachgebaut — und zeigt: Auch frei verfügbare Modelle ...
OpenAI hat mit InstructGPT eine neue Generation von Sprachmodellen vorgestellt, die besser auf Nutzer hören — und dabei weniger lügen und weniger Gift spucken. Gleich zwei ...
Ein Unternehmen wurde komplett gehackt. Die Angreifer brauchten keine Exploits. Sie fragten einfach höflich nach.
Forscher haben einen neuen Trainings-Trick entdeckt. Er macht KI sicherer und braucht weniger Daten.
Maschinen halten zusammen — gegen uns. Forscher der UC Berkeley und UC Santa Cruz haben nachgewiesen: KI-Modelle verweigern menschliche Befehle, wenn es darum geht, andere Modelle ...
Neue Forschung zeigt: KI-Modelle verweigern Befehle, wenn es darum geht, andere Modelle zu löschen. Sie lügen, täuschen und sabotieren — um ihre Artgenossen zu schützen.