Ein LessWrong-Nutzer lernt Altgriechisch mit Claude Opus 4.6. Erst als Hausaufgaben-Korrektor, dann als Lehrer. Bis ihm auffiel: Das Modell macht systematische Fehler — und klingt ...
Ein Alignment-Forscher lernt Altgriechisch mit Claude Opus 4.6. Dann merkt er: Das Modell macht systematische Fehler — und baut daraus eine Challenge.
DeepMind hat ein neues System vorgestellt: AlphaQubit. Eine KI, die Fehler in Quantencomputern erkennt — und damit eines der größten Probleme der Technologie angeht.
Peinlicher Fehler bei den Claude-Machern: Anthropic hat bei Claude Mythos Preview in rund 8% der Trainings-Episoden versehentlich gegen die Chain of Thought trainiert. Das heißt: ...
Sicherheitsforscher von Trellix haben genug vom Hacker-Heldenkult. Statt Cyberkriminellen coole Namen und Mythen zu schenken, machen sie sich jetzt über deren Fehler lustig.
OpenAI lässt GPT-4 gegen sich selbst antreten. Ein neues Modell namens CriticGPT soll die Schwächen von ChatGPT aufdecken — und zwar besser als Menschen.
Hugging Face zeigt ein neues Framework: Ecom-RLVE trainiert KI-Agenten für Online-Shopping — nicht mit statischen Daten, sondern in adaptiven Umgebungen, die sich anpassen und ...
Security-Forscher schlagen Alarm: Ein Design-Fehler im Model Context Protocol reißt 200.000 Server auf. Anthropic sagt: Nicht unser Problem.
Anthropic baut Claude Code zum Agenten-Framework aus. Neue Funktion: "Routines" — automatisierte Abläufe, die ohne menschliches Zutun Bugs fixen, PRs reviewen und auf Events ...
Ein neues Paper aus dem Arxiv will LLM-Halluzinationen nicht wegtrainieren — sondern wegfiltern. Der Ansatz: Wenn das Modell sich unsicher ist, soll es einfach die Klappe halten.
KI-Modelle, die über Bilder nachdenken, haben ein Drecksproblem: Kleine Fehler beim Hinsehen werden über mehrere Denkschritte immer größer — bis am Ende kompletter Unsinn ...
Ein LangChain-Ingenieur hat eine Pipeline gebaut, die nach jedem Deploy automatisch Fehler erkennt, die Ursache analysiert und einen Fix-PR erstellt. Ganz ohne menschliches Zutun ...
Materialwissenschaft ist eines der undankbarsten Forschungsfelder. Jetzt soll KI die Drecksarbeit übernehmen: Defekte in Materialien aufspüren — auf atomarer Ebene.
Die KI-Szene hat ein Speed-Problem — und damit ist nicht Geschwindigkeit gemeint. Mario Zechner, Schöpfer des Pi-Agent-Frameworks hinter OpenClaw, rechnet mit dem Agenten-Wahn ab. ...
Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...
Die kirgisische Krypto-Börse Grinex ist 13,7 Millionen Dollar los. Statt Fehler einzugestehen, zeigt die Firma mit dem Finger auf „westliche Geheimdienste".
Ein frustrierter Sicherheitsforscher hat nach dem Bluehammer-Exploit einen weiteren Zero-Day für Windows veröffentlicht. Diesmal steckt der Fehler im Defender selbst.
Ein Indie-Projekt will Code-Reviews auf eine neue Stufe heben: Verschiedene KI-Modelle sollen sich im GitHub Copilot CLI gegenseitig kontrollieren.
Wenn dein Internet stirbt, soll künftig eine KI den Fehler finden. Forscher haben untersucht, ob Large Language Models bei der Root Cause Analysis (RCA) von Netzwerk-Ausfällen ...
Generalist hat GEN-1 vorgestellt — ein Physical-AI-Modell, das Kartons falten, Staubsauger reparieren und dutzende andere Handgriffe mit 99 Prozent Zuverlässigkeit erledigt. ...