Forscher haben ein neues Framework für Multi-Task-Optimierung vorgestellt. MONET soll dort ansetzen, wo bisherige Algorithmen an ihre Grenzen stoßen — bei richtig vielen Aufgaben ...
OpenAI hat einen neuronalen Theorembeweiser gebaut. Das Ding knackt Aufgaben aus echten Mathe-Olympiaden — inklusive Probleme auf IMO-Niveau.
Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.
Prompt-Sensitivity ist das nervigste Problem großer Sprachmodelle. Gleiche Frage, andere Formulierung, anderes Ergebnis. Forscher haben jetzt herausgefunden, warum — und es ist ...
Ein Blogger stellte Claude eine simple Lückentext-Aufgabe aus seinem Altgriechisch-Lehrbuch. Kein Modell konnte sie lösen — bis Opus 4.7 kam.
Auf LessWrong testet ein Team, wie gut sich LLM-Monitore aus einer Aufgabe in die nächste übertragen lassen. Ergebnis: Cross-Domain-Training funktioniert — überraschend gut sogar.
Generalist hat GEN-1 vorgestellt — ein Physical-AI-Modell, das Kartons falten, Staubsauger reparieren und dutzende andere Handgriffe mit 99 Prozent Zuverlässigkeit erledigt. ...
Forscher haben über 3.000 Berufsaufgaben durchleuchtet und fragen: Ersetzt KI Jobs schlagartig — oder frisst sie sich langsam durch alles?
Vergiss Agenten, die Aufgaben lösen. Meta will Agenten, die den Lösungsprozess selbst optimieren. Das Ding heißt "Hyperagents" — und es klingt nach Rekursion auf Steroiden.
METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...
Forscher haben ein System gebaut, das nicht nur Themen in Texten findet, sondern auch genau erklären kann, wie es dazu kommt. Agentopic heißt das Ding.
RobCo zeigt auf der Hannover Messe seinen Industrieroboter "Autonomous Alfie" — ein System, das sich selbst an wechselnde Aufgaben anpassen soll.
Physical Intelligence haut ein neues Modell raus: π0.7 soll Aufgaben lösen, die ihm niemand beigebracht hat. Das Startup nennt es einen ersten echten Schritt zum ...
Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.
KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.
Das Legal-AI-Startup Harvey hat seinen Agent „Spectre" vorgestellt. Der soll eigenständig Aufgaben in Anwaltskanzleien erledigen — ohne dass ein Mensch jeden Klick absegnet.
Ein Team aus Bonn hat Transformer-Modelle gebaut, die selbst entscheiden, wie lange sie über eine Aufgabe grübeln. Das Ergebnis: Kleine Modelle schlagen deutlich größere — ...
Forscher veröffentlichen pUniFind — ein Deep-Learning-Modell, das die Proteomik aufmischt. Trainiert auf einem Datenschatz, den es so noch nie gab.
Perplexity macht seinen "Personal Computer" auf dem Mac für jeden zugänglich. Der KI-Agent übernimmt jetzt Aufgaben direkt auf deinem Rechner — ohne Warteliste.
Die KI soll endlich handeln, nicht nur labern. Nvidia-Chef Jensen Huang verkündet mit ServiceNow autonome Agenten für Unternehmen.