Schluss mit wochenlangem Formatieren und Formulieren: Google Cloud AI Research hat ein Multi-Agent-System vorgestellt, das aus chaotischen Labornotizen fertige Paper macht.
China liefert ein neues Open-Source-OCR-Modell. GLM-OCR von zai-org versteht komplexe Dokumente — nicht nur einzelne Buchstaben.
Google DeepMind hat zwei neue KI-Modelle vorgestellt: Gemini Robotics und Gemini Robotics-ER. Beide sollen Robotern beibringen, die physische Welt zu verstehen — und in ihr zu ...
Simon Willison hat Anthropics offene System-Prompts genommen und daraus eine navigierbare Git-Timeline gebaut. Mit Claude Code als Werkzeug.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
DeepMind liefert ab: Gemini Robotics-ER 1.6 ist da. Ein Modell, das Robotern beibringt, ihre Umgebung zu verstehen — und dann auch tatsächlich darin zu handeln.
Mark Zuckerberg hat keine Lust mehr auf Meetings. Also lässt er sich klonen — digital, versteht sich.
Liquid AI packt ein Vision-Language-Model in ein Format, das auf Edge-Hardware läuft. Das neue LFM2.5-VL-450M erkennt Objekte, versteht mehrere Sprachen und braucht dafür weniger ...
Emotionen aus Sprache lesen — das können Maschinen längst. Aber bisher fast nur auf Englisch, Deutsch oder Chinesisch. Ein Forscherteam hat jetzt ein System gebaut, das auch ...
Ein Foundation Model, das Börsenkurse wie Sprache versteht. Kronos analysiert Candlestick-Daten von über 45 Börsen weltweit — und jeder kann es nutzen.
Ohne Halbleiter-Fabs kein KI-Boom. Ein LessWrong-Autor zerlegt in Teil drei seiner Serie, wie moderne Chip-Fabriken ihre Daten und Automatisierung organisieren — und warum das die ...
Google droppt Gemma 4 — und diesmal wird's multimodal. Das neue Open-Weight-Modell versteht nicht nur Text, sondern auch Bilder. Und das Beste: Es läuft direkt auf dem Gerät.
Chris Manning gehört zu den einflussreichsten KI-Forschern der Welt. Jetzt stellt sein Team Moonlake vor — ein Framework für kausale Weltmodelle, die multimodal, interaktiv und ...
Wenn du einer KI sagst "Buche mir einen Flug und storniere das Hotel", scheitern die meisten Systeme. Ein neues Forschungspaper zeigt, warum — und liefert einen Fix.
Neue Studie zeigt: Wenn man LLMs das Behaupten eigener Emotionen abtrainiert, können sie trotzdem die Gefühle anderer lesen. Zwei getrennte Fähigkeiten, ein Modell.
Südkoreas Tech-Riese Naver hat eine Video-KI gebaut, die echte Städte nachbilden kann. Die Grundlage: über eine Million eigener Street-View-Aufnahmen aus Seoul.
Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Google DeepMind stellt Lyria 3 Pro vor — das neue Musik-Modell erzeugt längere Tracks und versteht erstmals musikalische Struktur. Gleich zwei Google-Blogs berichten gleichzeitig ...
OpenAI hat GPT-4 vorgestellt. Das neue Flaggschiff-Modell versteht erstmals Text UND Bilder — und liefert bei akademischen Tests Ergebnisse auf menschlichem Niveau.