Ein stummes Video rein, räumlicher Stereo-Sound raus — in 48 kHz. Apple hat ein Framework vorgestellt, das genau das kann.
Ein neues Open-Source-Modell verknüpft Kamerabilder mit Roboter-Aktionen — und braucht dafür nur ein paar Zeilen Code.
Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett ...
Google bastelt weiter an seinem 3D-Videocall-Projekt Beam. Neues Experiment: Hybrid-Meetings sollen sich anfühlen, als säße der Kollege wirklich gegenüber.
Google DeepMind hat Gemini Robotics-ER 1.6 vorgestellt — ein Upgrade für das Modell, das als "kognitives Gehirn" von Robotern in der echten Welt dienen soll.
Vergiss Chatbots. Die nächste Front der KI-Forschung heißt "Physical AI" — und es geht darum, Maschinen beizubringen, wie die physische Welt funktioniert.
Nach über einem Jahr Versuchen hat Anthropics KI endlich die Top Vier besiegt. Kein Hype, kein Trick — einfach stetig besser geworden.
Apple-Forscher haben einen neuen Test für KI-Agenten entwickelt. Es geht nicht mehr nur um Sehen, sondern um Verstehen.
IBM hat seine Granite-4.1-Familie veröffentlicht — und Simon Willison testet das 3B-Modell mit dem absurdesten Benchmark der KI-Szene: Pelikane auf Fahrrädern in SVG zeichnen.
Ein Pferd reitet einen Astronauten, der auf einem Pelikan sitzt, der Fahrrad fährt. Was klingt wie ein Fiebertraum, hat ChatGPT Images 2.0 tatsächlich gerendert.
Forscher haben ein Deep-Learning-System gebaut, das RNA-Moleküle dreidimensional vorhersagen kann. Der Name: trRosettaRNA2.
DeepMind liefert ab: Gemini Robotics-ER 1.6 ist da. Ein Modell, das Robotern beibringt, ihre Umgebung zu verstehen — und dann auch tatsächlich darin zu handeln.
Forscher haben die Art gekillt, wie KI-Roboter ihre Welt verstehen. Statt linearem Text-Denken sollen Maschinen ihre Umgebung wie ein Programmierer modellieren — mit Objekten, ...
Autonome Systeme sollen bald Missionen fliegen, fahren und überwachen — ohne dass ein Mensch jeden Schritt absegnet. Das Problem: Wer garantiert, dass die Maschinen nicht ...
World Labs dropt ein Update für sein 3D-Generierungs-Tool Marble. Version 1.1 bringt besseres Lighting und größere Szenen.
Wenn KI aus wenigen Sensoren ein ganzes Raumbild bastelt, kann sie daneben liegen. Ein neues Paper zeigt: Das Netz kann lernen, wo es sich selbst nicht traut.
Manycore Tech hat das Listing-Hearing in Hongkong bestanden. Der IPO rückt damit in greifbare Nähe — und mit ihm ein neues Kapitel für Chinas KI-Szene.
Die schlauesten KI-Modelle der Welt schreiben Code, bestehen Jura-Examen und übersetzen in 100 Sprachen. Aber einen Klempner durch ein Jump'n'Run steuern? Keine Chance.
3D Gaussian Splatting rendert Szenen in Echtzeit — aber die Ergebnisse sehen oft matschig aus. Apple hat jetzt untersucht, warum das so ist und wie man es fixt.
Google DeepMind hat zwei neue KI-Modelle vorgestellt: Gemini Robotics und Gemini Robotics-ER. Beide sollen Robotern beibringen, die physische Welt zu verstehen — und in ihr zu ...