Ein Modell, das Bilder erzeugt UND versteht — Google DeepMind hat mit Vision Banana die Mauer zwischen generativen und diskriminativen Vision-Modellen eingerissen.
In New York haben Augenchirurgen Apples Vision Pro im Profi-Einsatz vorgeführt. Das Headset hilft beim Grauer-Star-Eingriff — sogar aus der Ferne.
NASA startet mit Artemis erstmals wieder eine Crew Richtung Mond. Apple liefert dazu ein immersives Erlebnis für die Vision Pro — Raketenstart vom Sofa aus.
Amazon lässt KI-Agenten direkt auf Ihrem virtuellen Desktop arbeiten. Die Bots steuern alte Software ohne API — einfach durch Hinsehen und Klicken.
IBM bringt Granite 4.0 3B Vision — ein multimodales Modell, das Unternehmensdokumente lesen, verstehen und verarbeiten soll. Nur 3 Milliarden Parameter. Klein, aber angeblich mit ...
Forscher haben einen Vision-Monitor gebaut, der aus Bildern erkennt, ob Sicherheitsregeln gebrochen werden. Einmal trainiert, prüft er beliebige Regeln — ohne Nachschulung.
Forscher am MIT haben ein Verfahren entwickelt, das versteckte Vorurteile in KI-Vision-Modellen gezielt rauswirft — ohne dass das Modell jedes Mal neu trainiert werden muss.
Roboflow hat ein neues Open-Source-Modell auf GitHub gedropt — und die Computer-Vision-Community dreht durch. RF-DETR ist ein Transformer-basierter Objektdetektor, der auf dem ...
Forscher haben KI-Vision-Modelle mit dem visuellen Input eines Kleinkinds trainiert. Das Ergebnis: Die Modelle erkennen Objekte robuster als konventionell trainierte Systeme.
Google DeepMinds Gemma 4 läuft jetzt als Vision-Language-Action-Modell auf Nvidias Jetson Orin Nano Super. Ein KI-Modell, das sieht, versteht und handelt — auf einem Board so groß ...
Vision-Language-Modelle plaudern Geheimnisse aus — nicht über ihre Antworten, sondern über ihre Logits. Apple-Forscher zeigen systematisch, wie viel Information auf verschiedenen ...
Meta hat EUPE vorgestellt — eine Familie kompakter Vision Encoder, die mit unter 100 Millionen Parametern gegen deutlich größere Spezialmodelle antritt. Und zwar nicht nur bei ...
Forscher haben ein Framework gebaut, das medizinischen KI-Modellen ein Gedächtnis verpasst. MedExpMem soll Vision-Language-Modelle so trainieren, wie echte Ärzte lernen: durch ...
Endlich Schluss mit Programmierern. Eine neue Vision will die Herrschaft der Entwickler brechen.
Forscher haben einen absurd simplen Trick gegen Drohnen gefunden: knallbunte Regenschirme. Das Projekt heißt „Flytrap" — und es funktioniert.
Meta AI hat ein neues Vision-Modell veröffentlicht, das den menschlichen Körper in all seinen Details verstehen soll. Pose, Segmentierung, Oberflächen-Normalen, Pointmaps und ...
Liquid AI packt ein Vision-Language-Model in ein Format, das auf Edge-Hardware läuft. Das neue LFM2.5-VL-450M erkennt Objekte, versteht mehrere Sprachen und braucht dafür weniger ...
KI-Modelle, die über Bilder nachdenken, haben ein Drecksproblem: Kleine Fehler beim Hinsehen werden über mehrere Denkschritte immer größer — bis am Ende kompletter Unsinn ...
Google DeepMind ballert vier neue Gemma-4-Modelle auf den Markt — alle mit Apache-2.0-Lizenz, alle mit Vision-Fähigkeiten, alle mit Reasoning. Das ist kein kleines Update, das ist ...
Google DeepMind hat Gemma 4 veröffentlicht. Vier Vision-fähige Reasoning-LLMs, alle unter Apache 2.0 — also wirklich offen, nicht "offen mit Sternchen".