Forscher stellen RADAR vor — eine Metrik, die vorhersagen soll, ob extra Trainingsdaten dein Modell besser oder schlechter machen.
Ein Typ trackt seinen Kopf mit Sprachbefehlen und KI. Morgens und abends sagt er "Hey Exo" ins Handy, labert über seinen Tag, seine Stimmung, seinen Schlaf — und ein LLM sortiert ...
Nvidia, AMD und Intel haben ihre neuesten Benchmark-Ergebnisse für MLPerf Inference v6.0 vorgelegt. Jeder Hersteller feiert sich selbst — doch wer wirklich vorne liegt, weiß ...
Ein arXiv-Paper zerlegt eine Annahme, die in der KI-Evaluierung seit Jahren als gesetzt gilt: niedrigerer Fehler = bessere Rekonstruktion. Stimmt nicht. Zumindest nicht immer.
Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.
Bei Meta gibt es jetzt eine interne Rangliste für KI-Token-Verbrauch. Wer am meisten raushaut, bekommt Titel. Nicht wer am besten arbeitet — wer am meisten verbraucht.
OpenAI hat ein neues Research-Paper rausgehauen. Thema: Wie misst man die Qualität von decoder-basierten generativen Modellen? Die Forscher wollen endlich harte Metriken statt ...
Ein US-Startup hat sechs Monate lang einen Radiosender komplett von KI-Agenten betreiben lassen. Vier Modelle sollten moderieren — die Ergebnisse könnten unterschiedlicher nicht ...
Bei Amazon läuft gerade ein absurdes Spiel: Mitarbeiter bauen sinnlose Automatisierungen, nur um in internen KI-Ranglisten zu glänzen. Der Name dafür: "Tokenmaxxing".
Ein neues Paper auf arXiv will Neural Networks beim Training live überwachen — bevor sie kollabieren. Das Werkzeug heißt Collapse Index. Klingt nach Sci-Fi, ist aber Mathematik.
Ein autonomer Roboter der chinesischen Firma Honor hat einen Halbmarathon in 50 Minuten und 26 Sekunden absolviert. Das sind 7 Minuten schneller als der menschliche Weltrekord.
Andon Labs lässt eine KI ein reales Unternehmen führen. Der Agent entscheidet über Preise, Personal und Produkte — ohne menschliches Veto.
Die Mobilfunk-Branche will wissen, ob ihre KI-Agenten auch wirklich funktionieren. Forscher haben mit TelcoAgent-Bench einen Testrahmen gebaut, der genau das prüfen soll — auf ...
Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.
Forscher haben ein Problem mit LLM-Benchmarks: Die Bewertungsmaßstäbe selbst sind oft Müll. RIFT liefert jetzt eine Taxonomie, die zeigt, wo genau Rubrics versagen.
Amazon macht ernst mit KI-Agenten. Ab sofort sind der AWS Security Agent und der AWS DevOps Agent für alle verfügbar — zwei autonome Systeme, die tagelang ohne menschliche ...
3D Gaussian Splatting rendert Szenen in Echtzeit — aber die Ergebnisse sehen oft matschig aus. Apple hat jetzt untersucht, warum das so ist und wie man es fixt.
Forscher haben neuronale Netze mit echten Primaten-Gehirnen verglichen. Das Ergebnis ist ernüchternd — für die KI.
SemiAnalysis hat über 2.000 H100-GPUs gegen NVIDIAs neues GB200 NVL72-System antreten lassen. Das Ergebnis ist weniger eindeutig, als NVIDIA es gerne hätte.