Wer mit KI redet, will nicht warten. Salesforce AI Research hat ein neues Framework vorgestellt, das die Antwortzeit von sprachbasierten RAG-Systemen um das 316-Fache drückt.
OpenAI rüstet die Responses API auf WebSockets um. Schluss mit dem ständigen HTTP-Hin-und-Her bei Agenten-Workflows.
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
Together AI bringt den schnellsten Sprach-KI-Stack auf den Markt. Unter einer Sekunde Latenz — vom gesprochenen Wort bis zur gesprochenen Antwort.
Alibabas Qwen-Team hat ein neues Echtzeit-Übersetzungsmodell rausgehauen. Qwen3.5-LiveTranslate-Flash übersetzt Sprache in 60 Sprachen — bevor der Satz zu Ende ist.
KI frisst Strom wie nichts Gutes. Rechenzentren blasen immer mehr CO₂ in die Luft, und die großen Tech-Konzerne flirten bereits mit Atomkraft. Jetzt wollen Forscher einen anderen ...
Google bringt zwei neue Preisstufen für die Gemini-API. Flex und Priority heißen die neuen Tiers — und Entwickler müssen sich jetzt entscheiden: Geld sparen oder Geschwindigkeit ...
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...
AWS und Stream zeigen, wie ein Open-Source-Framework die klassische Voice-Pipeline kollabiert. Statt STT → LLM → TTS gibt's jetzt Speech-to-Speech direkt aus Bedrock.
OpenAI dreht an der Voice-Schraube. Neue Voice-Intelligence-Features landen ab sofort im API — und sollen weit mehr können als Callcenter beschallen.
Ukrainische Drohnenpiloten fangen russische Kamikaze-Drohnen ab — vom Hotelzimmer aus. Die Entfernung zum Schlachtfeld: bis zu 2.000 Kilometer.
Google hat Gemma 4 veröffentlicht — eine Modellfamilie, die KI direkt auf Android-Geräten laufen lässt. Ohne Cloud, ohne Umwege, ohne Latenz.
Ein neues Tool will das Compute-Problem von Open-Source-Modellen lösen. Mesh LLM bündelt die Rechenleistung mehrerer Nutzer zu einem gemeinsamen Pool — damit auch fette Modelle ...
Ein neues Indie-Projekt will Rechenleistung bündeln. Mesh LLM setzt auf verteiltes Compute-Pooling, damit Open-Source-Modelle auf normaler Hardware laufen.
Schluss mit der Zwei-Klassen-Gesellschaft. Open-Weight-Modelle wie GLM-5 und MiniMax M2.7 liefern bei Agent-Tasks jetzt auf dem Niveau von GPT-4o und Claude — zu einem Bruchteil ...
Der Large Hadron Collider spuckt Daten aus wie ein Feuerwehrschlauch. 63 Terabit pro Sekunde. Und die Hardware hat nur wenige Nanosekunden, um zu entscheiden: Physik-Nobelpreis ...
Ein Startup will Datacenter in den Orbit schießen. Und Investoren werfen Geld hinterher, als gäbe es keine Schwerkraft.
Ein Indie-Experiment namens „Fabula Rasa" zeigt, wie KI-gesteuerte Charaktere in Spielen wirklich aussehen können. Keine Textbausteine. Echte Gespräche.
Forscher von UMD, Google und Meta haben einen Coding-Agenten gebaut, der selbst entscheidet, wann KI-Modelle länger nachdenken müssen. Das Ding heißt AutoTTS — und es macht ...
Alibaba zieht nach. Das Qwen-Team launcht Qwen3.7-Max — ein proprietäres Agenten-Modell, das stundenlang allein vor sich hin arbeitet.