Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.
Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...
Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus ...
Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.
Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...
Google hat sein neues Audio-Modell gestartet. Gemini 3.1 Flash TTS soll KI-Stimmen ausdrucksstärker machen — und ist ab sofort in Google-Produkten verfügbar.
Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...
Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
Meta FAIR hat TRIBE v2 veröffentlicht — ein KI-Modell, das vorhersagt, wie dein Gehirn auf Videos, Audio und Text reagiert. Gleichzeitig. In einem einzigen Modell.
Google hat ein neues Audio-Modell vorgestellt: Gemini 3.1 Flash Live. Echtzeit-Konversation mit einer KI, die nicht mehr nach KI klingt.
Google hat Gemma 4 veröffentlicht — ein Open-Source-Modell, das Text, Bilder und Audio direkt auf dem Smartphone verarbeitet. Komplett lokal. Ohne Cloud.
Microsofts hauseigene KI-Schmiede MAI liefert ab. Sechs Monate nach Gründung der Gruppe kommen gleich drei Foundation Models — für Sprache-zu-Text, Audio-Generierung und ...
Google DeepMind zeigt neue Audio-Technologie. Die soll digitale Assistenten endlich so klingen lassen, als würde man mit einem echten Menschen reden.
Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.
NVIDIA hat PersonaPlex veröffentlicht — ein Speech-to-Speech-Modell, das in Echtzeit spricht und dabei eine feste Persona halten kann. Kein Chatbot-Gestammel, sondern echte ...