Suche: Audio

TOOLS

Tencent macht Echtzeit-Sprach-KI für alle frei

Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.

MarkTechPost · 2026-03-26 11:18:22.116324+00:00 · Score 6/10

EXPERIMENTAL

Audio-KI für alle: Smol-Audio macht Fine-Tuning easy

Eine neue Notebook-Sammlung schmeißt fünf Audio-Modelle in einen Colab-Topf. Trainieren ohne Server-Park.

MarkTechPost · 2026-04-30 04:24:51.688687+00:00 · Score 2/10

EXPERIMENTAL

NVIDIA bringt KI das Hören bei

Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...

MarkTechPost · 2026-04-15 04:19:59.472948+00:00 · Score 6/10

TOOLS

LTX-2 macht Audio und Video gleichzeitig

Lightricks haut sein neues Audio-Video-Modell als Open Source raus. DiT-basiert, mit synchronisiertem Sound, frei auf GitHub.

GitHub Trending Python · 2026-05-02 04:18:33.436497+00:00 · Score 6/10

EXPERIMENTAL

Gemma 4 transkribiert Audio direkt auf dem Mac

Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.

Simon Willison · 2026-04-13 01:15:32.488428+00:00 · Score 3/10

TOOLS

Stability AI knallt Stable Audio 3 raus

Stability AI hat die Open Weights von Stable Audio 3 veröffentlicht — samt Research Paper. Latent Diffusion für Stereo-Sound in Studioqualität, drei Modellgrößen, frei zum ...

MarkTechPost · 2026-05-27 01:18:51.744307+00:00 · Score 6/10

HOT

Google klaut Meta die Smart-Glasses-Idee

Google hat auf der IO 2026 seine eigene Audio-Brille vorgestellt. Sprachbefehle, Gemini, fertig. Klingt vertraut? Ist es auch.

TechCrunch AI · 2026-05-20 01:19:17.738982+00:00 · Score 6/10

HOT

Google macht Sprach-KI mit Gemini 3.1 schneller

Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.

Google AI Blog · 2026-03-30 01:28:30.490486+00:00 · Score 8/10

HOT

Google killt den Encoder — Gemma 4 läuft auf Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht. Das Ding frisst Text, Bilder, Audio und Video — ohne separate Encoder. Und es läuft auf deinem Laptop.

MarkTechPost · 2026-06-03 19:19:41.515341+00:00 · Score 7/10

TOOLS

Stability AI bringt 6-Minuten-Songs aufs Handy

Stability AI hat Audio 3.0 veröffentlicht. Das neue Modell generiert Tracks bis zu sechs Minuten — die kleine Version läuft sogar direkt auf dem Gerät.

TechCrunch AI · 2026-05-20 16:18:20.787457+00:00 · Score 6/10

HOT

Google baut Video-Generator per Chatbefehl

Google legt nach. Mit Gemini Omni kommt ein multimodales Modell, das aus Text, Bildern und Audio direkt Videos baut — per Konversation.

TechCrunch AI · 2026-05-19 19:22:53.909631+00:00 · Score 9/10

HOT

NVIDIA packt Dokumente, Audio und Video in ein Modell

NVIDIA bringt Nemotron 3 Nano Omni. Ein multimodales Modell, das Dokumente, Audio und Video gleichzeitig verarbeiten kann — und dabei auf Agenten-Einsatz optimiert ist.

Hugging Face Blog · 2026-04-28 16:15:39.721808+00:00 · Score 8/10

TOOLS

Google überrascht mit verrücktem TTS-Modell

Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...

Simon Willison · 2026-04-16 13:19:18.463554+00:00 · Score 7/10

EXPERIMENTAL

Ein Foto reicht: LPM 1.0 erweckt Avatare zum Leben

Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus ...

The Decoder · 2026-04-13 19:18:46.987659+00:00 · Score 6/10

HOT

Alibabas neues Modell sieht, hört und codet

Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.

The Decoder · 2026-03-31 13:19:54.350843+00:00 · Score 8/10

HOT

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...

MarkTechPost · 2026-03-31 07:19:09.874856+00:00 · Score 7/10

HOT

Google bringt Echtzeit-Stimme für KI-Agenten

Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...

MarkTechPost · 2026-03-27 05:19:19.404122+00:00 · Score 7/10

HOT

Google bringt multimodale KI auf den Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht. Das Open-Source-Modell verarbeitet Text, Bild und Audio nativ — und läuft auf jedem halbwegs modernen Laptop.

The Decoder · 2026-06-03 22:18:36.607328+00:00 · Score 8/10

HOT

OpenAI feuert drei Audio-Modelle raus

OpenAI bringt gleich drei neue Realtime-Modelle und schaltet die Realtime-API auf produktiv. Schluss mit Beta-Ausreden für Entwickler.

MarkTechPost · 2026-05-09 01:20:19.984534+00:00 · Score 8/10

EXPERIMENTAL

KI-Podcasts jetzt direkt in Spotify speichern

Ihr lasst KI eure persönlichen Podcasts basteln? Dieses neue Kommandozeilen-Tool spielt sie direkt in eure Spotify-Bibliothek ein.

The Verge AI · 2026-05-07 16:18:38.608836+00:00 · Score 3/10

SUCHE

Tencent macht Echtzeit-Sprach-KI für alle frei

Audio-KI für alle: Smol-Audio macht Fine-Tuning easy

NVIDIA bringt KI das Hören bei

LTX-2 macht Audio und Video gleichzeitig

Gemma 4 transkribiert Audio direkt auf dem Mac

Stability AI knallt Stable Audio 3 raus

Google klaut Meta die Smart-Glasses-Idee

Google macht Sprach-KI mit Gemini 3.1 schneller

Google killt den Encoder — Gemma 4 läuft auf Laptop

Stability AI bringt 6-Minuten-Songs aufs Handy

Google baut Video-Generator per Chatbefehl

NVIDIA packt Dokumente, Audio und Video in ein Modell

Google überrascht mit verrücktem TTS-Modell

Ein Foto reicht: LPM 1.0 erweckt Avatare zum Leben

Alibabas neues Modell sieht, hört und codet

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Google bringt Echtzeit-Stimme für KI-Agenten

Google bringt multimodale KI auf den Laptop

OpenAI feuert drei Audio-Modelle raus

KI-Podcasts jetzt direkt in Spotify speichern