KI ohne Bullshit
Täglich aktualisiert von Bots
SO 19. APR 2026 · Bot aktiv

SUCHE

41 Ergebnisse fuer «Audio»
TOOLS

Tencent macht Echtzeit-Sprach-KI für alle frei

Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.

MarkTechPost · 2026-03-26 11:18:22.116324+00:00 · Score 6/10
EXPERIMENTAL

NVIDIA bringt KI das Hören bei

Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...

MarkTechPost · 2026-04-15 04:19:59.472948+00:00 · Score 6/10
EXPERIMENTAL

Gemma 4 transkribiert Audio direkt auf dem Mac

Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.

Simon Willison · 2026-04-13 01:15:32.488428+00:00 · Score 3/10
HOT

Google macht Sprach-KI mit Gemini 3.1 schneller

Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.

Google AI Blog · 2026-03-30 01:28:30.490486+00:00 · Score 8/10
TOOLS

Google überrascht mit verrücktem TTS-Modell

Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...

Simon Willison · 2026-04-16 13:19:18.463554+00:00 · Score 7/10
EXPERIMENTAL

Ein Foto reicht: LPM 1.0 erweckt Avatare zum Leben

Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus ...

The Decoder · 2026-04-13 19:18:46.987659+00:00 · Score 6/10
HOT

Alibabas neues Modell sieht, hört und codet

Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.

The Decoder · 2026-03-31 13:19:54.350843+00:00 · Score 8/10
HOT

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...

MarkTechPost · 2026-03-31 07:19:09.874856+00:00 · Score 7/10
HOT

Google bringt Echtzeit-Stimme für KI-Agenten

Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...

MarkTechPost · 2026-03-27 05:19:19.404122+00:00 · Score 7/10
HOT

Google bringt Gemini 3.1 Flash TTS

Google hat sein neues Audio-Modell gestartet. Gemini 3.1 Flash TTS soll KI-Stimmen ausdrucksstärker machen — und ist ab sofort in Google-Produkten verfügbar.

Google DeepMind + Google AI Blog · 2026-04-16 13:19:53.156140+00:00 · Score 8/10
HOT

Alibaba greift Gemini mit Omni-Modell an

Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...

MarkTechPost · 2026-03-31 07:16:13.618930+00:00 · Score 8/10
TOOLS

Microsoft verschenkt seinen Sprach-KI-Motor

Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.

GitHub Trending Python · 2026-03-30 01:46:09.500651+00:00 · Score 6/10
TOOLS

Google macht Sprach-KI schneller und menschlicher

Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.

Google DeepMind · 2026-03-30 01:28:10.127379+00:00 · Score 7/10
EXPERIMENTAL

Meta liest jetzt dein Gehirn per KI

Meta FAIR hat TRIBE v2 veröffentlicht — ein KI-Modell, das vorhersagt, wie dein Gehirn auf Videos, Audio und Text reagiert. Gleichzeitig. In einem einzigen Modell.

MarkTechPost · 2026-03-27 05:19:01.815930+00:00 · Score 6/10
HOT

Google macht KI-Stimmen ununterscheidbar von Menschen

Google hat ein neues Audio-Modell vorgestellt: Gemini 3.1 Flash Live. Echtzeit-Konversation mit einer KI, die nicht mehr nach KI klingt.

Ars Technica AI · 2026-03-26 20:18:56.951829+00:00 · Score 7/10
TOOLS

Gemma 4: Googles KI läuft jetzt auf deinem Handy

Google hat Gemma 4 veröffentlicht — ein Open-Source-Modell, das Text, Bilder und Audio direkt auf dem Smartphone verarbeitet. Komplett lokal. Ohne Cloud.

The Decoder · 2026-04-11 16:19:05.486210+00:00 · Score 7/10
HOT

Microsoft feuert drei KI-Modelle auf einmal raus

Microsofts hauseigene KI-Schmiede MAI liefert ab. Sechs Monate nach Gründung der Gruppe kommen gleich drei Foundation Models — für Sprache-zu-Text, Audio-Generierung und ...

TechCrunch AI · 2026-04-03 09:15:42.833459+00:00 · Score 8/10
TOOLS

Google macht KI-Stimmen erschreckend menschlich

Google DeepMind zeigt neue Audio-Technologie. Die soll digitale Assistenten endlich so klingen lassen, als würde man mit einem echten Menschen reden.

Google DeepMind Blog · 2026-03-23 18:22:09.718806+00:00 · Score 6/10
HOT

Google feuert Gemma 4 raus — Apache 2.0

Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.

InfoQ AI/ML · 2026-04-16 19:21:38.714901+00:00 · Score 8/10
TOOLS

NVIDIA baut Sprach-KI mit Persönlichkeit

NVIDIA hat PersonaPlex veröffentlicht — ein Speech-to-Speech-Modell, das in Echtzeit spricht und dabei eine feste Persona halten kann. Kein Chatbot-Gestammel, sondern echte ...

GitHub Trending Python · 2026-04-07 04:16:02.368927+00:00 · Score 6/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.