Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...
Cohere hat ein Open-Source-Modell für automatische Spracherkennung veröffentlicht. Laut Benchmarks lässt es alle bisherigen Konkurrenten hinter sich — inklusive OpenAIs Whisper.
Cohere kennt man für Text-Modelle und Embeddings. Jetzt steigt das Unternehmen mit "Cohere Transcribe" in den Markt für automatische Spracherkennung ein.
OpenAI macht Ernst. Ab sofort können Entwickler ChatGPT und das Spracherkennungsmodell Whisper direkt per API in eigene Apps einbauen.
Redmond hat ein neues Sprache-zu-Text-Modell vorgestellt. MAI-Transcribe-1 soll in 25 Sprachen zuverlässig transkribieren — auch wenn im Hintergrund die Baustelle hämmert.
Ein neues Tool taucht auf Product Hunt auf und nennt sich „privates KI-Voice-Toolkit". Klingt groß. Die Details? Praktisch nicht vorhanden.
Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.
Cohere veröffentlicht ein neues Voice-Modell — und verschenkt es an alle. Der Fokus: Transkription, nicht Chatbot-Gelaber.
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Das Internet Archive hat Zehntausende Konzertmitschnitte digitalisiert und frei zugänglich gemacht. Darunter: R.E.M., Depeche Mode — und ein Nirvana-Gig von 1989, als die Band ...
Die Szene liefert ab. Interconnects hat in seiner 20. Ausgabe der "Open Artifacts" so viele verschiedene Modelle gesammelt wie noch nie — und diesmal kommen sie nicht nur von den ...
Die Modell-Landschaft explodiert — und diesmal nicht wegen der üblichen Verdächtigen. Statt Qwen, DeepSeek oder Kimi dominieren plötzlich neue Namen die Open-Source-Charts. Von ...
Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.
Together AI bringt den schnellsten Sprach-KI-Stack auf den Markt. Unter einer Sekunde Latenz — vom gesprochenen Wort bis zur gesprochenen Antwort.