Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...
Cohere hat ein Open-Source-Modell für automatische Spracherkennung veröffentlicht. Laut Benchmarks lässt es alle bisherigen Konkurrenten hinter sich — inklusive OpenAIs Whisper.
Cohere kennt man für Text-Modelle und Embeddings. Jetzt steigt das Unternehmen mit "Cohere Transcribe" in den Markt für automatische Spracherkennung ein.
OpenAI macht Ernst. Ab sofort können Entwickler ChatGPT und das Spracherkennungsmodell Whisper direkt per API in eigene Apps einbauen.
Microsoft hat VibeVoice veröffentlicht — ein Speech-to-Text-Modell mit eingebauter Speaker Diarization. MIT-lizenziert. Und Simon Willison hat es gerade erst entdeckt, obwohl das ...
Redmond hat ein neues Sprache-zu-Text-Modell vorgestellt. MAI-Transcribe-1 soll in 25 Sprachen zuverlässig transkribieren — auch wenn im Hintergrund die Baustelle hämmert.
Ein neues Tool taucht auf Product Hunt auf und nennt sich „privates KI-Voice-Toolkit". Klingt groß. Die Details? Praktisch nicht vorhanden.
OpenAI hat drei neue Audio-Modelle in die API geworfen. Jetzt kann jeder Entwickler Echtzeit-KI-Gespräche in seine Apps bauen.
OpenAI bringt gleich drei neue Realtime-Modelle und schaltet die Realtime-API auf produktiv. Schluss mit Beta-Ausreden für Entwickler.
OpenAI hat gerade drei neue Echtzeit-Voice-Modelle rausgehauen. Die alten waren lahme Ente, die neuen sind Turbo.
OpenAI dreht beim Voice-Game auf. Drei neue Audio-Modelle sollen Live-Gespräche auf GPT-5-Niveau bringen.
Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.
Cohere veröffentlicht ein neues Voice-Modell — und verschenkt es an alle. Der Fokus: Transkription, nicht Chatbot-Gelaber.
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Hugging Face hat seinen Tisch-Roboter Reachy Mini auf vollständig lokalen Betrieb umgestellt. Keine Cloud, keine API-Calls, keine Latenz aus Übersee.
IBM hat Granite Speech 4.1 2B und 4.1 2B-NAR veröffentlicht — beide Open Source unter Apache 2.0. Zwei kompakte Speech-Modelle, die zeigen, was 2 Milliarden Parameter im ...
Eine neue Notebook-Sammlung schmeißt fünf Audio-Modelle in einen Colab-Topf. Trainieren ohne Server-Park.
Drei Forscher haben ein Sprachmodell gebaut, das nur Text von vor 1931 kennt. 13 Milliarden Parameter, trainiert auf 260 Milliarden Tokens — alles aus einer Zeit, als Radio noch ...
Das Internet Archive hat Zehntausende Konzertmitschnitte digitalisiert und frei zugänglich gemacht. Darunter: R.E.M., Depeche Mode — und ein Nirvana-Gig von 1989, als die Band ...