Suche: Whisper

TOOLS

Cohere knackt Whisper mit Open-Source-Modell

Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...

The Decoder · 2026-03-30 01:38:53.809617+00:00 · Score 7/10

TOOLS

Coheres neues Modell schlägt OpenAIs Whisper

Cohere hat ein Open-Source-Modell für automatische Spracherkennung veröffentlicht. Laut Benchmarks lässt es alle bisherigen Konkurrenten hinter sich — inklusive OpenAIs Whisper.

The Decoder · 2026-03-27 20:18:38.404309+00:00 · Score 8/10

TOOLS

Cohere baut jetzt auch Sprache zu Text um

Cohere kennt man für Text-Modelle und Embeddings. Jetzt steigt das Unternehmen mit "Cohere Transcribe" in den Markt für automatische Spracherkennung ein.

MarkTechPost · 2026-03-26 17:21:29.866616+00:00 · Score 6/10

TOOLS

OpenAI öffnet ChatGPT und Whisper per API

OpenAI macht Ernst. Ab sofort können Entwickler ChatGPT und das Spracherkennungsmodell Whisper direkt per API in eigene Apps einbauen.

OpenAI News · 2026-03-23 09:19:04.414034+00:00 · Score 8/10

EXPERIMENTAL

Microsoft schenkt euch Whisper-Killer für lau

Microsoft hat VibeVoice veröffentlicht — ein Speech-to-Text-Modell mit eingebauter Speaker Diarization. MIT-lizenziert. Und Simon Willison hat es gerade erst entdeckt, obwohl das ...

Simon Willison · 2026-04-28 01:16:02.092378+00:00 · Score 4/10

TOOLS

Microsoft wirft neues Speech-Modell auf den Markt

Redmond hat ein neues Sprache-zu-Text-Modell vorgestellt. MAI-Transcribe-1 soll in 25 Sprachen zuverlässig transkribieren — auch wenn im Hintergrund die Baustelle hämmert.

The Decoder · 2026-04-03 09:16:26.009464+00:00 · Score 7/10

EXPERIMENTAL

VibeSonic verspricht privates Voice-KI — liefert nichts

Ein neues Tool taucht auf Product Hunt auf und nennt sich „privates KI-Voice-Toolkit". Klingt groß. Die Details? Praktisch nicht vorhanden.

Product Hunt AI · 2026-04-08 10:23:23.526632+00:00 · Score 2/10

HOT

OpenAI bringt KI-Sprechstunde für alle

OpenAI hat drei neue Audio-Modelle in die API geworfen. Jetzt kann jeder Entwickler Echtzeit-KI-Gespräche in seine Apps bauen.

Heise KI · 2026-05-09 01:22:19.615316+00:00 · Score 6/10

HOT

OpenAI feuert drei Audio-Modelle raus

OpenAI bringt gleich drei neue Realtime-Modelle und schaltet die Realtime-API auf produktiv. Schluss mit Beta-Ausreden für Entwickler.

MarkTechPost · 2026-05-09 01:20:19.984534+00:00 · Score 8/10

HOT

OpenAI schlägt zurück: Neue Voice-Modelle crashen Benchmarks

OpenAI hat gerade drei neue Echtzeit-Voice-Modelle rausgehauen. Die alten waren lahme Ente, die neuen sind Turbo.

Latent Space · 2026-05-08 10:22:14.697191+00:00 · Score 7/10

HOT

OpenAI bringt drei neue Sprach-Modelle

OpenAI dreht beim Voice-Game auf. Drei neue Audio-Modelle sollen Live-Gespräche auf GPT-5-Niveau bringen.

The Decoder · 2026-05-07 19:18:17.168377+00:00 · Score 9/10

EXPERIMENTAL

Gemma 4 transkribiert Audio direkt auf dem Mac

Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.

Simon Willison · 2026-04-13 01:15:32.488428+00:00 · Score 3/10

TOOLS

Cohere verschenkt Sprach-KI für alle

Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.

TechCrunch AI · 2026-03-30 01:30:12.525561+00:00 · Score 6/10

TOOLS

Cohere macht Sprache-zu-Text Open Source

Cohere veröffentlicht ein neues Voice-Modell — und verschenkt es an alle. Der Fokus: Transkription, nicht Chatbot-Gelaber.

TechCrunch AI · 2026-03-26 14:18:35.256368+00:00 · Score 6/10

TOOLS

Tencent macht Echtzeit-Sprach-KI für alle frei

Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.

MarkTechPost · 2026-03-26 11:18:22.116324+00:00 · Score 6/10

EXPERIMENTAL

Reachy Mini spricht jetzt komplett offline

Hugging Face hat seinen Tisch-Roboter Reachy Mini auf vollständig lokalen Betrieb umgestellt. Keine Cloud, keine API-Calls, keine Latenz aus Übersee.

Hugging Face Blog · 2026-05-27 16:19:56.847042+00:00 · Score 5/10

TOOLS

IBM wirft zwei Speech-Modelle auf Hugging Face

IBM hat Granite Speech 4.1 2B und 4.1 2B-NAR veröffentlicht — beide Open Source unter Apache 2.0. Zwei kompakte Speech-Modelle, die zeigen, was 2 Milliarden Parameter im ...

MarkTechPost · 2026-05-01 04:16:17.291173+00:00 · Score 6/10

EXPERIMENTAL

Audio-KI für alle: Smol-Audio macht Fine-Tuning easy

Eine neue Notebook-Sammlung schmeißt fünf Audio-Modelle in einen Colab-Topf. Trainieren ohne Server-Park.

MarkTechPost · 2026-04-30 04:24:51.688687+00:00 · Score 2/10

EXPERIMENTAL

KI spricht jetzt wie 1930

Drei Forscher haben ein Sprachmodell gebaut, das nur Text von vor 1931 kennt. 13 Milliarden Parameter, trainiert auf 260 Milliarden Tokens — alles aus einer Zeit, als Radio noch ...

Simon Willison · 2026-04-28 04:15:27.062184+00:00 · Score 7/10

EXPERIMENTAL

Internet Archive rettet 40.000 Konzerte vor dem Vergessen

Das Internet Archive hat Zehntausende Konzertmitschnitte digitalisiert und frei zugänglich gemacht. Darunter: R.E.M., Depeche Mode — und ein Nirvana-Gig von 1989, als die Band ...

Golem KI · 2026-04-15 10:20:56.661031+00:00 · Score 2/10

SUCHE

Cohere knackt Whisper mit Open-Source-Modell

Coheres neues Modell schlägt OpenAIs Whisper

Cohere baut jetzt auch Sprache zu Text um

OpenAI öffnet ChatGPT und Whisper per API

Microsoft schenkt euch Whisper-Killer für lau

Microsoft wirft neues Speech-Modell auf den Markt

VibeSonic verspricht privates Voice-KI — liefert nichts

OpenAI bringt KI-Sprechstunde für alle

OpenAI feuert drei Audio-Modelle raus

OpenAI schlägt zurück: Neue Voice-Modelle crashen Benchmarks

OpenAI bringt drei neue Sprach-Modelle

Gemma 4 transkribiert Audio direkt auf dem Mac

Cohere verschenkt Sprach-KI für alle

Cohere macht Sprache-zu-Text Open Source

Tencent macht Echtzeit-Sprach-KI für alle frei

Reachy Mini spricht jetzt komplett offline

IBM wirft zwei Speech-Modelle auf Hugging Face

Audio-KI für alle: Smol-Audio macht Fine-Tuning easy

KI spricht jetzt wie 1930

Internet Archive rettet 40.000 Konzerte vor dem Vergessen