Elon Musks xAI hat eine neue API live geschaltet: "Custom Voices". Entwickler können damit ihre eigene Stimme klonen — in unter 120 Sekunden.
xAI hat ein neues Sprachmodell veröffentlicht: grok-voice-think-fast-1.0. Es führt den τ-voice Bench mit 67,3% an — und lässt damit Gemini, GPT Realtime und alle anderen hinter ...
Die Oculus-Gründer sind zurück — diesmal mit einer App, die wie ein echter Mensch quatschen will. Sesame veröffentlicht seinen Conversational-AI-Agenten ab sofort fürs iPhone.
OpenAI hat gerade drei neue Echtzeit-Voice-Modelle rausgehauen. Die alten waren lahme Ente, die neuen sind Turbo.
Wer mit KI redet, will nicht warten. Salesforce AI Research hat ein neues Framework vorgestellt, das die Antwortzeit von sprachbasierten RAG-Systemen um das 316-Fache drückt.
OpenAI dreht an der Voice-Schraube. Neue Voice-Intelligence-Features landen ab sofort im API — und sollen weit mehr können als Callcenter beschallen.
Ein neues Tool taucht auf Product Hunt auf und nennt sich „privates KI-Voice-Toolkit". Klingt groß. Die Details? Praktisch nicht vorhanden.
ElevenLabs hat seine neue Investoren-Liste enthüllt — und die ist prall gefüllt. Voice-AI-Startup knackt zusätzlich die 500-Millionen-Dollar-ARR-Marke.
Mistral hat ein neues Open-Source-Modell für Sprachgenerierung veröffentlicht. Damit steigt das französische KI-Lab direkt in den Ring mit ElevenLabs, Deepgram und OpenAI.
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
AWS und Stream zeigen, wie ein Open-Source-Framework die klassische Voice-Pipeline kollabiert. Statt STT → LLM → TTS gibt's jetzt Speech-to-Speech direkt aus Bedrock.
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Lab hat ein eigenes TTS-Modell vorgestellt — neun Sprachen, Fokus auf Voice Agents.
Google hat Gemini 3.1 Flash Live vorgestellt. Das neue Modell soll bei Sprachdialogen natürlicher klingen als der Vorgänger — und dabei schneller reagieren.
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Unternehmen hat ein eigenes TTS-Modell vorgestellt, das neun Sprachen beherrscht und speziell für Voice ...
Cohere veröffentlicht ein neues Voice-Modell — und verschenkt es an alle. Der Fokus: Transkription, nicht Chatbot-Gelaber.
Google rüstet Gmail mit Voice-Suche auf. Du sprichst, Gemini wühlt sich durch deinen Posteingang.
OpenAI bringt gleich drei neue Realtime-Modelle und schaltet die Realtime-API auf produktiv. Schluss mit Beta-Ausreden für Entwickler.
OpenAI dreht beim Voice-Game auf. Drei neue Audio-Modelle sollen Live-Gespräche auf GPT-5-Niveau bringen.
Eine neue Cybercrime-Plattform namens ATHR automatisiert Voice-Phishing komplett. Kriminelle mieten KI-Stimmen, die Opfer anrufen und Logins abgreifen — im Akkord.
Elevenlabs, Speechify, Descript — drei Klicks, und deine Stimme ist geklont. Was kaum jemand checkt: Die AGB dieser Dienste räumen sich Rechte ein, die weit über das hinausgehen, ...