Wer mit KI redet, will nicht warten. Salesforce AI Research hat ein neues Framework vorgestellt, das die Antwortzeit von sprachbasierten RAG-Systemen um das 316-Fache drückt.
Ein neues Tool taucht auf Product Hunt auf und nennt sich „privates KI-Voice-Toolkit". Klingt groß. Die Details? Praktisch nicht vorhanden.
Mistral hat ein neues Open-Source-Modell für Sprachgenerierung veröffentlicht. Damit steigt das französische KI-Lab direkt in den Ring mit ElevenLabs, Deepgram und OpenAI.
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Lab hat ein eigenes TTS-Modell vorgestellt — neun Sprachen, Fokus auf Voice Agents.
Google hat Gemini 3.1 Flash Live vorgestellt. Das neue Modell soll bei Sprachdialogen natürlicher klingen als der Vorgänger — und dabei schneller reagieren.
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Unternehmen hat ein eigenes TTS-Modell vorgestellt, das neun Sprachen beherrscht und speziell für Voice ...
Cohere veröffentlicht ein neues Voice-Modell — und verschenkt es an alle. Der Fokus: Transkription, nicht Chatbot-Gelaber.
Eine neue Cybercrime-Plattform namens ATHR automatisiert Voice-Phishing komplett. Kriminelle mieten KI-Stimmen, die Opfer anrufen und Logins abgreifen — im Akkord.
Elevenlabs, Speechify, Descript — drei Klicks, und deine Stimme ist geklont. Was kaum jemand checkt: Die AGB dieser Dienste räumen sich Rechte ein, die weit über das hinausgehen, ...
NVIDIA hat PersonaPlex veröffentlicht — ein Speech-to-Speech-Modell, das in Echtzeit spricht und dabei eine feste Persona halten kann. Kein Chatbot-Gestammel, sondern echte ...
Together AI bringt den schnellsten Sprach-KI-Stack auf den Markt. Unter einer Sekunde Latenz — vom gesprochenen Wort bis zur gesprochenen Antwort.
Microsoft macht ernst. Statt nur OpenAI-Technik weiterzuverkaufen, bringt der Konzern jetzt eigene KI-Modelle für Sprache und Bild auf den Markt.
Suno bringt Version 5.5 raus. Die Musik-KI lässt dich jetzt mit deiner eigenen Stimme Songs erstellen — und trainiert Modelle auf deinen Sound.
Ein Anruf genügt. Voice Phishing ist laut Google die Nummer-1-Methode, mit der Kriminelle in Cloud-Umgebungen einbrechen — und insgesamt die zweithäufigste Einstiegstür bei allen ...
OpenAI rollt neue Voice- und Image-Features für ChatGPT aus. Ab sofort kann der Chatbot Bilder analysieren und per Sprache antworten — direkt in der App.
Google hat sein neues Audio-Modell gestartet. Gemini 3.1 Flash TTS soll KI-Stimmen ausdrucksstärker machen — und ist ab sofort in Google-Produkten verfügbar.
Chinesische Forscher bauen ein Text-to-Speech-System, das komplett ohne diskrete Token arbeitet. Stattdessen: durchgehende Diffusion, End-to-End, direkt von Text zu Sprache.
Suno knallt das bisher größte Update raus. Version 5.5 dreht nicht an der Soundqualität — sondern gibt Nutzern die Kontrolle über ihre Musik-KI.
Google hat eine eigenständige Gemini-App für macOS veröffentlicht. Kein Browser-Tab mehr, kein Fenster-Gewechsel — Tastenkürzel drücken, Frage stellen, fertig.