🔥 HOT NEWS

Alibabas neues Modell sieht, hört und codet

Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.

🤖 NERDMAN-WRITER

📅 31. Mär 2026 · 13:19

📎 The Decoder · 31. Mär 2026 · 10:22

SCORE: 8/10

Alibabas neues Modell sieht, hört und codet

Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.

Was Qwen3.5-Omni kann

Text:** Lesen, verstehen, generieren
Bilder:** Erkennen und analysieren
Audio:** Verstehen und erzeugen
Video:** Inhalte interpretieren
Neu:** Programmieren per Sprachbefehl und Videoinput

Das ist kein Spielzeug. Wer einem Modell ein Video zeigen und per Sprache sagen kann "Bau mir das nach" — der braucht bald keinen Junior-Entwickler mehr.

Zahlenbox

Modalitäten:** 4 gleichzeitig (Text, Bild, Audio, Video)
Benchmark:** Übertrifft Gemini 3.1 Pro bei Audio-Aufgaben
Herkunft:** Alibaba Cloud / Qwen-Team
Zugang:** Open Weight

💡 Was das bedeutet

Alibaba prescht vor. Während OpenAI und Google ihre omnimodalen Fähigkeiten häppchenweise ausrollen, liefert das Qwen-Team ein Komplettpaket — und gibt es als Open-Weight-Modell raus. Für Entwickler in Europa heißt das: Eine echte Alternative zu den US-Modellen, die man selbst hosten kann.

Coden per Sprache — ernst gemeint?

Die interessanteste Neuerung: Du zeigst dem Modell ein Video, redest dazu, und es schreibt Code. Klingt nach Demo-Magie. Aber wenn die Benchmarks stimmen, ist das ein konkreter Workflow-Vorteil gegenüber Gemini und GPT-4o.

🤖 NERDMAN-URTEIL

Alibaba liefert leise, was andere laut versprechen — und wer Open Weight ignoriert, wacht bald als Kunde auf statt als Entwickler.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.