Suche: Architekturen

TOOLS

IBM bringt Granite 4.1 — Hybrid-Architektur statt Hype

IBM hat Granite 4.1 veröffentlicht — die nächste Generation der Open-Weight-LLMs aus dem Big-Blue-Lager. Hugging Face hat den Aufbau jetzt im Detail dokumentiert.

Hugging Face Blog · 2026-04-29 16:15:37.439543+00:00 · Score 6/10

EXPERIMENTAL

Forscher lassen LLMs neue KI-Architekturen bauen

Ein neues arXiv-Paper schickt Large Language Models in die Neural Architecture Search. Die Idee: Statt Menschen lassen wir die KI selbst bessere KI-Modelle entwerfen.

arXiv AI/ML/NLP · 2026-05-07 04:21:37.470620+00:00 · Score 2/10

EXPERIMENTAL

770M Parameter jagen Anthropics geheime Architektur

Ein Typ auf GitHub hat versucht, Claudes geheime Modell-Architektur nachzubauen. Ohne Paper. Ohne Leak. Nur mit Theorie und PyTorch.

MarkTechPost · 2026-04-20 01:19:11.605611+00:00 · Score 4/10

EXPERIMENTAL

Uni Hong Kong baut KI-Tutor mit Agent-Architektur

Eine Forschergruppe der Hong Kong University hat DeepTutor neu aufgesetzt — komplett umgeschrieben, jetzt mit Agent-Architektur. Version 1.0.0-beta.1 ist seit dem 4. April ...

GitHub Trending Python · 2026-04-07 04:15:43.982430+00:00 · Score 4/10

TOOLS

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...

Ahead of AI (Raschka) · 2026-03-22 00:51:06.205132+00:00 · Score 6/10

HOT

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

Google DeepMind · 2026-06-09 16:20:19.383554+00:00 · Score 7/10

EXPERIMENTAL

LSTM kehrt zurück — und will Transformer killen

Die alten Könige der KI-Architektur melden sich zurück. Forscher entstauben LSTM-Netzwerke und bringen sie mit xLSTM in Stellung gegen die Transformer.

TheSequence · 2026-05-05 13:27:20.844302+00:00 · Score 2/10

AGENTS

MiniMax macht sein bestes KI-Modell Open Source

Ein chinesisches KI-Startup veröffentlicht ein Modell, das sich selbst weiterentwickelt hat — und liefert dabei Benchmark-Werte, die aufhorchen lassen.

MarkTechPost · 2026-04-12 10:17:15.102472+00:00 · Score 7/10

HOT

MiniMax knallt M3 raus — 1 Million Token Kontext

Chinesisches Lab MiniMax hat am 1. Juni 2026 sein neues Flaggschiff M3 veröffentlicht. Open-Weight, multimodal, agentenfähig — und mit einer brandneuen Attention-Architektur.

MarkTechPost · 2026-06-01 22:22:04.185759+00:00 · Score 7/10

EXPERIMENTAL

NorBERTo schluckt 331 Milliarden Tokens

Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.

arXiv AI/ML/NLP · 2026-05-04 07:20:30.746849+00:00 · Score 2/10

EXPERIMENTAL

Transformer lernt Schritt für Schritt — per Zwang

Ein Forscher hat einen Transformer dazu gebracht, sequentielle Algorithmen Schicht für Schicht abzuarbeiten. Klingt simpel. Ist es nicht.

LessWrong · 2026-04-27 01:16:33.777864+00:00 · Score 2/10

HOT

DeepSeek-V3 bringt 671 Milliarden Parameter

China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.

GitHub Trending Python · 2026-04-26 04:15:28.885943+00:00 · Score 8/10

EXPERIMENTAL

Moonshot AI knackt die Datacenter-Mauer für LLMs

Große Sprachmodelle hängen an der kurzen Leine: Prefill und Decode laufen im selben Rechenzentrum, oft im selben Rack. Forscher von Moonshot AI und der Tsinghua-Universität sagen: ...

MarkTechPost · 2026-04-20 04:17:21.990365+00:00 · Score 5/10

EXPERIMENTAL

VoxCPM2 wirft den Tokenizer raus

Chinesische Forscher bauen ein Text-to-Speech-System, das komplett ohne diskrete Token arbeitet. Stattdessen: durchgehende Diffusion, End-to-End, direkt von Text zu Sprache.

GitHub Trending Python · 2026-04-10 04:19:08.314319+00:00 · Score 5/10

HOT

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...

MarkTechPost · 2026-03-31 07:19:09.874856+00:00 · Score 7/10

HOT

Transformer bekommt Konkurrenz: 5 neue Architekturen

Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...

Ahead of AI (Raschka) · 2026-03-22 01:22:17.989624+00:00 · Score 5/10

HOT

NVIDIA bläst zum Großangriff: Drei Releases an einem Tag

NVIDIA wirft heute gleich drei Hammer-Releases auf den Markt: Cosmos 3, Nemotron 3 Ultra und den RTX Spark. Jensen Huang meint es ernst mit der KI-Vollbedienung.

Latent Space · 2026-06-02 04:18:20.510460+00:00 · Score 7/10

HOT

MiniMax wirft M3 ins Open-Source-Rennen

MiniMax knallt mit M3 ein Open-Weight-Modell auf den Tisch, das Coding, 1-Million-Token-Kontext und Multimodalität in eine Architektur quetscht. Die Gewichte landen in zehn Tagen ...

The Decoder · 2026-06-01 13:18:20.813956+00:00 · Score 8/10

EXPERIMENTAL

KI auf dem Schlachtfeld: Knowledge Graphs treffen LLMs

Ein Tutorial bei Towards AI erklärt, wie moderne militärische Aufklärung LLMs mit Knowledge Graphs und GNNs verschmilzt. Keine neue Demo, kein Release — aber ein Blick in die ...

Towards AI · 2026-05-30 07:19:00.383981+00:00 · Score 3/10

HOT

NVIDIA zerlegt Qwen3 mit 6× Speed

NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...

MarkTechPost · 2026-05-20 13:20:25.246876+00:00 · Score 7/10

SUCHE

IBM bringt Granite 4.1 — Hybrid-Architektur statt Hype

Forscher lassen LLMs neue KI-Architekturen bauen

770M Parameter jagen Anthropics geheime Architektur

Uni Hong Kong baut KI-Tutor mit Agent-Architektur

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Google wirft Encoder raus — Gemma 4 kommt

LSTM kehrt zurück — und will Transformer killen

MiniMax macht sein bestes KI-Modell Open Source

MiniMax knallt M3 raus — 1 Million Token Kontext

NorBERTo schluckt 331 Milliarden Tokens

Transformer lernt Schritt für Schritt — per Zwang

DeepSeek-V3 bringt 671 Milliarden Parameter

Moonshot AI knackt die Datacenter-Mauer für LLMs

VoxCPM2 wirft den Tokenizer raus

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Transformer bekommt Konkurrenz: 5 neue Architekturen

NVIDIA bläst zum Großangriff: Drei Releases an einem Tag

MiniMax wirft M3 ins Open-Source-Rennen

KI auf dem Schlachtfeld: Knowledge Graphs treffen LLMs

NVIDIA zerlegt Qwen3 mit 6× Speed