Suche: Inference

GELD

Rebellions holt 400 Millionen für Nvidia-Angriff

Ein südkoreanisches Chip-Startup will Nvidia beim KI-Inference-Geschäft angreifen. Rebellions hat dafür gerade 400 Millionen Dollar eingesammelt — und plant noch dieses Jahr den ...

TechCrunch AI · 2026-03-30 16:20:37.987291+00:00 · Score 7/10

TOOLS

Together AI macht LLM-Inference 4x schneller

Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.

Together AI Blog · 2026-03-23 18:18:30.414090+00:00 · Score 7/10

GELD

Koreanischer Chip-Startup holt 400 Millionen Dollar

Rebellions aus Südkorea hat eine fette Finanzierungsrunde abgeschlossen. Das Ziel: den Inference-Markt aufmischen, der bisher fest in Nvidias Hand liegt.

AI Business · 2026-03-31 16:18:44.407247+00:00 · Score 6/10

HOT

Nvidia spaltet Inference mit neuem Rubin-Chip

Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.

SemiAnalysis · 2026-03-23 15:19:49.750740+00:00 · Score 6/10

TOOLS

NVIDIA verschenkt Turbo-Tool für KI-Inference

NVIDIA stellt AITune vor — ein Open-Source-Toolkit, das automatisch das schnellste Inference-Backend für jedes PyTorch-Modell findet. Schluss mit dem manuellen Rumgefrickel.

MarkTechPost · 2026-04-10 19:20:28.998103+00:00 · Score 6/10

GELD

Gimlet Labs holt 80 Millionen für Multi-Chip-Trick

Ein Startup aus dem Inference-Bereich hat gerade eine fette Series A eingesammelt. Gimlet Labs will KI-Modelle gleichzeitig auf Chips von NVIDIA, AMD, Intel, ARM, Cerebras und ...

TechCrunch AI · 2026-03-24 00:18:41.680886+00:00 · Score 7/10

GELD

Cerebras will an die Börse — zweiter Anlauf

Der KI-Chip-Hersteller Cerebras wagt erneut den Gang aufs Parkett. Vor Monaten noch zurückgezogen, jetzt wieder heiß auf Investoren-Geld.

Bloomberg Technology · 2026-04-20 22:19:33.313819+00:00 · Score 6/10

TOOLS

Together AI macht DeepSeek-R1 absurd schnell

Open-Source-Reasoning zum Turbo-Preis: Together AI hat einen neuen Inference-Engine vorgestellt, der DeepSeek-R1-0528 auf NVIDIA Blackwell-GPUs auf Höchstgeschwindigkeit bringt.

Together AI Blog · 2026-03-23 15:32:58.175914+00:00 · Score 7/10

HOT

Google spaltet seinen Super-Chip in zwei

Google hat auf der Cloud Next in Las Vegas zwei neue Eigenentwicklungen vorgestellt: TPU 8 kommt nicht als ein Chip, sondern als Doppelpack. Einer für Training, einer für ...

The Register AI · 2026-04-22 13:19:06.019116+00:00 · Score 6/10

HOT

Arm baut erstmals eigene Chips — Meta kauft

Jahrzehntelang hat Arm nur Baupläne verkauft. Jetzt produziert der britische Chipdesigner seinen ersten eigenen Prozessor — und der erste Abnehmer steht schon fest.

The Verge AI · 2026-03-24 23:20:01.131637+00:00 · Score 6/10

TOOLS

Together AI macht Open-Source-Modelle doppelt so schnell

Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.

Together AI Blog · 2026-03-23 21:19:04.910781+00:00 · Score 6/10

AGENTS

Mehr Rechenzeit macht LLMs schlauer

Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...

Ahead of AI (Raschka) · 2026-03-22 01:22:46.858707+00:00 · Score 5/10

EXPERIMENTAL

Moonshot AI knackt die Datacenter-Mauer für LLMs

Große Sprachmodelle hängen an der kurzen Leine: Prefill und Decode laufen im selben Rechenzentrum, oft im selben Rack. Forscher von Moonshot AI und der Tsinghua-Universität sagen: ...

MarkTechPost · 2026-04-20 04:17:21.990365+00:00 · Score 5/10

EXPERIMENTAL

WebGPU bremst KI im Browser aus

Wer LLMs direkt im Browser laufen lassen will, zahlt einen versteckten Preis. Eine neue Studie zeigt: WebGPUs Sicherheits-Architektur frisst Performance bei jedem einzelnen ...

arXiv AI/ML/NLP · 2026-04-06 07:19:10.914630+00:00 · Score 2/10

EXPERIMENTAL

Mesh LLM will GPU-Power vom Nachbarn klauen

Ein neues Indie-Projekt will Rechenleistung bündeln. Mesh LLM setzt auf verteiltes Compute-Pooling, damit Open-Source-Modelle auf normaler Hardware laufen.

Product Hunt AI · 2026-04-03 10:19:50.098390+00:00 · Score 3/10

AGENTS

MLPerf v6.0: Alle feiern Rekorde, keiner gewinnt

Nvidia, AMD und Intel haben ihre neuesten Benchmark-Ergebnisse für MLPerf Inference v6.0 vorgelegt. Jeder Hersteller feiert sich selbst — doch wer wirklich vorne liegt, weiß ...

The Decoder · 2026-04-03 09:20:26.912053+00:00 · Score 6/10

EXPERIMENTAL

Lokale KI scheitert nicht am Modell

Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.

Simon Willison · 2026-03-30 22:18:25.263167+00:00 · Score 2/10

EXPERIMENTAL

Dieses Framework lässt LLMs sich selbst aufrufen

Ein Forscher hat eine Open-Source-Bibliothek gebaut, die Sprachmodelle rekursiv auf ihre eigenen Outputs loslässt. Klingt nach Inception für KI — und funktioniert tatsächlich.

GitHub Trending Python · 2026-04-21 04:18:49.343179+00:00 · Score 4/10

EXPERIMENTAL

KV-Cache-Kompression knackt die Shannon-Grenze

Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.

arXiv AI/ML/NLP · 2026-04-20 07:16:55.795006+00:00 · Score 4/10

EXPERIMENTAL

PCA enthüllt: So "denkt" ein KI-Modell heimlich

Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...

LessWrong · 2026-04-18 22:19:27.973713+00:00 · Score 3/10

SUCHE

Rebellions holt 400 Millionen für Nvidia-Angriff

Together AI macht LLM-Inference 4x schneller

Koreanischer Chip-Startup holt 400 Millionen Dollar

Nvidia spaltet Inference mit neuem Rubin-Chip

NVIDIA verschenkt Turbo-Tool für KI-Inference

Gimlet Labs holt 80 Millionen für Multi-Chip-Trick

Cerebras will an die Börse — zweiter Anlauf

Together AI macht DeepSeek-R1 absurd schnell

Google spaltet seinen Super-Chip in zwei

Arm baut erstmals eigene Chips — Meta kauft

Together AI macht Open-Source-Modelle doppelt so schnell

Mehr Rechenzeit macht LLMs schlauer

Moonshot AI knackt die Datacenter-Mauer für LLMs

WebGPU bremst KI im Browser aus

Mesh LLM will GPU-Power vom Nachbarn klauen

MLPerf v6.0: Alle feiern Rekorde, keiner gewinnt

Lokale KI scheitert nicht am Modell

Dieses Framework lässt LLMs sich selbst aufrufen

KV-Cache-Kompression knackt die Shannon-Grenze

PCA enthüllt: So "denkt" ein KI-Modell heimlich