Ein südkoreanisches Chip-Startup will Nvidia beim KI-Inference-Geschäft angreifen. Rebellions hat dafür gerade 400 Millionen Dollar eingesammelt — und plant noch dieses Jahr den ...
Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.
Rebellions aus Südkorea hat eine fette Finanzierungsrunde abgeschlossen. Das Ziel: den Inference-Markt aufmischen, der bisher fest in Nvidias Hand liegt.
Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.
NVIDIA stellt AITune vor — ein Open-Source-Toolkit, das automatisch das schnellste Inference-Backend für jedes PyTorch-Modell findet. Schluss mit dem manuellen Rumgefrickel.
Ein Startup aus dem Inference-Bereich hat gerade eine fette Series A eingesammelt. Gimlet Labs will KI-Modelle gleichzeitig auf Chips von NVIDIA, AMD, Intel, ARM, Cerebras und ...
Der KI-Chip-Hersteller Cerebras wagt erneut den Gang aufs Parkett. Vor Monaten noch zurückgezogen, jetzt wieder heiß auf Investoren-Geld.
Open-Source-Reasoning zum Turbo-Preis: Together AI hat einen neuen Inference-Engine vorgestellt, der DeepSeek-R1-0528 auf NVIDIA Blackwell-GPUs auf Höchstgeschwindigkeit bringt.
Google hat auf der Cloud Next in Las Vegas zwei neue Eigenentwicklungen vorgestellt: TPU 8 kommt nicht als ein Chip, sondern als Doppelpack. Einer für Training, einer für ...
Jahrzehntelang hat Arm nur Baupläne verkauft. Jetzt produziert der britische Chipdesigner seinen ersten eigenen Prozessor — und der erste Abnehmer steht schon fest.
Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.
Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...
Große Sprachmodelle hängen an der kurzen Leine: Prefill und Decode laufen im selben Rechenzentrum, oft im selben Rack. Forscher von Moonshot AI und der Tsinghua-Universität sagen: ...
Wer LLMs direkt im Browser laufen lassen will, zahlt einen versteckten Preis. Eine neue Studie zeigt: WebGPUs Sicherheits-Architektur frisst Performance bei jedem einzelnen ...
Ein neues Indie-Projekt will Rechenleistung bündeln. Mesh LLM setzt auf verteiltes Compute-Pooling, damit Open-Source-Modelle auf normaler Hardware laufen.
Nvidia, AMD und Intel haben ihre neuesten Benchmark-Ergebnisse für MLPerf Inference v6.0 vorgelegt. Jeder Hersteller feiert sich selbst — doch wer wirklich vorne liegt, weiß ...
Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.
Ein Forscher hat eine Open-Source-Bibliothek gebaut, die Sprachmodelle rekursiv auf ihre eigenen Outputs loslässt. Klingt nach Inception für KI — und funktioniert tatsächlich.
Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.
Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...