AutoKernel: Ein Agent schreibt deine GPU-Kernel
RightNow AI hat AutoKernel veröffentlicht — ein Open-Source-Framework, das einen autonomen LLM-Agenten auf GPU-Kernel-Optimierung loslässt. Die Idee: PyTorch-Modell rein, schnellere Triton-Kernel raus. Ohne dass du selbst CUDA anfassen musst.
Wie das funktioniert
AutoKernel nutzt eine Agent-Loop. Ein LLM analysiert dein Modell, generiert Triton-Kernel, testet sie, misst die Performance — und iteriert. Alles automatisch, alles über Nacht.
Du gibst ein beliebiges PyTorch-Modell rein. Am nächsten Morgen hast du optimierte Kernel. Zumindest ist das das Versprechen.
💡 Was das bedeutet
GPU-Kernel von Hand zu schreiben ist eine der undankbarsten Aufgaben im ML-Engineering. Es gibt weltweit vielleicht ein paar tausend Leute, die das wirklich gut können. Wenn ein Agent auch nur 80% dieser Arbeit übernimmt, senkt das die Einstiegshürde für schnelle Inferenz massiv.
✅ Pro
- Open Source — jeder kann es nutzen und verbessern
- Funktioniert mit beliebigen PyTorch-Modellen
- Kein GPU-Expertenwissen nötig
- Arxiv-Paper liefert technische Substanz
❌ Con
- RightNow AI ist ein kleines Lab — Community und Support sind Fragezeichen
- Agent-Loops können teuer werden (LLM-API-Kosten für lange Iterationen)
- Triton-Kernel sind nicht immer die schnellste Option gegenüber handgeschriebenem CUDA
Einordnung
Das ist kein Startup-Pitch ohne Code. Es gibt ein Paper, es gibt ein Repo, es gibt eine Demo. Aber: Automatische Kernel-Optimierung ist ein hartes Problem. Die Frage ist nicht ob der Agent Kernel schreiben kann — sondern ob sie im Ernstfall mit handoptimierten Varianten mithalten.