Forscher erklären Halluzinationen zum Klassifikations-Fehler
Ein neues Paper aus dem Arxiv will LLM-Halluzinationen nicht wegtrainieren — sondern wegfiltern. Der Ansatz: Wenn das Modell sich unsicher ist, soll es einfach die Klappe halten.
Die Idee dahinter
Die Autoren sagen: Halluzinationen sind kein mysteriöses Problem. Sie sind simpler Output, der fälschlich als fundiert durchgeht. Ein Klassifikations-Fehler an der Ausgabe-Grenze. Klingt banal — ist aber ein nützlicher Perspektivwechsel.
Wie das funktioniert
Statt am Modell selbst zu schrauben, setzen die Forscher einen sogenannten "Abstention Gate" vor den Output. Ein Tor, das entscheidet: Antwort raus oder Mund halten.
Drei Signale speisen die Entscheidung:
- Self-Consistency (At):** Gibt das Modell bei gleicher Frage mehrfach die gleiche Antwort?
- Paraphrase Stability (Pt):** Bleibt die Antwort stabil, wenn die Frage umformuliert wird?
- Support Deficit Score (St):** Wie groß ist die Lücke zwischen Behauptung und Beleg?
💡 Was das bedeutet
Der Clou: Alles läuft als Black-Box-Verfahren. Man braucht keinen Zugriff auf die Modell-Gewichte. Das heißt: theoretisch anwendbar auf GPT, Claude, Gemini — auf alles. Wenn die Scores schlecht ausfallen, verweigert das System die Antwort statt Unsinn rauszuhauen.
✅ Pro
- Funktioniert ohne Modell-Zugriff
- Kombiniert mehrere Signale statt nur eines
- Sauberer theoretischer Rahmen
❌ Con
- Nur Paper, kein nutzbares Tool
- Kein Benchmark-Vergleich mit bestehenden Methoden erwähnt
- "Abstention" heißt: keine Antwort statt falsche Antwort — das nervt User