Simon Willison hat zwei frische Modelle gegen seinen Pelikan-Benchmark geschickt. Das Ergebnis ist peinlich für Anthropic.