Anthropic hat seinen Mitarbeitern einen internen Marketplace gebaut. Aber nicht die Menschen verhandeln — ihre Claude-Agenten übernehmen das Feilschen.
Ein neues arXiv-Paper drückt die Cramér-Distanz in den Soft-Actor-Critic-Algorithmus. Das Ergebnis heißt C-DSAC und ist reine Mathe-Spielerei für RL-Nerds.