November 2022 safety news: Mode collapse in…

Dec 1, 2022

Better version of the monthly Twitter thread. Adversarial Policies Beat Professional-Level Go AIs Adversarial policies in Go. Policies trained on self-play can be exploited by adversarially playing towards an out-of-distribution state of the board. The adversary is trained via a simple AlphaZero-like tree search method.

Read →

0 Comments

AI safety takes

November 2022 safety news: Mode collapse in…