December 2022 safety news: Constitutional AI…

Jan 4, 2023

Better version of the monthly Twitter thread. Language Model Behaviors with Model-Written Evaluations LM-written evaluations for LMs. Automatically generating behavioral questions helps discover previously hard-to-measure phenomena. Larger RLHF models exhibit harmful self-preservation preferences:

Read →

0 Comments

AI safety takes

December 2022 safety news: Constitutional AI…