Weak-to-strong generalization

Concept

An OpenAI paper discussing how to make a weaker model (e.g., GPT-2) smarter by using a stronger one (e.g., GPT-4), relevant to superalignment and controlling future superintelligence.

Mentioned in 1 video