Sweet Bench

Concept

A benchmark used for evaluating reasoning capabilities of language models, where fine-tuning with reasoning data led to outperformance of OpenAI O1.

Mentioned in 2 videos