SWE-Bench

Tool / ProductMentioned in 2 videos

The original academic coding benchmark from a lab at Princeton, which SWE-Bench Verified was a cleaned-up version of.

Videos Mentioning SWE-Bench

Latent Space

The original academic coding benchmark from a lab at Princeton, which SWE-Bench Verified was a cleaned-up version of.

Latent Space

An evaluation benchmark for AI models' ability to complete software engineering tasks, where GPT-4.1 showed significant improvements.