DDP

Software / App

Naive Data Parallelism, used as a baseline for comparison with Zero stages, characterized by replicating model copies across GPUs.

Mentioned in 2 videos

Save the 2 videos on DDP to your own pod.

Stanford Online

Naive Data Parallelism, used as a baseline for comparison with Zero stages, characterized by replicating model copies across GPUs.

Stanford Online

Distributed Data Parallelism, a class in PyTorch used for data parallelism that automatically handles gradient synchronization.