Vija

Software / App

A video JEPA model that uses temporal masking on consecutive frames to predict unseen areas, employing an EMA encoder and stop gradient for regularization.

Mentioned in 1 video

Videos Mentioning Vija

Stanford CS25: Transformers United V6 I From Representation Learning to World Modeling

Stanford Online

A video JEPA model that uses temporal masking on consecutive frames to predict unseen areas, employing an EMA encoder and stop gradient for regularization.