CoCLR est une nouvelle méthode d'apprentissage auto-supervisé pour la représentation vidéo. Elle exploite des données uniquement visuelles pour co-entraîner des modèles de représentation vidéo en utilisant les objectifs InfoNCE et MoCo sur des vidéos. Cette méthode répond à la nécessité de traiter efficacement de grandes quantités de données vidéo non étiquetées, la rendant précieuse pour des applications où les données étiquetées sont rares ou indisponibles.