CoCLR es un novedoso método de aprendizaje auto-supervisado para la representación de video. Aprovecha datos únicamente visuales para co-entrenar modelos de representación de video usando el objetivo InfoNCE y MoCo en videos. Este método aborda la necesidad de procesar grandes cantidades de datos de video no etiquetados de manera efectiva, lo que lo hace valioso para aplicaciones donde los datos etiquetados son escasos o no están disponibles.