Qu’est-ce qu’un bon outil d’annotation vidéo ?


Selon que vous voulez annoter une vidéo avec des sous-titres et des emoji mignons (par exemple pour la mettre sur youtube), ou que vous voulez annoter des objets ou des événements dans la vidéo dans le but d'utiliser les données annotées pour entraîner des algorithmes d'apprentissage automatique, vous devez choisir parmi les deux types de réponses ci-dessous.

Pour les besoins de l'apprentissage automatique, ces annotations sont généralement extrêmement chronophages. (Par exemple, une startup de conduite autonome a mentionné dans un podcast que pour chaque heure de conduite, elle investit plus de 600 heures dans l'annotation des données collectées). Le choix de l'outil d'annotation peut donc avoir un effet considérable sur le coût du temps. L'annotation d'images est de loin plus simple que l'annotation de vidéos. La vidéo est une structure de données complexe, et tout ce qui la concerne est plus difficile. Pour annoter une vidéo, vous devez gérer des codecs et des lecteurs vidéo incompatibles, synchroniser les annotations entre les images, suivre plusieurs objets annotés avec des états variables sur plusieurs images et concevoir une interface utilisateur permettant des opérations complexes. Pour couronner le tout, dans une minute de vidéo, il y a 1800 images qui doivent être annotées. Dans notre cas particulier de conduite autonome, nous avons utilisé Tasq.


Un guide pour annoter des vidéos pour l'apprentissage automatique. VOICI LES POINTS FORTS :

Si vous cherchez à annoter des vidéos pour un ensemble de données d'entraînement ML, quelles sont vos options ? Les voici, de la pire à la meilleure.

  • Prenez un échantillon de vos vidéos, extrayez toutes les images et annotez-les en tant qu'images. Nous vous recommandons de ne pas le faire, car vous vous privez de tous les avantages inhérents au format vidéo tout en subissant le coût de l'annotation d'un grand nombre d'images. Même en utilisant une équipe d'annotateurs, cette approche n'est pas efficace.
  • Prenez quelques vidéos, procurez-vous un outil d'annotation vidéo, et faites un effort personnel sur quelques jours pour les annoter (en tant que vidéos). Il est probable que cela ne fonctionnera pas. Même une courte vidéo peut prendre plusieurs heures à annoter.
  • Utiliser un ensemble de données pertinent disponible pour la formation. En fonction de votre problème spécifique et de la similitude de vos données avec l'ensemble de données d'entraînement disponible, c'est un excellent raccourci à prendre. Si vous avez cette option, allez-y.
  • Prenez un échantillon de vos vidéos, obtenez un outil d'annotation vidéo, engagez une équipe interne/à distance, et annotez-les (en tant que vidéos). Cela peut fonctionner. Continuez à lire pour en savoir plus sur les outils d'annotation.

Si vous avez décidé d'utiliser un outil d'annotation vidéo, voici les caractéristiques importantes à prendre en compte dans les outils que vous évaluez :

  • Annoter les images clés. Il y a 1800 images par minute dans une vidéo 30fps, mais les images suivantes sont généralement corrélées : vous ne voulez pas (et ne devez pas) annoter chaque image à partir de zéro. Au minimum, l'annotation des images clés et l'interpolation entre elles sont nécessaires.
  • Format vidéo natif. Vous ne voulez pas extraire toutes les images de la vidéo pour pouvoir les annoter - si votre outil nécessite cette étape, c'est un signe certain que cet outil annote, en fait, des images et non des vidéos.
  • Tracking et intégration ML. Le suivi automatisé des objets annotés (par exemple, en utilisant le flux optique) peut faire gagner beaucoup de temps dans les annotations. La possibilité d'utiliser les prédictions des modèles d'apprentissage automatique pour les annotations initiales (à corriger par des experts) est un autre gain de temps. Les outils qui utilisent l'apprentissage actif, où l'annotateur enseigne essentiellement le modèle ML, peuvent être particulièrement utiles.
  • Consistent IDs. Lorsqu'il y a plus d'un objet annoté, les objets doivent avoir des ID cohérents pour la durée de la vidéo. Cela est utile chaque fois que vous voulez suivre des objets tout au long d'une vidéo, et devient crucial si les objets entrent et sortent du cadre pendant la vidéo.
  • Annotation distribuée. Chaque minute d'une vidéo peut prendre des heures à annoter. L'option de partager la charge de travail d'annotation entre une équipe de travailleurs est extrêmement bénéfique. Le processus d'installation et de configuration pour chaque travailleur, s'il existe, devrait être minimal.
  • Segmentation des longues vidéos. Un autre aspect de la distribution d'une charge de travail importante est la possibilité de diviser de longues vidéos en segments plus courts (chaque segment peut être annoté par différents travailleurs), puis de fusionner les annotations résultantes, avec une qualité constante.
  • Multiples annotateurs. Comparez et fusionnez plusieurs annotations de plusieurs travailleurs sur le même segment vidéo, pour réduire les erreurs d'annotation et améliorer la qualité.
  • Etiquettes personnalisées. Vous pouvez personnaliser les outils d'annotation pour ajouter vos propres étiquettes.
  • Attributs personnalisés. Pouvez-vous personnaliser les outils d'annotation pour ajouter des attributs personnalisés aux objets (par exemple, la couleur des feux de signalisation) ?
  • Types d'annotation. Le logiciel dispose-t-il de ce dont vous avez besoin ? Boîtes englobantes (BBOX), lignes, cercles, points, boîtes 3D.

.