Existe-t-il un programme informatique capable de lire les lèvres à partir d’une vidéo ?


Comme Ankur le mentionne dans sa réponse, cela semble être un domaine de recherche encore actif - trouvé juste une des implémentations postées sur Github. Le code pour le meilleur modèle Lipnet, n'est pas disponible.

  • Lipnet : end to end sentence level lip reading, ICLR 2017 Cela semble être le travail le plus récent sur ce domaine - soumis pour la conférence ICLR le mois prochain.
    • Lipnet prétend être le premier modèle de lecture labiale au niveau de la phrase avec une précision de 95,2% sur le corpus GRID surpassant le lecteur labial humain expérimenté et l'état de l'art précédent qui a 84% de précision.
    • Le code pour cela n'est pas disponible
  • Les liens vidéo montrent les résultats de ce travail

Voici d'autres exemples d'articles

  • Pondération dynamique des flux pour le turbo-Décodage-.Based Audiovisual ASR 2016 C'était le précédent modèle de performance de l'état de l'art 84% sur le corpus GRID avant lipnet
  • Lipreading with Long Short-Term Memory Un code de projet pour cet article est disponible sur Github (implémenté dans Keras) LipRead La performance de ce code est de 79.6 % sur le même corpus GRID que Lipnet réalise à 95,2 %
  • Lecture de lèvres à l'aide d'un CNN et d'un LSTM Impossible de trouver le code source pour cela non plus.