Vidéosurveillance : une IA capable de lire sur les lèvres

Des chercheurs sont parvenus à utiliser un système de reconnaissance vocale pour apprendre à une intelligence artificielle à lire sur les lèvres. Cette tâche représente un vrai défi autant pour les ordinateurs que pour les humains.

La lecture sur les lèvres représente un réel défi, aussi bien pour les humains que pour l’intelligence artificielle. En 2016, l’IA DeepMind de Google avait réussi à dépasser les performances d’un professionnel mais n’avait atteint que 46,8 % de taux de réussite, à comparer tout de même aux 12,4 % de taux de réussite pour les humains dans les mêmes circonstances.

Une équipe, composée de chercheurs de l’université du Zhejiang en Chine, de l’institut de technologie Stevens aux États-Unis et de la société Alibaba, a mis au point une nouvelle approche, utilisant les systèmes de reconnaissance vocale pour améliorer l’entraînement de l’intelligence artificielle. Ce système, baptisé Lip by Speech (LIBS), permet à l’IA d’apprendre à reconnaître des indices beaucoup plus subtils dans le mouvement des lèvres.

La reconnaissance vocale pour entraîner à la lecture sur les lèvres

Les chercheurs ont utilisé des bases de données préétablies, le LRS2 — avec 45.000 phrases en anglais issues de la BBC –, et le CMLR — avec plus de 100.000 phrases en mandarin. Malgré un taux d’erreur avoisinant les 10 %, l’utilisation de la reconnaissance vocale permet une analyse fine des vidéos qui entraîne le système Libs aussi bien au niveau de séquences ou de phrases entières qu’image par image.

Cette nouvelle approche a été capable de réduire le taux d’erreurs de 7,66 % en chinois et 2,75 % en anglais par rapport aux précédentes méthodes. L’amélioration est encore plus notable lorsque les données d’entraînement sont limitées. Les chercheurs envisagent d’appliquer cette méthode pour apprendre à une IA à interpréter le langage des signes.