Intelligence artificielle : Le danger des DeepFakes – Verrez-vous Emmanuel Macron danser dans TPMP ?

Intelligence artificielle : Le danger des DeepFakes – Verrez-vous Emmanuel Macron danser dans TPMP ?
Actu IA
actuia deepfakes
Inversion automatisée des visages d'Emmanuel Macron, président de la république et de Matthieu Delormeau, chroniqueur de l'émission Touche pas à mon poste

Le DeepFake est un procédé reposant sur le Deep Learning permettant de falsifier des vidéos en remplaçant de façon automatisée le visage d’un protagoniste par celui d’un tiers.

Des vidéos truquées baptisées DeepFakes ont circulé sur Internet ces derniers temps et les médias s’en sont largement fait l’écho. Il s’agit de petits films mettant en scène Donald Trump, Angela Merkel dans des scènes parodiques ou encore des actrices célèbres dans des séquences à caractère pornographique.

Les trucages vidéos ne sont pas nouveaux

Les trucages vidéos ont toujours existé ou presque, puisque, alors que les frères Lumière ont conçu le cinématographe en 1895, Georges Méliès est connu pour avoir mis au point les premiers effets spéciaux au tout début des années 1900.

Depuis, il ne s’est pas passé une seule décennie au cours de laquelle des progrès en matière d’effets spéciaux n’ont pu être observés : écrans verts, motion capture et images de synthèse sont devenus monnaie courante à Hollywood, avant de se démocratiser et devenir en partie accessibles aux vidéastes amateurs.

En partie… car s’il est aisé de réaliser une incrustation d’image sur fond vert, il est beaucoup plus difficile d’incruster de façon réaliste une personne au sein d’une scène.

Alors pourquoi les DeepFakes sont importants ?

Justement parce qu’ils viennent changer la donne dans le domaine. Aucun talent, aucune connaissance technique en vidéo ne sont nécessaires pour réaliser ces fausses vidéos d’un réalisme étonnant. Nous avons fait le test et pour tout dire, il est à la fois bluffant et inquiétant de se rendre compte de la facilité avec laquelle cela se fait.

Tout le monde sait qu’il est très simple de falsifier ou de maquiller des photos grâce à des logiciels tels que Photoshop. Nous savons également qu’il est possible de truquer des vidéos, puisque les réalisateurs le font dans de nombreux films. Mais bien évidemment, ces procédés demandent beaucoup de temps, de préparation et d’argent. C’est pourquoi la plupart d’entre nous pense pouvoir raisonnablement prendre pour argent comptant la majorité des vidéos que nous voyons. Il faut vraiment que leur contenu soit extrêmement surprenant pour que nous commencions à douter de leur véracité. D’ailleurs, selon l’article 427 du code pénal, une vidéo peut être admise comme preuve en vertu du principe de liberté de preuve.

Or le processus de création de DeepFakes est quant à lui très simple et totalement automatisé. Il ne réclame aucune compétence et aucun investissement, si ce n’est le matériel destiné au calcul. Parallèlement, un DeepFake de qualité peut être très difficile à déceler.

Nous entrons dans une époque où le nombre de faux risque de dépasser le nombre de documents originaux. Le public devra plus que jamais se poser la question de savoir si ce qu’il regarde est vrai ou non.

Cette technique s’est faite connaître avec de fausses vidéos de personnalités. Mais ne nous détrompons pas, il est tout aussi simple de truquer des vidéos personnelles ou de faire des vidéos de propagande que de réaliser des séquences parodiques de Donald Trump.

De notre côté, nous avons pris la décision de ne pas relayer de telles vidéos, mais nous souhaitions tout de même vous montrer de quoi cette technique est capable, parce que nous sommes convaincus que diffuser au maximum cette information est le meilleur moyen de priver les créateurs de fausses vidéos ayant de mauvaises intentions de leur moyen de nuire.

Nous avons donc décidé de créer une fausse vidéo tirée de séquences de l’émission populaire “Touche pas à mon poste”, dans laquelle nous avons substitué le visage du chroniqueur Mathieu Delormeau par celui d’Emmanuel Macron. Un choix fait pour son caractère saugrenu mais inoffensif. Nous tenons à ajouter que cette idée n’illustre aucune prise de position politique. Nous avons choisi Emmanuel Macron car nous voulions montrer que personne n’est à l’abri de tels trucages, et nous redoutons que ce type de procédé soit utilisé, entre autres, pour des manipulations politiques de toutes parts.

Alors non, vous ne verrez pas de vidéo d’Emmanuel Macron en train de danser la “Delormeau Dance” dans l’émission “Touche pas à mon poste”, mais sachez que le processus d’entrainement est très simple. Une brève analyse du script nous a permis de le mettre en oeuvre. Ce dernier est plutôt simple et repose sur TensorFlow.

Voici des exemples extraits du résultat que nous avons obtenu :

La création de DeepFakes est à la portée de tout le monde ou presque.

Il convient tout d’abord de créer un jeu de données composé d’un minimum de 200 photos du visage de la personne que nous souhaitons incruster dans une vidéo et d’autant de photos de la personne que nous souhaitons remplacer. Plus les conditions d’éclairage sont similaires, plus le rendu est bon.

Il suffit ensuite de lancer l’apprentissage via un script Python. Le modèle apprend alors de façon bi-directionnelle à créer une conversion du premier personnage vers le second, et du second personnage vers le premier, en parallèle.

Le modèle apprend sous nos yeux

Un aperçu mis à jour en temps réel permet de voir l’avancement de l’apprentissage au fil des itérations. Cet aperçu est composé de 12 colonnes, divisées en blocs de 3 colonnes. Les deux blocs de gauche représentent la conversion du personnage A vers le personnage B. Les deux blocs de droite montrent la conversion du personnage B vers le personnage A.

Chaque bloc est composé de 3 colonnes :

  • Celle de gauche est l’image de départ ;
  • Celle de droite est l’image finale, fabriquée de toute pièce ;
  • Celle du milieu est la représentation du coût.

Le résultat est naturellement très mauvais au début. Mais au fil des itérations, les progrès sont très nettement visibles. Les images générées sont de moins en moins floues :

69675e itération :

100 000e itération :

Il faut bien comprendre que les colonnes 3, 6, 9 et 12 représentent des images qui n’existent pas dans les jeux de données. Elles sont créées de toutes pièces. Pour obtenir un résultat encore meilleur, nous n’aurions eu qu’à attendre un peu plus, et éventuellement sélectionner plus de photos pour l’entraînement. Dans ce cas précis, l’une des principales difficultés que nous avons rencontré était de trouver suffisamment de photos nettes de Mathieu Delormeau, les photos étant extraites de captures Youtube relativement dégradées.

Sur un serveur doté d’excellentes performances graphiques, basées sur une carte graphique NVIDIA supportant CUDA, un excellent résultat peut être obtenu entre 12 et 24h.

Une fois le modèle entraîné, il est très simple de remplacer le visage de l’un des deux individus par celui de l’autre, dans n’importe quelle vidéo dont les conditions d’éclairage sont semblables. (Pour une vidéo dont les conditions d’éclairage sont très différentes, il suffit de poursuivre durant quelques heures l’apprentissage du modèle).

D’un point de vue technique, on ne peut s’empêcher de s’émerveiller par l’apprentissage que l’on voit évoluer sous nos yeux, même si l’on sait comment cela fonctionne. Mais quels seront les usages de cet outil ?

Nous avons volontairement généré une vidéo suffisamment grotesque pour qu’elle ne paraisse pas crédible. Mais nous sommes convaincus que ce type de procédé sera de plus en plus utilisé en politique. Même si des démentis sont publiés, vidéo originale à l’appui, cela suffira à semer le doute et générer du “bruit” négatif à l’encontre d’un adversaire.

Nous ne publierons naturellement pas la vidéo que nous avons générée, car ce serait contraire à nos motivations initiales et risquerait de tourner en dérision ce sujet sérieux. En montrant ces captures d’écran nous tenons simplement à faire prendre conscience au plus grand nombre de la facilité de la création de fausses vidéos, à des fins qui pourraient être toutes autres que la simple plaisanterie : revenge porn, manipulation, chantage…

Afin de nous y aider, n’hésitez pas à partager cet article à votre tour.