« Handwriting Transformers » : une avancée majeure dans la génération d'écriture manuscrite par l'IA

Une équipe de l’Université Mohamed bin Zayed d’intelligence artificielle (MBZUAI) a développé un système d’IA capable d’imiter le style d’écriture d’une personne à partir de quelques paragraphes d’écriture originale. Les chercheurs qui avaient partagé les premiers résultats de leurs recherches en 2021 lors de la Conférence internationale sur la vision par ordinateur (ICCV) ont récemment obtenu un brevet de l’Office des brevets et des marques des États-Unis pour cet outil.

L’équipe qui a présenté “Handwriting Transformers” était composée du professeur adjoint de vision par ordinateur Rao Muhammad Anwer, du professeur agrégé d’informatique Vison Salman Khan, du directeur adjoint du département de vision par ordinateur et professeur de vision par ordinateur Fahad Shahbaz Khan, et d’Ankan Kumar Bhunia.

Des recherches antérieures s’appuyaient sur les réseaux antagonistes génératifs (GAN). Cependant, si ces approches permettent de capturer le style général d’un écrivain, par exemple, l’inclinaison de l’écriture ou la largeur des traits qui composent les lettres, elles rencontrent deux problèmes majeurs.

Tout d’abord, le lien entre le style et le contenu est faible, car ces caractéristiques sont traitées séparément et fusionnées, ce qui entraîne un manque d’enchevêtrement explicite au niveau du caractère. D’autre part, elles ne codent pas de manière explicite les modèles de style locaux, tels que le style de caractère et les ligatures, que l’on peut retrouver par exemple dans le mot cœur, ou la locution latine ex æquo.

Pour surmonter ces limitations, les chercheurs ont adopté une approche novatrice en utilisant des transformateurs de vision, des réseaux neuronaux conçus pour les tâches de vision par ordinateur.

Fahad Khan explique :

“Pour imiter le style d’écriture de quelqu’un, nous voulons regarder l’ensemble du texte, et ce n’est qu’alors que nous commencerons à comprendre comment l’écrivain a ligaturé les caractères, comment l’écrivain a relié les lettres ou les mots espacés. Toutes ces tâches nécessitent une sorte de champ réceptif global, ce qui n’est pas facile avec les réseaux de neurones convolutifs. Nous avons identifié cette lacune dans les méthodes existantes et avons adopté cette méthode basée sur des transformateurs”.

Les scientifiques ont comparé leur approche de génération d’images textuelles manuscrites, HWT (Handwriting Transformers) à deux autres technologies de génération d’écriture manuscrite. Ils ont demandé à 100 personnes d’évaluer le texte généré par les différents modèles à 100 personnes. Celles-ci ont préféré le HWT aux autres générateurs de texte dans 81 % des cas.

Une comparaison qualitative de HWT avec deux autres générateurs d’écriture manuscrite, GANwriting et Davis et al. Les trois générateurs ont reçu l’ordre de produire le même texte : « Deux personnes ne peuvent pas écrire exactement de la même manière, tout comme deux personnes ne peuvent pas avoir les mêmes empreintes digitales. » Les trois applications ont été entraînées sur des échantillons de texte manuscrit (colonne à l’extrême gauche) par six rédacteurs différents. Davis et al. capturent le style général d’un écrivain, par exemple l’inclinaison du texte, mais ont du mal à imiter les détails de style spécifiques au personnage. GANwriting est limité par la longueur des mots qu’il peut imiter et n’a pas été en mesure de compléter le contenu textuel fourni – par exemple, il a généré le mot « précis » au lieu de « précisément ». L’approche des chercheurs de MBZUAI imite mieux les modèles de style mondiaux et locaux, générant ainsi une écriture plus réaliste.

Ils leur ont également montré le texte d’origine et celui généré, les participants n’ont pu faire la distinction entre les deux, validant ainsi la performance du système d’IA.

Bien que cette avancée ouvre la voie à des applications prometteuses, les chercheurs sont conscients des implications éthiques liées à leur technologie et mettent en garde sur le danger potentiel de contrefaçons et d’autres abus. Ils soulignent la nécessité de prendre des mesures afin de les contrer dans le cadre d’un déploiement responsable.

Rao Muhammad Anwer déclare :

“Nous sommes très prudents à ce sujet car il pourrait être utilisé à mauvais escient. L’écriture manuscrite représente l’identité d’une personne, c’est pourquoi nous y réfléchissons attentivement avant de la déployer”.

Références de l’article : blog MBZUAI

Auteurs :

Rao Muhammad Anwer, Vison Salman Khan, Fahad Shahbaz Khan, Ankan Kumar Bhunia