Intelligence artificielle DeepMind présente Ithaca, Deep Neural Network pour la restauration et l'attribution de...

Pour approfondir le sujet

Sur le même thème :

Afrique : un chercheur de l’IFRI étudie le déploiement des panneaux solaires en zone urbaine grâce au deep learning

Hugo Le Picard, chercheur au Centre Énergie & Climat de l’Ifri, et Mathieu Toulemont, Senior Machine Learning Engineer chez PhotoRoom ont cherché à mesurer...

Fusion nucléaire : DeepMind et le Swiss Plasma Center contrôlent le plasma grâce à l’IA

La fusion nucléaire, avec son potentiel à fournir une électricité renouvelable et propre, est au cœur de travaux de chercheurs du monde entier. Une...

L’Intelligence Artificielle peut elle évoluer à l’image des êtres vivants ?

Charles Darwin, dans sa théorie de l'évolution, avançait que toutes les espèces vivantes ont évolué au cours du temps à partir d'un seul ou...

Comment le machine learning peut être utilisé pour diagnostiquer le risque d’anévrisme aortique

Une rupture d'anévrisme due à une aorte anormalement agrandie peut provoquer une mort subite d'origine cardiaque. Dans la plupart des cas, les patients ne...

DeepMind présente Ithaca, Deep Neural Network pour la restauration et l’attribution de textes anciens

L’épigraphie étudie les inscriptions sur matière durable, comme la pierre et le métal, et est très utile aux historiens pour l’étude des civilisations antiques, dont la plupart des documents périssables ont disparu. Cependant, ces inscriptions sur matériaux imputrescibles ont subi les dommages du temps et nombreuses sont endommagées, illisibles, parfois des morceaux de leur support sont manquants… L’équipe de Deepmind a développé Ithaca pour venir en aide aux scientifiques dans la restauration de ces textes. Elle a publié ses travaux dans la revue Nature sous le titre “Restaurer et attribuer des textes anciens à l’aide de réseaux de neurones profonds” début mars.

Deepmind travaille pour trouver les “meilleures techniques de l’apprentissage automatique et des neurosciences des systèmes pour de puissants algorithmes d’apprentissage généraliste”. Cette société d’Alphabet s’investit particulièrement sur les raisonnements rationnel et prédictif, ainsi que sur les méthodes d’apprentissage de type deep learning et deep reinforcement learning. En 2019, Deepmind avait développé avec l’Université d’Oxford, Pythia, un outil d’IA dédié à l’épigraphie. Ce dernier visait à retrouver les lettres ou le texte disparu. Ithaca va beaucoup plus loin que Pythia puisqu’il permet de déduire l’origine géographique et la datation des inscriptions alors que la datation au carbone 14 ne peut leur être appliquée.

Cette étude a été menée en collaboration avec les départements de sciences humaines des universités Ca’Foscari de Venise, de l’Université d’Oxford ainsi que celui d’Informatique de l’Université Economique d’Athènes .

L’étude

Les épigraphistes doivent souvent reconstruire le texte manquant, un processus connu sous le nom de restauration de texte, et établir le lieu et la date d’origine de l’écriture, tâches appelées respectivement attribution géographique et attribution chronologique. Ces trois tâches sont des étapes cruciales pour situer une inscription dans l’histoire mais très complexes, chronophages et spécialisées.

L’équipe de Deepmind s’est servie de ses recherches de pointe en ML pour créer Ithaca. Inspirés des réseaux de neurones biologiques, les CNN peuvent découvrir et exploiter des modèles statistiques complexes dans de vastes quantités de données. Les augmentations récentes de la puissance de calcul ont permis à ces modèles de relever des défis de sophistication croissante dans de nombreux domaines, y compris l’étude des langues anciennes

Ithaca est une architecture de CNN  profonds formée pour effectuer simultanément les tâches de restauration textuelle, d’attribution géographique et d’attribution chronologique, effectuées jusqu’ici par les épigraphistes.

Ithaca (de Ithaque, l’île ionienne dont Ulysse, le héros légendaire, était roi) a été formée sur des inscriptions écrites dans la langue grecque antique et à travers le monde méditerranéen antique entre le VIIe siècle avant JC et le Ve siècle après JC. Ce choix est dû à deux raisons :

  •  la variabilité du contenu et du contexte de la notice épigraphique grecque, qui en fait un excellent défi pour le traitement du langage ;
  •  la disponibilité de corpus numérisés pour le grec ancien, une ressource essentielle pour la formation de modèles d’apprentissage automatique.

Former Ithaca aux inscriptions grecques

Pour former leur modèle, les chercheurs ont créé un pipeline pour récupérer l’ensemble de données non traité du Packard Humanities Institute (PHI), qui se compose des textes transcrits de 178 551 inscriptions et répertorie 84 régions anciennes.
L’ensemble de données résultant I.PHI est, selon l’équipe ,le plus grand ensemble de données multitâches de texte épigraphique actionnable par machine, contenant 78 608 inscriptions.

Les résultats

Alors qu’Ithaca atteint à lui seul 62% de précision lors de la restauration de textes endommagés, dès que les historiens utilisent Ithaca leurs performances bondissent de 25% à 72%, confirmant l’impact de cette aide synergique à la recherche.
Ithaca peut relier les inscriptions à leur lieu de découverte d’origine avec une précision de 71 % et les dater avec un écart d’environ 27 ans par rapport à la datation “inférieure” proposée par les réévaluations modernes. Les prédictions d’Ithaca ne sont en moyenne qu’à 5 ans des vérités de terrain nouvellement proposées.

Collaborer avec les historiens

Ithaca peut aider à la restauration et à l’attribution d’inscriptions nouvellement découvertes ou incertaines. L’équipe a créé une interface open-source accessible au public : https://ithaca.deepmind.com, permettant aux historiens d’utiliser Ithaca pour leurs recherches personnelles, tout en facilitant son développement pour d’autres applications? Les méthodes introduites dans cette recherche peuvent être appliquées à toute discipline traitant du texte ancien (papyrologie, numismatique, codicologie), à ​​toute langue (ancienne ou moderne), intégrant également des métadonnées supplémentaires (images d’inscription, stylométrie). L’équipe conclut :

« De plus, la nature essentiellement interactive d’Ithaca en tant qu’aide à la recherche coopérative se prête à une configuration efficace pour les futures recherches sur l’apprentissage automatique en ajoutant des humains dans la boucle de formation. »

Sources de l’article :
Ithaca a été conçu et étudié par Yannis Assael*, Thea Sommerschield*, Brendan Shillingford, Mahyar Bordbar, John Pavlopoulos, Marita Chatzipanagiotou, Ion Androutsopoulos, Jonathan Prag et Nando de Freitas. Assael, Y., Sommerschield, T., Shillingford, B. et al. Restoring and attributing ancient texts using deep neural networks. Nature 603, 280–283 (2022). https://doi.org/10.1038/s41586-022-04448-z.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Pierre-yves Gerlat

Partager l'article

Découvrez ActuIA n°8, le nouveau numéro du magazine de l’intelligence artificielle

L’été est bien là et c’est déjà l’heure du nouveau numéro d’ActuIA, votre magazine de l’intelligence artificielle ! Pour ce n°8 d’ActuIA, disponible dès...

Victor Schmidt, doctorant sous la direction de Yoshua Bengio, est le lauréat de la 6ème bourse Antidote en TAL

Druide informatique a annoncé fin mai la nomination du lauréat de la 6e Bourse Antidote en traitement automatique de la langue (TAL). Victor Schmidt,...

Retour sur le lauréat du Prix CNIL-INRIA pour la protection de la vie privée

Fin mai, François Pelligrini et Mathieu Cunche, co-présidents du Jury du Prix CNIL-Inria, ont remis le prix pour la protection de la vie privée...

La Lufthansa s’appuie sur le logiciel « Virtual Aviation Training » de NMY pour former ses équipes de cabine

La pandémie a fortement impacté les compagnies aériennes. Depuis la levée des restrictions sanitaires, elles doivent affronter un autre problème : malgré une forte...
Recevoir une notification en cas d'actualité importante    OK Non merci