Les données synthétiques intéressent de plus en plus de secteurs notamment pour faire face à l’insuffisance de données d’entraînement mais posent également de nombreuses questions. C’est l’un des sujets sur lequel nous avons travaillé dans le cadre du magazine ActuIA n°9 actuellement en kiosques. Au sein de DataCebo, l’étude des données synthétiques a donné lieu à la création d’un module spécifique baptisé Synthetic Data Metrics.
DataCebo, start-up issue du CSAIL, le laboratoire d’informatique et d’intelligence artificielle du MIT, a en effet annoncé la création de Synthetic Data (SD) Metrics dont le github est disponible, dans le cadre de son projet Synthetic Data Vault (SDV). Ce module Python open source a été développé dans le but d’aider les entreprises à évaluer des données tabulaires indépendantes des modèles en comparant des ensembles de données synthétiques à des ensembles de données réels.
Au coeur de la science des données
Les chercheurs du laboratoire des systèmes d’information et de décision (LIDS) du MIT travaillaient en 2013 sur des projets de science des données. Lorsqu’ils ont voulu les tester sur des ensembles de données réels, ils se sont heurtés à différents obstacles pour y accéder, de nombreuses réglementations et formalités administratives en matière de sécurité. Ils ont décidé de recourir aux données synthétiques.
En 2016, dans un article décrivant la toute première itération du SDV, ils ont introduit une nouvelle technique pour synthétiser des données multi-tables et détaillé leurs essais durant lesquels les datascientists avaient utilisé avec succès des données synthétiques au lieu de données réelles pour des tâches d’apprentissage automatique.
Après quelques tests pilotes sur des applications d’entreprise, ils ont publié SDV en open source sur PyPi pour une utilisation générale. C’est ainsi que la start-up DataCebo a été créée en 2020 par Kalyan Veeramachaneni, Neha Patki et Saman Amarsinghe avec pour objectif principal de développer le projet.
Le Synthetic Data Vault
Le coffre-fort de données synthétiques (SDV) est un écosystème de bibliothèques de génération de données synthétiques qui permet aux utilisateurs d’apprendre facilement des jeux de données à table unique, à plusieurs tables et à séries chronologiques pour générer ultérieurement de nouvelles données synthétiques ayant le même format et les mêmes propriétés statistiques que le jeu de données d’origine.
Ces données synthétiques peuvent être utilisées pour compléter, augmenter et, dans certains cas, remplacer les données réelles lors de l’entraînement de modèles d’apprentissage automatique. En outre, il permet de tester l’apprentissage automatique ou d’autres systèmes logiciels dépendants des données sans le risque d’exposition associé à la divulgation des données.
Il utilise plusieurs techniques de modélisation graphique et de deep learning, comme Copulas, CTGAN et DeepEcho.
De grandes banques, des organisations d’assurance et entreprises axées sur les essais cliniques utilisent ainsi des modèles créés avec Copulas, qui a été téléchargé plus d’un million de fois. CGTAN, modèle basé sur un réseau neuronal, l’a été, quant à lui, plus de 500 000 fois.
Selon DataCebo, d’autres ensembles de données qui ont plusieurs tables ou données de séries chronologiques sont également pris en charge.
Synthetic Data (SD) Metrics
Le module SD Metrics définit des métriques pour les statistiques, l’efficacité et la confidentialité des données, génère des rapports visuels que les membres d’une équipes peuvent partager.
Comme la bibliothèque SDMetrics est indépendante du modèle, elle peut être utilisée avec n’importe quelle donnée synthétique, quelle que soit le modèle qui l’a produite.
Nehra Patki explique :
“Pour les données synthétiques tabulaires, il est nécessaire de créer des mesures qui quantifient la façon dont les données synthétiques se comparent aux données réelles. Chaque métrique mesure un aspect particulier des données, comme la couverture ou la corrélation, ce qui vous permet d’identifier quels éléments spécifiques ont été préservés ou oubliés au cours du processus de données synthétiques.”
Les fonctionnalités CategoryCoverage et RangeCoverage peuvent quantifier si les données synthétiques d’une entreprise couvrent la même plage de valeurs possibles que les données réelles, la métrique CorrelationSimilarity, comme son nom l’indique, permet de comparer les corrélations.
Plus de 30 mesures sont actuellement disponibles, d’autres en cours d’élaboration.