Rapport Gartner : les données synthétiques majoritairement utilisées pout l'entraînement de l'IA

D’ici 2024, les analystes de Gartner prévoient que 60 % des données utilisées pour entraîner les systèmes d’intelligence artificielle dans le monde seront synthétiques contre 1 % en 2021. Ce passage massif vers les données synthétiques marque une évolution significative vers une IA centrée sur les données. Selon le rapport Gartner sur les tendances de la science des données et de l'apprentissage automatique, (DSML), cette approche davantage axée sur les données permet de créer de meilleurs systèmes d’IA. L'utilisation de l'IA générative pour créer des données synthétiques est une tendance en croissance rapide. Cette approche permet de générer des données qui imitent la réalité de manière convaincante, tout en offrant une flexibilité et une facilité d'obtention que les données réelles ne peuvent pas toujours fournir. Les données synthétiques peuvent être utilisées pour compléter ou remplacer les données réelles lors de l’entraînement de modèles d’apprentissage automatique. Elles permettent de résoudre certains défis liés aux données, notamment : Accessibilité : Les données réelles peuvent être difficiles à obtenir, qu'il s'agisse de données sensibles, rares, coûteuses à collecter ou indisponibles. Les solutions d'IA générative permettent de créer des données synthétiques rapidement et facilement, comblant ainsi cette lacune. Volume : Les modèles d'apprentissage automatique nécessitent souvent des ensembles de données massifs pour être efficacement entraînés. La génération de données synthétiques permet d'augmenter la quantité de données disponibles pour l'entraînement. Confidentialité : Dans de nombreux domaines, tels que la santé, la finance et l'éducation, la confidentialité des données est une préoccupation majeure. Les données synthétiques préservent la vie privée en évitant la divulgation d'informations sensibles. Sécurité : La génération de données synthétiques contrôlées permet de minimiser les risques liés à la manipulation ou à la divulgation de données sensibles. Ces données sont moins vulnérables aux menaces de sécurité. Complexité : Certains problèmes ou phénomènes peuvent être difficiles à modéliser avec des données réelles en raison de leur complexité. Les données synthétiques peuvent être ajustées pour simuler des scénarios complexes de manière contrôlée. Réduction des biais : Elles permettent également de réduire les biais car elles sont créées artificiellement pour reproduire les caractéristiques et les modèles statistiques des données réelles, tout en évitant les éléments discriminatoires ou non représentatifs qui peuvent exister dans les données du monde réel. Portée : Les données synthétiques peuvent couvrir une large gamme de situations et de contextes, ce qui les rend polyvalentes pour diverses applications.

Domaines d'application

En raison de leur capacité à simuler des données réelles de manière contrôlée, les données synthétiques ont en effet un large éventail d'applications dans divers domaines, outre l'entraînement des modèles de ML, notamment : Tests et validation de logiciels : Les données synthétiques sont utilisées pour tester et valider des logiciels et des systèmes, en simulant une variété de scénarios et en identifiant les vulnérabilités potentielles. Cela contribue à améliorer la qualité des logiciels et des applications. Recherche scientifique : Les chercheurs utilisent fréquemment des données synthétiques pour étudier des phénomènes complexes. Par exemple, les données synthétiques sont utilisées dans la modélisation climatique, la recherche en génomique et d'autres domaines où la collecte de données réelles peut être difficile ou coûteuse. Optimisation des processus : Dans le domaine de la gestion de la chaîne d'approvisionnement et de la logistique, les données synthétiques sont utilisées pour optimiser les processus, améliorer la prévision de la demande et réduire les coûts opérationnels. Finance et gestion des risques : Les données synthétiques sont utiles pour la modélisation financière, la détection de fraudes et la gestion des risques. Elles permettent aux institutions financières de tester leurs systèmes sans utiliser de données sensibles. Éducation et formation : Les données synthétiques sont utilisées dans l'éducation pour créer des simulations et des environnements d'apprentissage virtuels. Elles permettent aux apprenants de s'entraîner dans des conditions réalistes sans risquer de données réelles. Médecine et soins de santé : Les données synthétiques sont employées pour créer des modèles de patients virtuels, ce qui facilite la formation des professionnels de la santé, la recherche sur les maladies et la personnalisation des traitements. Prévision et analyse de données : Les données synthétiques sont utilisées pour simuler des scénarios futurs et effectuer des analyses de données prédictives dans divers domaines, de la météorologie à la planification urbaine. Sécurité informatique : Les données synthétiques sont utilisées pour tester la sécurité des systèmes informatiques en simulant des attaques et des vulnérabilités potentielles. Les données synthétiques représentent une avancée majeure dans le domaine de la gestion des données : elles offrent une solution efficace pour travailler avec des informations sensibles tout en préservant la confidentialité et en améliorant les capacités de recherche et d’analyse.

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Rapport Gartner : les données synthétiques majoritairement utilisées pout l'entraînement de l'IA

Domaines d'application

Adoption de la GenAI : des dirigeants français particulièrement optimistes pour la productivité de leur entreprise

Rapport Netskope : Faute de contrôles de sécurité des données appropriés, la GenAI transforme à leur insu les employés en menaces internes.

La gestion des données à l’ère de l’intelligence artificielle : un nouvel impératif stratégique