La CNIL lance une consultation publique sur la constitution de bases de données d’apprentissage

Le développement de l’IA s’accompagne d’enjeux en matière de protection des données et des libertés individuelles auxquels la CNIL (Commission Nationale de l’Informatique et des Libertés) s’attache à répondre depuis maintenant plusieurs années. Elle vient de publier ses premières fiches pratiques sur la constitution de bases de données d’apprentissage des systèmes d’IA afin d’aider les professionnels à concilier innovation et respect des droits des personnes. Ces fiches sont soumises à consultation publique jusqu’au 16 novembre prochain.

Pour répondre aux défis que pose l’entraînement des algorithmes, la CNIL a créé en janvier dernier, SIA, un service dédié à l’intelligence artificielle, qui est maintenant opérationnel, et a lancé en mai dernier, un plan d’action sur l’IA destiné à apporter, à brève échéance, des réponses sur plusieurs questions structurantes pour la protection des données personnelles dans les systèmes d’IA, notamment d’IA générative basés sur l’utilisation de grands corpus de textes, d’images ou de données, à l’instar de ChatGPT.

Pour alimenter sa réflexion, elle a lancé fin juillet un appel à contribution ainsi que deux programmes pour accompagner des acteurs français : un bac à sable en août pour trois projets utilisant l’IA au bénéfice des services publics et un dispositif d’accompagnement renforcé pour trois entreprises innovantes de taille intermédiaire : Contentsquare, Hugging Face et Lifen.

Les premières réponses de la CNIL pour une IA innovante et respectueuse de la vie privée

Pour la CNIL, le RGPD a vocation à s’appliquer à l’ensemble des traitements de données personnelles, à la fois dans le secteur public et le secteur privé, à l’exception toutefois des traitements relevant du régime spécifique aux secteurs “police-justice” ou du régime intéressant la défense nationale ou la sûreté de l’État.

Les principaux acteurs français de l’IA, qu’il s’agisse d’entreprises, de laboratoires ou encore des pouvoirs publics, rencontrés par la CNIL, ont fait remonter un fort besoin de sécurité juridique mais aussi des inquiétudes liées au RGPD : selon certains, ses principes de finalité, de minimisation, de conservation limitée et de réutilisation restreinte freineraient voire empêcheraient certaines recherches ou applications de l’intelligence artificielle.

La CNIL répond à ces objections, en confirmant la compatibilité des recherches et développements en IA avec le RGPD, à condition de ne pas franchir certaines lignes rouges et de respecter certaines conditions :

Le principe de finalité, qui exige de n’utiliser des données personnelles que pour un objectif précis défini à l’avance, s’applique également aux systèmes d’IA à usage général, mais il peut l’être de façon adaptée car il est difficile de définir toutes les applications futures d’un algorithme lors de son entraînement.

Le principe de minimisation n’interdit pas l’utilisation de vastes bases de données, mais les données doivent être sélectionnées de manière à optimiser l’entraînement de l’algorithme tout en évitant l’utilisation de données personnelles inutiles.

La durée de conservation des données d’entraînement peut être longue si cela est justifié, en particulier pour les bases de données d’entraînement de grande envergure qui requièrent un investissement scientifique et financier important et peuvent devenir des standards largement utilisés par la communauté.

La réutilisation de bases de données est possible dans de nombreux cas, sous réserve de certaines conditions, notamment que les données n’aient pas été collectées de manière manifestement illicite et que la finalité de réutilisation soit compatible avec la collecte initiale.

La consultation publique

Ces premières lignes directrices sont présentées sous la forme de fiches pratiques qui visent à proposer de façon concrète et réaliste une interprétation du RGPD au prisme des technologies d’IA. Elles se concentrent spécifiquement sur les étapes de constitution de bases de données pour l’apprentissage et le développement de ces systèmes et seront d’ailleurs suivies de deux autres, qui les complèteront sur d’autres questions que se pose le secteur de l’IA.

Les fiches soumises à consultation se déclinent en 9 documents répartis de la manière suivante :

L’introduction précise le périmètre des fiches pratiques ;
La fiche 1 porte sur le régime juridique applicable aux traitements de données en phase de développement du système d’IA ;
La fiche 2 traite de la détermination de la finalité du traitement de constitution d’une base de données d’apprentissage d’un système d’IA ;
La fiche 3 évoque la qualification juridique des fournisseurs de systèmes d’IA ;
La fiche 4 rappelle comment choisir la base légale du traitement et les vérifications supplémentaires à effectuer en fonction du mode de collecte ou de réutilisation des données ;
La fiche 5 porte sur la réalisation d’une analyse d’impact sur la protection des données ;
Les fiches 6 et 7 aident les acteurs à prendre en compte la protection des données dans les choix de conception du système d’IA ainsi que lors de la collecte et la gestion des données ;
Un modèle de documentation-type est fourni en annexe.

La CNIL souhaite permettre au plus grand nombre de participer à cette consultation publique et, en particulier, mobiliser l’ensemble des acteurs de l’IA (entreprises, chercheurs, universitaires, associations, conseils juridiques et techniques, etc.) autour des enjeux de protection des droits et libertés que son usage implique.

Il est possible d’y participer jusqu’au 16 novembre prochain en téléchargeant ce formulaire. Les contributions seront alors analysées pour permettre la publication des fiches définitives, sur le site web de la CNIL, début 2024.