La CNIL publie ses premières recommandations sur le développement des systèmes d’IA

La CNIL a publié ce 8 avril ses premières recommandations sur l’application du RGPD au développement des systèmes d’IA. Elaborées après une consultation publique de deux mois et une série de rencontres avec des acteurs publics et privés pour recueillir leurs interrogations sur le sujet, elles visent à éclairer les décisions stratégiques de développement ou d’utilisation que ces derniers devront prendre dans les prochains mois.

Pour la CNIL, le RGPD a vocation à s’appliquer à l’ensemble des traitements de données personnelles, à la fois dans le secteur public et le secteur privé, à l’exception toutefois des traitements relevant du régime spécifique aux secteurs “police-justice” ou du régime intéressant la défense nationale ou la sûreté de l’État.

Les principaux acteurs français de l’IA, qu’il s’agisse d’entreprises, de laboratoires ou encore des pouvoirs publics, rencontrés par la CNIL, ont fait remonter un fort besoin de sécurité juridique mais aussi des inquiétudes liées au RGPD : selon certains, ses principes de finalité, de minimisation, de conservation limitée et de réutilisation restreinte freineraient voire empêcheraient certaines recherches ou applications de l’intelligence artificielle.

Cependant pour la CNIL :

“L’idée reçue selon laquelle le RGPD empêcherait l’innovation en intelligence artificielle en Europe est fausse. En revanche, il faut avoir conscience que les bases d’entraînement comprennent parfois des « données personnelles », des informatiques sur des personnes réelles. L’utilisation de ces données fait courir des risques aux personnes, qu’il faut prendre en compte, afin de développer des systèmes d’IA dans des conditions qui respectent les droits et libertés des personnes, et notamment leur droit à la vie privée”.

Les 7 premières recommandations de la CNIL

Ces premières recommandations, élaborées en prenant en compte le RGPD mais également l’AI Act, concernent la phase de développement de systèmes d’IA, (conception du système, constitution de la base de données et entraînement) et non celle de déploiement. Les systèmes d’IA concernés sont ceux qui impliquent un traitement de données personnelles, à savoir :

Les systèmes fondés sur l’apprentissage automatique (machine learning) ;
Les systèmes dont l’usage opérationnel est défini dès la phase de développement et les systèmes à usage général qui pourront être utilisés pour nourrir différentes applications (« general purpose AI »).
Les systèmes dont l’apprentissage est réalisé « une fois pour toutes » ou de façon continue, par exemple en utilisant des données d’utilisation pour son amélioration.

Définir une finalité pour le système d’IA

Le principe de finalité exige de n’utiliser des données personnelles que pour un objectif précis défini à l’avance, ce qui permet de limiter les données personnelles que l’on va pouvoir utiliser pour l’entraînement d’un système d’IA. Il doit également être légitime, c’est-à-dire compatible avec les missions de l’organisme.

Alors qu’il est parfois objecté que l’exigence de définir une finalité est incompatible avec l’entraînement d’IA, qui peut développer des caractéristiques non anticipées, la CNIL estime qu’il n’en est rien et que l’exigence de définition d’une finalité doit être adaptée au contexte de l’IA, sans disparaître pour autant.

Elle identifie trois types de situations qu’elle éclaire par des exemples:

Lorsque l’usage opérationnel d’un système d’IA est clairement défini, la définition de finalité va guider les phases de développement, de déploiement et d’utilisation. Par exemple, si un organisme constitue une base de données de photos de rames de trains en service pour entraîner un algorithme mesurant l’affluence et la fréquentation des trains à quai dans les gares, l’objectif est déterminé, explicite et légitime en phase de développement.

Pour les SIA à usage général, où le système pourrait être utilisé dans divers contextes et applications, ou pour des fins de recherche scientifique, la définition de la finalité est plus complexe.

Dans le cas des systèmes d’IA à usage général, par exemple, la constitution d’une base de données pour l’entraînement d’un modèle de classification d’images sans usage opérationnel spécifique prévu, la CNIL recommande de ne pas définir la finalité de manière trop générale mais plutôt de spécifier le type de système développé et ses fonctionnalités et capacités potentielles. Elle invite également à préciser les capacités prévisibles les plus à risque, les fonctionnalités exclues par conception, ainsi que les conditions d’utilisation du système d’IA, comme les cas d’usage connus ou les modalités de diffusion ;
Pour les SIA développés à des fins de recherche scientifique, l’objectif peut être moins détaillé au début du projet, mais elle recommande de documenter la démarche scientifique et de fournir des informations complémentaires au fur et à mesure de l’avancement du projet.

Déterminer ses responsabilités

Les développeurs doivent déterminer leur rôle conformément au RGPD et au règlement européen sur l’IA.

Selon le RGPD, les développeurs de SIA sont soit responsables de traitement (RT) s’ils déterminent les objectifs et les moyens de traitement des données personnelles, soit sous-traitants (ST) s’ils traitent ces données pour le compte d’un responsable du traitement. L’AI Act distingue de son côté les fournisseurs de système d’IA des importateurs, distributeurs et utilisateurs (ou déployeurs) de ces systèmes.

Le degré de responsabilité (RT ou ST) des fournisseurs de SIA dépend d’une analyse au cas par cas en fonction de leur implication dans le développement du système.

Définir la base légale autorisant le traitement des données personnelles

Les développeurs de SIA utilisant des données personnelles doivent disposer d’une base légale autorisant leur traitement. Le RGPD prévoit six bases légales possibles : le consentement, le respect d’une obligation légale, l’exécution d’un contrat, l’exécution d’une mission d’intérêt public, la sauvegarde des intérêts vitaux et la poursuite d’un intérêt légitime.

Selon la base légale retenue, leurs obligations et les droits des personnes pourront varier, d’où l’importance de la déterminer en amont et de l’indiquer dans la politique de confidentialité des données.

En pratique, le choix de la base légale dépend de la manière dont les données sont collectées et de leur nature. Par exemple, le consentement est souvent approprié lorsque les personnes fournissent directement leurs données et peuvent accepter ou refuser sans préjudice. Cependant, dans d’autres cas, par exemple lors de la collecte de données en ligne ou l’utilisation de bases de données open source, d’autres bases légales sont plus adaptées.

Pour les acteurs privés, l’intérêt légitime peut être utilisé sous réserve de certaines conditions, notamment que l’intérêt soit légal et défini, que les données soient réellement nécessaires et que l’atteinte à la vie privée soit proportionnée. La CNIL publiera d’ailleurs prochainement une analyse spécifique à la base légale de l’intérêt légitime.

Pour les acteurs publics, le traitement des données doit s’inscrire dans leur mission d’intérêt public définie par la loi et contribuer de manière pertinente et appropriée à cette mission.

Les bases légales du contrat et de l’obligation légale peuvent être mobilisées de manière exceptionnelle, lorsque le traitement des données est nécessaire pour l’exécution d’un contrat ou pour respecter une obligation légale précise.

Vérifier s’il est possible de réutiliser certaines données personnelles

La réutilisation de bases de données par un fournisseur de SIA est possible dans de nombreux cas, sous réserve de certaines conditions, notamment qu’elles n’aient pas été collectées de manière manifestement illicite (données open source) et, pour les données acquises auprès d’un tiers, que la finalité de réutilisation soit compatible avec la collecte initiale. Il revient aux responsables de traitement d’effectuer certaines vérifications complémentaires afin de garantir que cette utilisation est légale.

Minimiser les données personnelles utilisées

Le principe de minimisation n’interdit pas l’utilisation de vastes bases de données, mais les données doivent être sélectionnées de manière à optimiser l’entraînement de l’algorithme tout en évitant l’utilisation de données personnelles inutiles. Il est important de respecter ce principe et l’appliquer de manière rigoureuse lorsque les données traitées sont sensibles (données concernant la santé, données relatives à la vie sexuelle aux opinions religieuses ou politiques…).

La CNIL recommande de mettre en œuvre des moyens techniques pour ne collecter que les données réellement utiles au développement du SIA, de mener une étude pilote avec des données fictives, synthétiques, anonymisées pour valider les choix de conception et de consulter un comité éthique pour garantir que les enjeux en matière d’éthique et de protection des droits et libertés des personnes sont bien pris en compte.

Pour la collecte des données, elle suggère entre autres de mettre en œuvre dès la conception des mesures de protection des données : anonymisation, généralisation, randomisation…Elle conseille également d’analyser régulièrement les données pour assurer leur suivi et leur mise à jour et de garantir la traçabilité des jeux de données utilisés en tenant une documentation à jour.

Définir une durée de conservation

Le RGPD impose de définir une durée au bout de laquelle les données doivent être supprimées ou, dans certains cas, archivées.

Pour la phase de développement, la conservation des données doit être planifiée à l’avance et suivie dans le temps. Les personnes concernées doivent être informées de la durée de conservation des données, par exemple dans les mentions d’information.

Une fois que les données ne sont plus nécessaires pour les tâches quotidiennes liées au développement du système d’IA, elles doivent en principe être supprimées. Cependant, elles peuvent être conservées pour la maintenance ou l’amélioration du produit, à condition que des garanties appropriées soient mises en place, telles que des restrictions d’accès aux personnes habilitées.

Il est à noter que la conservation prolongée des données d’apprentissage peut être justifiée dans certains cas, comme pour effectuer des audits ou mesurer certains biais. Cependant, cette conservation doit être limitée aux données strictement nécessaires et accompagnée de mesures de sécurité renforcées.

Réaliser une analyse d’impact sur la protection des données

L’analyse d’impact sur la protection des données (AIPD) est une démarche essentielle pour évaluer et réduire les risques liés au traitement des données personnelles dans le développement des SIA.

La CNIL recommande de réaliser une AIPD lorsque des critères spécifiques sont remplis, tels que la collecte de données sensibles ou à grande échelle, la combinaison de différents ensembles de données, ou l’utilisation de nouvelles solutions technologiques.

Le périmètre de l’AIPD dépend de l’objectif du système d’IA. Si l’usage opérationnel est clair, une AIPD générale pour l’ensemble du cycle de vie (développement et déploiement) est recommandée. Pour les systèmes d’IA à usage général, seule une AIPD pour la phase de développement est nécessaire.

En fonction des résultats de l’AIPD, des mesures doivent être prises pour réduire les risques, telles que des mesures de sécurité (chiffrement, environnement sécurisé), de minimisation des données, d’anonymisation ou de pseudonymisation, de protection des données dès le développement, d’exercice des droits pour les personnes, d’audit et de validation, ainsi que des mesures organisationnelles, de gouvernance et de traçabilité.

La CNIL publiera prochainement de nouvelles fiches permettant d’expliquer comment concevoir et entraîner des modèles dans le respect du RGPD : récupération de données sur internet, comment mobiliser l’intérêt légitime comme base légale, exercice des droits d’accès, de rectification et d’effacement, recours ou non à des licences ouvertes…

Ces fiches seront soumises à consultation publique. Retrouver les fiches concernant ses premières recommandations ici