IA et profilages : la conférence de Julie-Michèle Morin « Intelligence artificielle : jeux de données et jeux de pouvoir »

Dernièrement, nous avons consacré un article à la conférence « IA et profilages : risques éthiques et juridiques » de Céline Castets-Renard dans le cadre de la semaine scientifique du CICC 2022-2023. Elle y soulignait l’importance des données de qualité pour l’entraînement des systèmes automatisés. Aujourd’hui, nous vous présentons la seconde conférence de cet évènement : « Intelligence artificielle : jeux de données et jeux de pouvoir » de Julie-Michèle Morin, s’adressant elle aussi au rôle des données dans le cadre du profilage.

Julie-Michèle Morin est doctorante en Littératures de langue française à l’Université de Montréal, sa thèse porte sur la robotique dans les arts vivants. Elle mobilise une approche technoféministe pour réfléchir aux enjeux politiques soulevés par la rencontre entre les arts, les cultures numériques et les dispositifs technoscientifiques. Elle est également conseillère dramaturgique et se spécialise dans l’accompagnement des écritures médiatiques.

Jeux de données et leur influence

Julie-Michèle Morin souligne tout d’abord que les systèmes d’IA sont toujours le fruit d’une coopération entre humains (programmeur·euses, mathématicien·nes, algorithmicien·nes, technicien·es informatiques…) et des agents autres qu’humains (protocoles informatiques, statistiques, formules mathématiques, diverses applications d’apprentissage automatisé ou semi-automatisé…). Elles sont toujours initiées par des humains qui peuvent influencer les recommandations.

Encodage des valeurs humaines

La conférencière aborde le mythe des IA autonomes, capables de dépasser les capacités humaines, responsables des résultats erronés qui ne seraient donc pas imputables à l’humain. Celui-ci nourrirait la conception de la prétendue neutralité technologique : selon les compagnies ou les autorités, elles seraient plus impartiales que les humains, ce qui permet de banaliser de nouvelles formes de profilages et discrimination.

La technologisation des oppressions

Julie-Michèle Morin fait référence à la technologie de reconnaissance faciale, son incapacité à authentifier de la même façon les personnes suivant leur couleur.

Les personnes de couleur noire sont particulièrement impactées par cette technologie : en ne les reconnaissant pas, l’IA invisibilise les personnes. Dans le cas de recherche d’identification comme dans les aéroports au Royaume-Uni, elle les survisibilise.

Les étapes de processus de fabrication d’une IA : à quel moment les biais sont-ils insérés ?

La conférencière choisit d’aborder la conception d’un algorithme de ML : les biais, les stéréotypes et les préjugés humains peuvent être encodés lors du choix des données, de leur étiquetage, de la création du modèle pour les entraîner.

Des données insuffisantes peuvent être source de discrimination, trop de données sur un groupe, source de stéréotype. Julie-Michèle Morin donne le cas d’une IA entraînée sur de grandes ensembles de données collectées sur le web : les femmes étaient identifiées comme des ménagères, les hommes noirs à 10% de plus que les blancs comme des criminels…

L’étiquetage biaisé des données

Les données étiquetées manuellement par un humain peuvent l’être de manière subjective, elles doivent être encadrées. Lorsqu’elles le sont de manière automatisée ou semi-automatisée, elles peuvent reconduire des biais historiques. L’exemple donné est celui d’un algorithme de recommandation utilisé par Amazon pour le recrutement qui ne retenait que les candidatures des hommes car dans le passé, les CV retenus étaient majoritairement ceux d’hommes, bien que cela puisse être motivé par une faible candidature de femmes.

L’analyse biaisée des données

Les biais d’analyse surviennent lorsque les humains créent des corrélations illusoires ou biaisées entre les jeux de données et les objectifs de l’algorithme. Les biais de confirmation reflètent un point de vue préexistant que l’IA va renforcer…

Les biais de discrimination peuvent être aussi dus à la combinaison de divers biais insérés dans différentes étapes du processus.

PredPol, un cas de justice prédictive

PredPol est un logiciel utilisé depuis 2012, abandonné cette année, pour déterminer où les patrouilles devaient avoir lieu le plus fréquemment. Entraîné à base d’archives policières, il recommandait qu’elles aient surtout lieu dans des quartiers défavorisés, à majorité noire. Une étude à son sujet a démontré qu’il utilisait des « dirty datas ».

Comme Céline Castets-Renard, Julie-Michèle Morin envisage ensuite comme exemple de justice prédictive l’affaire COMPAS, un score de calcul de récidive par rapport à certaines catégories de population, qui présentait un même taux d’erreur que ce soit pour les individus noirs ou de type caucasien, mais il n’était pas précisé que ce même taux était en faveur de ces derniers et en défaveur des premiers…