Meta publie la base de données inclusive Casual Conversations v2 en open source

Meta a annoncé ce 9 mars l’ouverture en open source de Casual Conversations v2, un ensemble de données publiques (audio, vidéo, texte) qui, par sa diversité, permettra aux chercheurs aux chercheurs d’évaluer l’équité et la robustesse des modèles d’IA, et ainsi affiner ceux sur lesquels ils travaillent.

Pour que l’IA serve équitablement les communautés, les chercheurs ont besoin d’ensembles de données diversifiés et inclusifs afin d’évaluer de manière rigoureuse et réfléchie l’équité des modèles qu’ils construisent. Dans les applications de la vision par ordinateur et de la reconnaissance vocale en particulier, les chercheurs en IA ont besoin de données pour évaluer le fonctionnement d’un modèle pour différents groupes démographiques.

Cependant ces données peuvent être difficiles à collecter en raison de contextes culturels et géographiques complexes, d’incohérences entre les différentes sources et de problèmes de précision de l’étiquetage.

Casual Conversations, la première version publiée par Meta en 2021, est un ensemble de données, basé sur le consentement, conçu pour aider les chercheurs à évaluer la précision de leurs modèles de vision par ordinateur et audio. Il comprenait plus de 45 000 vidéos de 3 011 personnes rémunérées ayant accepté de participer au projet et fourni elles-mêmes des étiquettes d’âge et de sexe. Les vidéos avaient été enregistrées aux États-Unis avec un ensemble diversifié d’adultes de différents groupes d’âge, de sexe et de teint apparent, les étiquettes ne comprenaient que l’âge, trois sous-catégories de sexe (femme, homme et autre), le teint apparent de la peau et l’éclairage ambiant.

Casual conversations V2, un dataset multilingue

Meta a voulu approfondir les sous-catégories afin d’identifier les lacunes potentielles de son modèle en matière d’équité et de robustesse. La société a continué à collaborer avec des experts pour élargir l’ensemble de données, afin d’aider le milieu de la recherche à évaluer les préoccupations en matière d’équité et de robustesse des modèles d’IA, plus particulièrement pour la vision par ordinateur et le traitement du langage naturel, sur des données réalistes et diversifiées.

Cette 2ème version du modèle que Meta vient de rendre accessible au public, également basée sur le consentement, compte ainsi 11 catégories. L’ensemble de données comprend 26 467 monologues vidéo enregistrés dans sept pays (Brésil, Inde, Indonésie, Mexique, Vietnam, Philippines et États-Unis). Les 5 567 participants ont, comme pour la première version, été rétribués et ont eux-aussi fourni des attributs auto-identifiés : âge, sexe, langue/dialecte, géolocalisation, handicap, ornements physiques, attributs physiques.

Un groupe d’annotateurs formés a étiqueté le teint apparent des participants à l’aide de l’échelle de Fitzpatrick et de l’échelle Monk, annoté le timbre de la voix, l’activité et les configurations d’enregistrement.

Meta espère étendre davantage l’ensemble de données à d’autres zones géographiques par le futur.

Roy Austin, Vice-Président, avocat général adjoint pour les droits civils chez Meta, assure :

« Pour accroître la non-discrimination, l’équité et la sécurité dans l’IA, il est important de disposer de données inclusives et de diversité au sein des catégories de données afin que les chercheurs puissent mieux évaluer dans quelle mesure un modèle spécifique ou un produit alimenté par l’IA fonctionne pour différents groupes démographiques. Cet ensemble de données joue un rôle important pour s’assurer que la technologie que nous construisons a l’équité à l’esprit pour tous dès le départ”.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.