Meta a annoncé ce 9 mars l'ouverture en open source de Casual Conversations v2, un ensemble de données publiques (audio, vidéo, texte) qui, par sa diversité, permettra aux chercheurs aux chercheurs d'évaluer l'équité et la robustesse des modèles d'IA, et ainsi affiner ceux sur lesquels ils travaillent.
Pour que l’IA serve équitablement les communautés, les chercheurs ont besoin d’ensembles de données diversifiés et inclusifs afin d’évaluer de manière rigoureuse et réfléchie l’équité des modèles qu’ils construisent. Dans les applications de la vision par ordinateur et de la reconnaissance vocale en particulier, les chercheurs en IA ont besoin de données pour évaluer le fonctionnement d’un modèle pour différents groupes démographiques.
Cependant ces données peuvent être difficiles à collecter en raison de contextes culturels et géographiques complexes, d’incohérences entre les différentes sources et de problèmes de précision de l'étiquetage.
Casual Conversations, la première version publiée par Meta en 2021, est un ensemble de données, basé sur le consentement, conçu pour aider les chercheurs à évaluer la précision de leurs modèles de vision par ordinateur et audio. Il comprenait plus de 45 000 vidéos de 3 011 personnes rémunérées ayant accepté de participer au projet et fourni elles-mêmes des étiquettes d’âge et de sexe. Les vidéos avaient été enregistrées aux États-Unis avec un ensemble diversifié d’adultes de différents groupes d’âge, de sexe et de teint apparent, les étiquettes ne comprenaient que l’âge, trois sous-catégories de sexe (femme, homme et autre), le teint apparent de la peau et l’éclairage ambiant.
Meta publie la base de données inclusive Casual Conversations v2 en open source

Acteurs cités
Sur le même sujet
L'Hebdo ActuIA
Inscription confirmée, à très vite !