"Ce manque de compréhension peut entraîner des fuites de données entre les données de formation et les données de test, exposer des informations personnellement identifiables, présenter des biais ou comportements non intentionnels, et entraîner en général la création de modèles de moindre qualité que prévu. Au-delà de ces défis pratiques, les lacunes d'information et la dette documentaire entraînent des risques éthiques et légaux importants".
Un audit à grande échelle des ensembles de données d’IA
Pour permettre aux développeurs de modèles, chercheurs et praticiens d'attribuer la provenance des données, ils ont développé un ensemble d'outils et de normes pour retracer la lignée des données de 44 des collections de données textuelles les plus largement utilisées et adoptées, couvrant plus de 1800 ensembles de données de réglage fin. Collectivement, ces ensembles de données ont été téléchargés des dizaines de millions de fois et constituent l’épine dorsale de nombreuses percées publiées en NLP. Avec l'aide d'experts juridiques, ils ont conçu un pipeline pour retracer la provenance des ensembles de données, y compris la source originale de l'ensemble de données, les licences associées, les créateurs et leur utilisation ultérieure. Leur travail a révélé une division nette entre les ensembles de données ouverts à des fins commerciales et ceux fermés, ces derniers monopolisant des sources plus diversifiées et créatives. Ils ont également constaté des problèmes systémiques dans les pratiques de provenance des données, notamment l’utilisation d’une documentation de licence clairsemée, ambiguë ou incorrecte. Plus de 70 % des licences des ensembles de données populaires sur GitHub et Hugging Face sont en effet "non spécifiées", ce qui expose à des risques en termes de responsabilité légale. De plus, les licences attachées aux ensembles de données téléchargés sur les plateformes de partage d'ensembles de données sont souvent incohérentes avec la licence attribuée par l'auteur original de l'ensemble de données : leur annotation rigoureuse des licences révèle que 66 % des licences de Hugging Face analysées étaient dans une catégorie d'utilisation différente, souvent étiquetée comme plus permissive que la licence initialement prévue par l'auteur. Leur initiative réduit le nombre de licences "non spécifiées" de plus de 72 % à 30 % et ajoute des URL de licence pour les développeurs de modèles dont les ressources sont limitées afin qu'ils puissent choisir plus en toute confiance les données appropriées pour leurs besoins. Shayne Longpre et Sara Hooker, deux des auteurs de l'article, déclarent :"Le résultat de cette initiative multidisciplinaire est le plus grand audit à ce jour des ensembles de données d’IA. Pour la première fois, ces jeux de données incluent des balises vers les sources de données d’origine, de nombreuses relicences, des créateurs et d’autres propriétés de données".