Gaël Varoquaux : Une nouvelle méthodologie d'encodage de variable catégorielle en présence de bruit

Gaël Varoquaux, chercheur en machine learning et imagerie cérébrale, travaillant au sein d'INRIA & INSERM a récemment présenté une nouvelle méthodologie d'encodage de variables catégorielles en présence de bruit. Visionnez la vidéo de cette présentation lors du petit-déjeuner de la chaire DAMI (Data Analytics & Management for Insurance) sous l'égide de la fondation du risque. Comment traiter des jeux de données issues du monde réel, dans lequel les informations sont très fréquemment bruitées ? ( typos, champs libres de saisie, différences de conventions...). Gaël Varoquaux présente tout d'abord des approches connues pour adresser des problématiques liées : nettoyage de bases de données (correspondance entre les enregistrements et dédoublonnage des données), les méthodes de normalisation utilisées en traitement automatisé du langage (stemmatisation..) et l'encodage par cible utilisé en Machine Learning. Il présente ensuite l'approche basée sur l'encodage par similarité, fruit d'une collaboration avec Patricio Cerda et Balazs Kegl ( "Similarity encoding for learning with dirty categorical variables", https://arxiv.org/pdf/1806.00979 ). Cette approche repose sur le principe de l'encodage one-hot couramment utilisé en machine learning, mais couple ses facultés de représentation vectorielle de l'appartenance aux catégories avec le lien de similarité entre les chaînes de caractères. Ainsi, au lieu d'être encodés sous forme binaire, les liens sont représentés par l'indice de similarité textuelle avec la catégorie de référence. Il est possible de tester une implémentation python de cette approche sur : https://dirty-cat.github.io/stable/

ActuIA

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Tous ses articles →

Gaël Varoquaux : Une nouvelle méthodologie d'encodage de variable catégorielle en présence de bruit

ContextEcho : la compaction ne corrige pas la dérive de persona, benchmark sur 23 modèles

GPT plus confiant sur les tâches difficiles où il se trompe le plus, selon un preprint USC/Berkeley

Machine unlearning : Google Research valide un test d'audit, mais pas encore sur les LLMs