Gaël Varoquaux : Une nouvelle méthodologie d’encodage de variable catégorielle en présence de bruit

Gaël Varoquaux, chercheur en machine learning et imagerie cérébrale, travaillant au sein d’INRIA & INSERM a récemment présenté une nouvelle méthodologie d’encodage de variables catégorielles en présence de bruit. Visionnez la vidéo de cette présentation lors du petit-déjeuner de la chaire DAMI (Data Analytics & Management for Insurance) sous l’égide de la fondation du risque.

Comment traiter des jeux de données issues du monde réel, dans lequel les informations sont très fréquemment bruitées ? ( typos, champs libres de saisie, différences de conventions…).

Gaël Varoquaux présente tout d’abord des approches connues pour adresser des problématiques liées : nettoyage de bases de données (correspondance entre les enregistrements et dédoublonnage des données), les méthodes de normalisation utilisées en traitement automatisé du langage (stemmatisation..) et l’encodage par cible utilisé en Machine Learning.

Il présente ensuite l’approche basée sur l’encodage par similarité, fruit d’une collaboration avec Patricio Cerda et Balazs Kegl  ( “Similarity encoding for learning with dirty categorical variables”, https://arxiv.org/pdf/1806.00979 ). Cette approche repose sur le principe de l’encodage one-hot couramment utilisé en machine learning, mais couple ses facultés de représentation vectorielle de l’appartenance aux catégories avec le lien de similarité entre les chaînes de caractères. Ainsi, au lieu d’être encodés sous forme binaire, les liens sont représentés par l’indice de similarité textuelle avec la catégorie de référence.

Il est possible de tester une implémentation python de cette approche sur : https://dirty-cat.github.io/stable/

 

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.

1ère Marketplace de l'IA et de la transformation numérique vous recommande :
DataEcriture par demain.ai

Dataecriture est l’offre dédiée de demain.ai dans le traitement du langage. nous transformons vos données en langage naturel. nos équipes vous propose...

 
Thématique(s) Recherche en intelligence artificielle
Plus d'actualités sur Balazs KeglChaire DAMIGaël VaroquauxPatricio Cerda
Sur le même thème
Partager l'article
Offre exclusive : 1 an d'abonnement au magazine ActuIA + Le guide pratique d'adoption de l'IA en entreprise pour seulement 27,60€ Boutique ActuIA Pour tout abonnement à ActuIA, recevez en cadeau le Guide Pratique d'Adoption de l'IA en Entreprise, d'une valeur de 23€ !
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.