Entretien avec Hubert Wassner – Chief Datascientist chez AB Tasty – 2/2

Entretien avec Hubert Wassner – Chief Datascientist chez AB Tasty – 2/2
Actu IA
abtasty-logo@x2

Dans cette seconde partie de notre entretien avec Hubert Wassner, Chief Datascientist chez AB Tasty depuis 2014, seront abordés plus en détails le travail de datascientist, la formation mais également l’essor et l’impact de l’intelligence artificielle dans notre quotidien.

Actu IA: En quoi consiste votre poste de Chief datascientist au sein d’AB Tasty?

Hubert Wassner: J’étais enseignant dans une école d’ingénieur privée et je faisais déjà de la R&D pour des entreprises. Le passage de l’enseignement à AB Tasty en 2014 n’a donc pas été un problème. Quand je suis arrivé chez AB Tasty, j’étais le premier datascientist. Nous étions 20 employés mais l’équipe compte désormais environ 120 personnes si on compte les commerciaux dans tous les pays.

Progressivement AB Tasty a identifié l’importance d’avoir un datascientist dans l’équipe. Je leur ai montré que leur manière de faire les tests statistiques n’était pas forcément la bonne, même si ce n’était pas gravissime dans la mesure où tous les autres faisaient pareil. En changer nous a donné un avantage notable car nous étions les premiers à le faire. En voyant les résultats, ils ont pu constater que les données étaient vraiment le cœur du fonctionnement d’un test A/B et ont donc décidé d’étoffer l’équipe.

C’est ainsi que j’ai pu recruter et qu’aujourd’hui nous sommes 3,5. Un ingénieur, une doctorante qui fait une thèse sur le sujet et un stagiaire. De nouveaux recrutements sont prévus, grâce à la levée, selon les besoins que l’on identifie et l’avancement du projet. Je dirige donc maintenant le pôle de “DataScience et Intelligence artificielle” et nous essayons d’aller encore plus loin.

Nous souhaitons poursuivre vers de nouvelles idées, plus exploratoires, comme par exemple essayer de produire des variations automatiquement, ce qui est l’une des problématiques récurrentes de nos clients. C’est une réflexion pleinement IA et de type learning pour proposer notamment des textes, des formulations, ou des images alternatives à ceux qui cherchent à optimiser leur site web sans comprendre ce qui ne marche pas. Cela paraît ambitieux mais je pense qu’aujourd’hui c’est imaginable.

Nous sommes dans un contexte particulier où il y a quand même un opérateur qui va regarder ce qui se passe. On ne va pas générer des variations par de l’IA et les mettre sous les yeux des visiteurs sans aucune vérification. Ce qu’on imagine c’est plus de fournir des propositions dans l’éditeur. Rien de dramatique donc si ces propositions sont complètement hors sujet car l’opérateur va sélectionner les variations, avant de les mettre dans une vraie expérimentation.

Comment décririez-vous cette période qui voit depuis quelques années un développement très important des domaines liés à l’IA, tant en recherche qu’en produits commerciaux ?

Hubert Wassner: Je pense que cela va être une révolution du même ordre que l’essor de l’informatique dans les années 80-90. Cela va produire le même bouleversement. J’aime bien prendre l’image de l’informatique qui est l’un des premiers outils protéiformes.

Vous avez un ordinateur mais en fonction du programme que vous mettez dedans, cela devient un traitement de texte, un élément de communication, cela vous permet de monter des vidéos, de créer des images, de la musique ou d’en diffuser. Cela a été une première révolution. Des experts sont apparus et ont créé de nouveaux usages et outils, ce qui a entraîné l’apparition de nouvelles pratiques.

Aujourd’hui par exemple quand vous avez une panne d’internet, plus personne n’est à son bureau. Un ordinateur sans internet ça n’a plu d’intérêt et vice versa. Alors qu’il n’y a pas si longtemps, quand internet n’était pas si répandu, on avait pas besoin d’internet pour être derrière son ordinateur. Un ordinateur aujourd’hui c’est un outil de communication et sans internet ça perd son sens.

L’informatique ne fait qu’automatiser des choses que l’on sait déjà faire (monter des vidéos, écrire des textes). Avec le développement de l’intelligence artificielle et du machine learning on est dans un paradigme complètement différent.

Si on prend l’exemple de l’analyse des radiographies médicales, je peux prendre une base de données d’images avec les diagnostics derrière. J’écris un programme qui apprend à faire le diagnostic derrière les images, il saura le faire, moi j’aurais écrit le programme mais je ne saurais pas le faire.

Cela signifie que le machine learning et son développement sont fondamentalement différents car cela donne la capacité à l’informatique de réaliser des tâches que celui qui l’a programmée pour le faire, ne sait pas faire. C’est donc déjà philosophiquement étonnant mais entraîne en plus beaucoup de questions sur le fonctionnement afin de pouvoir avoir un jugement.

Les crédits bancaires et l’évaluation de la solvabilité sont un bon exemple. Beaucoup de modèles sont basés sur du machine learning mais on ne peut pas expliquer pourquoi on accorde un crédit à un tel et pas à un tel. Il peut y avoir des biais dans les bases d’apprentissage qui vont mettre à l’écart une partie de la population.

Il y a quelque chose d’intrinsèque à ce côté machine learning et qui n’existait pas dans la pratique de l’informatique algorithmique c’est que bien souvent les algorithmes sont prouvés. On sait que c’est bon, c’est vérifié. Dans le machine learning, il y a beaucoup d’algorithmes qui sont utilisés, qui fonctionnent mais on ne sait pas vraiment pourquoi.

L’utilisation d’algorithmes vérifiés était quelque chose de très important dans l’informatique algorithmique. En machine learning aujourd’hui, ce côté apprentissage fait qu’il y a implicitement une notion d’erreur. Elle est acceptée ou plutôt contrôlée. La notion de gestion d’erreur dans la mise en production de système de machine learning est très fondamentale.

On constate également une forte augmentation du nombre de start-up en lien avec l’intelligence artificielle, la data, etc. Est-ce que l’humain est en passe d’être dépassé par la machine?

Hubert Wassner: On entend en effet souvent que la machine fait mieux que l’humain mais il faut reconnaître que c’est bien vrai, surtout lorsqu’il s’agit de faire du répétitif, rapidement. Par exemple, quand un visiteur arrive sur l’un de nos sites et que l’on doit savoir quelle variation ou quelle personnalisation lui montrer, on a un budget de temps de l’ordre de 200 milli-secondes. Donc globalement mettre un humain face à cet algorithme, c’est compliqué.

L’humain face à la machine

Comparer ce qu’est capable de faire un humain par rapport à ce qu’est capable de faire une machine perd rapidement son sens. Le jeu d’échec a été dominé par la machine tout comme le jeu de go qui était resté très longtemps, du fait de la logique même du jeu, inatteignable.

Pour le jeu d’échec, “l’intelligence artificielle” ne se basait pas sur du machine learning mais plus sur du brute force. L’ordinateur est capable de battre l’humain car il peut prévoir toutes les situations, ou presque. C’est la raison pour laquelle la victoire de l’IA sur les joueurs d’échec était attendue. Il fallait simplement attendre que les ordinateurs soient assez puissants comme l’indique la Loi de Moore.

Concernant le jeu de go, on ne pouvait pas faire cette approche et donc on pouvait imaginer que le jeu de go allait résister longtemps. Mais le meilleur joueur est désormais un ordinateur basé cette fois sur du machine learning. Et c’est là que c’est intéressant parce qu’à la fois il y a des erreurs mais on fait avec.

Et on peut faire le parallèle avec notre société et l’industrie. Cette dernière était en effet était 100 % humaine au départ avant d’être automatisée. Donc côté industriel, la gestion de l’erreur c’est quelque chose qui existe. De notre côté par contre, on s’est habitué, en informatique, à ce qu’il n’y ait théoriquement pas d’erreur et il va donc falloir qu’on accepte que, de temps en temps, il y en ait.

Intelligence artificielle et cybersécurité

Cela va être une grosse évolution. Parallèlement, je me demande comment les gens réagiraient si on pouvait retourner aux années 80 et dire aux gens que leurs ordinateurs allaient pouvoir souffrir de virus informatiques. On n’a jamais imaginé au départ les virus ou les cyberattaques et c’est pour cela qu’aujourd’hui ils sont possibles. Intrinsèquement, la notion de sécurité en matière informatique n’a jamais été pensée et des petits malins ont pu en profiter.

Je pense que de la même manière qu’il y a du hacking, on risque d’avoir à un moment donné du data-hacking ou du IA-hacking. A l’heure actuelle on est tellement focalisé sur la performance, sur l’adaptation, sur la recherche de nouveaux marchés, plus que sur se dire, ‘tiens attention on risque d’avoir un revers de la médaille d’une manière ou d’une autre’.

A posteriori on se rendra peut-être compte que certains modèles fonctionnent sans que l’on sache réellement au final ce qu’ils font. Schématiquement une sorte de fantasme à la Skynet, même si cela ne sera jamais réellement aussi cinématographique. Mais surtout cela peut être des modèles par exemple d’analyse de solvabilité dont on se rend compte a posteriori qu’ils excluent certaines populations. Ou sur des modèles de diagnostic, il y aura certains types d’erreur et que l’on s’en rendra compte que X temps après. Et des gens qui chercheront des moyens de détourner ces systèmes d’IA pour leurs propres intérêts.

L’essor de l’intelligence artificielle, y compris dans les médias, semble alimenter des craintes face aux possibles applications mais également par rapport à l’emploi, à la récupération de données ou aux attaques informatiques

Hubert Wassner: Je comprends ces craintes face à l’IA, elles sont naturelles. Il s’est passé la même chose à l’époque de l’essor de l’informatique. On disait aussi que l’automatisation allait faire disparaître des emplois mais cette révolution a juste emmené une transformation. Le nombre d’informaticiens par exemple a explosé. C’est compliqué de faire un bilan et de savoir si ça a généré plus d’emplois que ça en a détruit. Il y a beaucoup de choses qui vont devoir changer.

Prenons l’exemple des grandes majors de la musique. On pensait qu’avec internet, elles allaient toutes s’effondrer et que plus personne ne produirait de musique. Globalement aujourd’hui les majors se sont effondrées mais il me semble qu’il y a plus de gens qui font de la musique qu’avant. Ils ne la font plus pareil et le business modèle a changé. Maintenant ce qui rapporte plus ce sont les concerts ou encore le streaming.

Machine learning supervisé et Machine learning non-supervisé

Sur la notion du travail en lui-même, je suis un grand avocat des méthodes d’apprentissage non-supervisé. En machine learning, on va apprendre à partir de données et il y a deux grandes catégories. Le machine learning supervisé et le machine learning non-supervisé.

Si je prends l’exemple du machine learning supervisé en radiologie: un humain a déjà fait le diagnostic et on entre dans la machine les données d’entrée (la radio) et la donnée de sortie attendue (le diagnostic). On lui dit précisément ce qu’il y a à apprendre. Cette méthode semble évidente et on se dit qu’une fois que la machine sera capable de refaire tous les diagnostics comme le radiologue, ce dernier devient inutile. C’est une perception simplifiée mais je comprends qu’on puisse l’avoir.

En machine learning non-supervisé, on ne va pas donner à la machine ce qui est attendu en sortie. Et c’est extrêmement intéressant car souvent on découvre des choses qu’on ne savait pas. Par exemple, on entre de nombreuses données de radiologie et va la laisser faire des classifications.

L’algorithme va essayer d’apprendre à classer les données en fonction de ce qui se ressemble et de ce qui ne se ressemble pas. En fait, on va peut-être identifier N paquets de données et à la fin on va voir tous les gens qui ont des fractures, les personnes âgées qui ont de l’ostéoporose et autres. Et sans poser d’a priori au départ, on va peut-être identifier une nouvelle maladie ou mieux comprendre davantage une pathologie.

Aujourd’hui, 95 % des produits et des démos que l’on voit sur Internet sont basés sur de l’apprentissage supervisé. Donc c’est normal qu’on ait l’impression qu’en transposant une connaissance d’expert dans une machine, l’expert ne soit plus vraiment utile et qu’on pense que son métier va disparaître.

Cependant, je pense que dans l’avenir ce sont justement les méthodes d’apprentissage non-supervisé qui doivent être développer. Ils permettent de faire des découvertes et ce faisant d’aider l’expert et de lui donner de nouveaux savoirs. On peut créer des champs d’applications et donc peut-être de nouveaux business. L’automatisation et la rapidité sont aussi générateurs d’emplois. Une évolution va devoir être enclenchée, c’est certain.

Intelligence artificielle, automatisation et protection des données

Chez AB Tasty, nous devons faire du marketing instantanée en quelques milli-secondes et ce n’est pas faisable par un humain. On n’est pas en train de piquer des boulots mais plutôt en train d’en créer. L’automatisation des tâches va apporter aussi des emplois plus intéressants à faire.

En ce qui concerne les données, j’ai des amis qui sont également dans l’informatique et qui me disent qu’ils n’ont pas envie d’avoir des sites web personnalisés. Ils sont par exemple fiers d’utiliser des plugins pour masquer leurs données personnelles. Mais c’est assez étrange car les gens n’ont pas envie qu’on collecte leurs données mais ils ont aussi envie d’avoir un service personnalisé. On ne peut pas avoir l’un sans l’autre et il faut choisir.

Cette crainte est légitime mais quand on est dans le domaine, comme moi, elle nous semble d’autant plus étrange en voyant tout ce que beaucoup mettent sur Facebook et autres réseaux sociaux. Ils ne veulent pas qu’on leur prenne discrètement un certain nombre d’informations qui ne sont pas super engageantes alors qu’ils donnent une énorme quantité d’informations totalement gratuitement à d’autres sociétés qui ne se privent pas de les utiliser.

Quand on regarde ce qui s’est passé pendant les élections américaines et comment Donald Trump a réussi à se faire élire en partie en sachant utiliser des données de ce type-là, on voit qu’il y a un impact beaucoup plus fort. Je remettrais donc les choses en perspective en disant que oui, il y a un petit risque, mais le vrai risque à l’heure actuelle c’est ce que les gens mettent naturellement sur les réseaux sociaux.

Ce n’est pas un point de vue facile à faire accepter au grand public, j’en suis conscient. Ma crainte personnelle concerne davantage le pendant de l’informatique c’est à dire l’arrivée des virus, le hacking et l’insécurité informatique. Je me demande ce que cela va donner avec l’IA et sous quelle forme l’insécurité de la datascience va se concrétiser.

Même étant de la partie je n’en ai aucune idée. Je faisais déjà de l’informatique dans les années 80, même si c’était un hobbie, et cette notion de virus ne me serait jamais venue à l’esprit. La question c’est donc de savoir ce qui va nous ‘embêter demain’ sur l’IA et la data.

C’est peut-être plus de là que vont venir les choses que nous allons regretter par la suite. Je suis par contre plus optimiste concernant les changements dans le domaine de l’emploi alors que je suis plus inquiet, sans savoir de quoi, des personnes malintentionnées et de leurs créations.

Quelles seraient vos recommandations en tant que professionnel à des étudiants qui voudraient se lancer dans le domaine?

Hubert Wassner: Ce n’est pas simple car il y a beaucoup d’attentes dans le domaine. L’école d’ingénieur c’est juste un début, pas un accomplissement. Un diplôme d’école d’ingénieur en informatique c’est donc un bon point de départ pour commencer à faire de l’intelligence artificielle.

L’école d’ingénieur, une base à compléter

Selon moi on ne peut pas dire qu’on peut faire de l’IA en sortant d’une école d’ingénieur. Ou alors ce sont des purs génies comme il en sort quelques fois. Le diplôme d’ingénieur c’est juste la base pour pouvoir être en capacité de commencer. Après, il faut se former. Il y a des écoles mais ce sont des programmes en un an. Le mieux reste donc la formation en continu. Il ne faut pas considérer qu’un diplôme est suffisant, il faut se former, essayer de se confronter aux sujets au plus tôt.

Ce que j’ai constaté, c’est que les jeunes profils qui sortent de formations en un an, ont souvent une crainte assez naturelle. Après seulement quelques mois, ils sont pas vraiment experts du thème. Ils ont une vision générale et ont fait quelques cas pratiques. Le problème c’est que quand on va les vendre, ils vont majoritairement aller dans des sociétés de conseil ou équivalent. Ils vont y être vendus en tant qu’experts, alors qu’ils sont très jeunes et bien souvent inquiets de ne pas être à niveau car justement ils sont survendus.

C’est difficile de se dire que l’on va être un expert en IA alors que c’est un sujet hyper vaste qui avance à grande vitesse. Qui plus est en sortant seulement d’une école d’ingénieur et d’une formation en un an où ils ont vu à la va-vite un certain nombre de méthodes et ils en ont appliqué quelques unes sur des ensembles de données où on sait que ça marche.

L’importance des connaissances métiers

Il y a aussi une difficulté supplémentaire quand on parle de ces fameux profils datascientist. En effet, bien souvent il faut aussi avoir une ou plusieurs connaissances métier pour les mettre en pratique. C’est déraisonnable de se dire que quelqu’un qui a éventuellement une expertise en IA et en informatique puisse en plus avoir une expertise métier et être en capacité justement d’allier les deux pour faire des produits.

Je vois par exemple beaucoup de gens qui parlent du site Kaggle. Il propose à la fois des cours, une communauté, des données et des défis avec des objectifs. Même si j’adore ce site, je m’amuse souvent à piquer les gens en leur expliquant que c’est certes intéressant mais que le souci c’est qu’ils éliminent le problème principal. C’est à dire de se demander :

  • Qu’est-ce que je vais chercher à faire ?
  • Quelle est la donnée que je veux vouloir prédire ?
  • Comment est-ce que je peux faire de la valeur ?

Bien souvent ils ont déjà fait toute la partie business. Par exemple, un classique du e-commerce c’est d’essayer de prédire la valeur d’un visiteur. Très bien, mais se poser cette question, et savoir comment on va l’exploiter, c’est déjà une partie du travail.

Le cas du e-commerce

Vous avez un visiteur, vous êtes capable de prédire qu’il va dépenser en moyenne 50 % de plus que la moyenne de base. C’est intéressant, mais que faire de cette information ? Il faut trouver des stratégies efficaces, comme le cuponing ou les deals anticipables. Un visiteur arrive sur votre site, il a un gros potentiel, donc automatiquement, dans les fameuses 200 millisecondes, avant qu’il ne reparte, vous devez lui proposer quelque chose.

Il faut savoir que les taux de conversion dans le e-commerce sont de l’ordre du 2 à 5 %. Quand un visiteur vient sur votre site pour la première fois il y a donc 95 % de chances qu’il n’achète rien. Le taux de rebond est de l’ordre de 50 % et les gens restent en général à peine 1 seconde sur le site, il faut donc être capable de harponner le client avant cette seconde fatidique en lui proposant un coupon par exemple si on pense qu’il a une valeur.

Le datascientist idéal

Bien souvent les gens se focalisent sur l’expertise IA en elle-même mais en fait l’expérience IA toute seule se vend mal, dans le sens où c’est compliqué. Les bons profils datascientist combinent connaissances mathématiques/statistiques, connaissances en informatique et connaissances en business.

Le bon datascientist, celui qui a une forte valeur ajoutée, c’est justement celui qui combine les trois types de connaissances. Ce n’est pas forcément un expert en mathématiques et en statistiques, pas forcément un excellent expert informatique ou business, il a le minimum vital dans les trois domaines pour être capable à un moment donné d’imaginer toute une chaîne de valeur.

Je pense que les jeunes profils doivent se dire qu’au début avec un diplôme d’ingénieur ils ne vont pas avoir une connaissance de tous les domaines, surtout que l’IA évolue elle-même. Ils ne doivent surtout pas négliger ce côté connaissances business.

L’intelligence s’applique désormais un peu à tout et il ne faut pas avoir peur de changer de domaines, d’être très ouvert, très curieux et de ne pas uniquement s’intéresser à ce qui touche à l’IA mais également au business et comment on le fait.

Personnellement j’ai travaillé sur de la reconnaissance vocale, d’images, sur des données de biologie, de réseaux sociaux et maintenant sur des données web dans un contexte commercial.

Mon conseil aux jeunes profils ce serait de continuer à toujours se former, à s’intéresser aux nouveautés tout en gardant cet esprit de curiosité par rapport au business, aux domaines d’applications, aux métiers sur lesquels on va faire des outils d’IA sinon on risque de faire des produits totalement hors sujet. Ce qui est malheureusement extrêmement facile.

Et enfin, pour les gens qui veulent se lancer dans ce type de métier, je leur dirais simplement: “faites des projets personnels, trouvez des sujets sur lesquels vous pouvez disposer de données, et évaluez vous-même la qualité de vos algorithmes.”