Les chatbots : la linguistique à l'assaut du machine learning

Pour approfondir le sujet

Sur le même thème :

Les entreprises sont-elles prêtes à adopter les chatbots ? L’enquête d’Umanis et de Konverso en infographie

Umanis, leader français en Data, Digital & Business Solutions a mené une enquête auprès des entreprises présentes lors de son événement « 5 à...

Golem.ai et Investance Partners s’associent pour faciliter l’adoption de l’intelligence artificielle par les acteurs de la finance

Le monde de la finance est en train de connaitre une véritable transformation. L'intelligence artificielle propose une longue série d'avancées. Celles-ci devraient permettre aux...

Synapse Développement participera au Grand Oral du concours « 10 000 startups pour changer le monde »

Après avoir reçu le trophée de l’Entreprise de l’année 2018 lors de la 38ème édition du concours des Inn’Ovations le 31 janvier dernier,...

Zoom sur la technologie de traitement du langage naturel d’Inbenta

Les chatbots sont très à la mode. Derrière eux se cache une grande variété de procédés visant à proposer une interface homme machine en...

Les chatbots : la linguistique à l’assaut du machine learning

Les principaux acteurs du chatbot ont opté pour une compréhension du langage humain par le Machine Learning. Petit à petit, un nouveau courant se lève, le retour de la linguistique, que l’on croyait incompatible avec les exigences de productivité et de fiabilité. De nouveaux modèles émergent pourtant, avec des qualités surprenantes, ouvrant de nouvelles perspectives pour le traitement du langage humain.

Le Machine Learning n’apprend pas tout seul

Quand on parle de Machine Learning (“ML”), il faut ici comprendre “réseau de neurones artificiels”. On résume souvent le ML aux réseaux de neurones, mais le domaine du ML est bien plus large ; il comporte d’ailleurs plusieurs domaines, dont les principaux sont le supervisé et le non-supervisé, le réseau de neurones s’inscrivant dans le supervisé. En effet, le réseau de neurone n’apprend pas tout seul, il est éduqué à l’avance par des exemples, donné plus ou moins manuellement par des humains.

Dans les chatbots, on retrouve donc ces 2 temps : d’abord le temps de l’entraînement, puis celui de l’usage en situation. Pendant l’usage en situation, il n’apprend rien spontanément. Au mieux, on ré-injecte les données utilisateurs après les avoirs analysées manuellement.

Beaucoup on pensé que le Machine Learning (“ML”) signifiait que la machine apprenait spontanément au contact de son environnement, comme un enfant. Il y a deux erreurs ici : Un réseau de neurones ne fonctionne pas comme la cognition d’un enfant, et d’autre part un réseau de neurones n’apprend pas tout seul.

Le réseau de neurones n’est pas un cerveau humain

Il s’agit d’une approche statistique. Le but est de répéter un comportement, en essayant de trouver la fonction mathématique qui permet de faire le lien entre l’entrée (la donnée) et la sortie (la décision).
Il ne s’agit donc non pas de “cognition”, pas au sens humain en tout cas. D’autant plus que le réseau de neurones, bien qu’inspiré du cerveau, est loin d’être réaliste sur bien des aspects.

Des idées reçues qui se vendent bien

 L’idée reçue d’un cerveau artificiel, tout comme l’idée reçue d’une machine qui apprend toute seule, ont eu un impact significatif sur le buzz de l’IA. La mode du ML s’est retrouvée projetée sur le chatbot, ce qui a donné lieu à des fantasmes étranges. Si ça apprend tout seul, et que ça contient un cerveau artificiel, alors c’est une machine consciente ? Avec des sentiments, et une intelligence qui va grandir exponentiellement ? Il s’agit bien sûr d’évocations d’images de la science fiction. Il va sans dire que ce storytelling, implicite ou explicite, a été un objet marketing.

Le retour de la linguistique

 Dans les années 60, certains agents conversationnels (comprenez “chatbot”), sont déjà étonnamment performants. On pense bien sûr à ELIZA. Ce qui leur manque, c’est une optique industrielle.

Plus largement, le traitement automatique du langage naturel (TALN) a longtemps été perçu comme une discipline purement académique. On est loin du business. Il s’agit principalement de travaux de recherche.

Des caractéristiques différentes

 Le ML va apporter du multi-lingue très facilement, et va permettre d’oublier toute notion de linguistique. Cette dernière qualité étant relative, parce que c’est aussi la cause d’un manque de fiabilité global, et de la nécessité d’un entraînement très long et fastidieux. Par opposition, la linguistique traditionnelle propose une compréhension plus fine, mono-langue, plus difficile à mettre en oeuvre pour un cas concret.
Ceci dit, de nouvelles approches de la linguistique computationnelle émergent, basés sur des concepts plus universels et moins complexes. C’est une ouverture qui permettrait d’obtenir tout à la fois les avantages du ML et ceux du TALN.

Le ML ré-apprend tout le langage

 En ayant une connaissance “innée” du langage, les technologies linguistiques sont plus faciles à configurer, plus fiables aussi. En effet, dans le ML, pour une situation donnée, le réseau de neurones n’apprend pas seulement le métier ; il apprend également tout le langage humain, pour une ou plusieurs langues données. Et pour chaque chatbot, tout ce travail est à refaire. On comprend ainsi mieux la faiblesse du système, et la nécessité de compétences linguistiques prépondérantes, dont la fiabilité a été prouvée.

Une approche mixte encore abstraite

 Est-ce qu’il serait possible d’utiliser le ML pour améliorer la linguistique, ou inversement ? Conceptuellement, c’est possible, il y a même certains usages qui sont immédiatement compréhensibles. Par exemple, on peut pré-configurer un système linguistique par une passe de ML, pour tirer pleinement partie de BDD déjà existantes.
Mais dans les faits, c’est encore très abstrait, tout est à inventer.

On peut parier que le mélange linguistique et machine learning apportera de nouvelles choses. Mais ne tentons pas un syncrétisme trop hâtif, très tentant. La linguistique doit revenir sur la scène, elle est en train d’y parvenir. Les chatbots ML ont ouvert une voie sur le marché, et pour y répondre, certaines startups arrivent à mêler des sciences humaines et des compétences techniques. C’est une approche qui est globalement plus compatible avec les normes de sécurité (GDPR) et sur laquelle on peut capitaliser : tout n’est pas à refaire à chaque fois. Chaque avancée est un avoir algorithmique ré-utilisable.
Assurément, la linguistique va permettre au chatbot de passer à un cran au dessus, en terme de qualité mais aussi de possibilités.

Contributeur expert

Thomas Solignac

Thomas Solignac est le fondateur et CEO de Golem.ai, une startup proposant un moteur d’interpr

Partager l'article

Deux ans après l’arrivée de ChatGPT, comment la GenAI transforme la recherche en ligne et le marketing

Alors que ChatGPT vient de fêter son second anniversaire et compte aujourd'hui plus de 300 millions d'utilisateurs hebdomadaires, le rapport "Online Search After ChatGPT:...

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

Alors que Meta prépare le lancement des premiers modèles Llama 4 pour le début de l'année prochaine, l'entreprise a dévoilé en fin de semaine...

AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Lancé par ServiceNow, AgentLab est un framework open source visant à faciliter le développement et l'évaluation d'agents Web. Son objectif principal est de soutenir...

Pleias : des modèles de langages ouverts pour une IA éthique et transparente

Pleias, une start-up française, annonce le lancement de sa première famille de grands modèles de langage (LLM), définissant de nouvelles références en matière...