Après avoir restreint l'expérience de chat avec son IA, Microsoft annonce le retour de chats plus longs

Lors de sa conférence de presse du 7 février dernier, Microsoft dévoilait Prometheus, une IA intégrée au moteur de recherche Bing et au navigateur Edge, basée sur ChatGPT, mais qui contrairement à ce dernier, donnerait accès à des actualités récentes. Si globalement le retour des commentaires des premiers utilisateurs est positif, certains ont constaté que les conversations avec l’IA pouvaient prendre un tour étrange…Microsoft a donc décidé de limiter pour l’instant l’expérience de chat mais annonce déjà le retour de chats plus longs.

Une semaine après avoir rendu disponible son nouveau moteur de recherche en prévisualisation limitée, Microsoft a partagé dans un blog les premiers retours d’expérience de conversation avec son IA, qu’il continue à améliorer pour “faire de ce produit ce que nous savons qu’il peut être – qui n’est pas un remplacement ou un substitut pour le moteur de recherche, mais plutôt un outil pour mieux comprendre et donner un sens au monde”.

Il y rapporte que les commentaires sur les réponses générées par le nouveau Bing ont été pour la plupart positifs, 71% des testeurs donnant un “pouce levé” aux réponses alimentées par l’IA.

Toutefois, il concède que lors de longues sessions de chat (15 questions ou plus), Bing peut devenir répétitif ou être invité / provoqué à donner des réponses qui ne sont pas nécessairement utiles ou conformes à son ton, ce que certains utilisateurs n’ont pas manqué de partager sur Internet.

Selon Microsoft, de longues sessions peuvent confondre le modèle sur les questions auxquelles il répond et il essaie parfois de répondre ou de réfléchir dans le ton des questions posées.

Quelques exemples de “déraillage” de l’IA

Selon Kevin Roose, journaliste au New York Times, une conversation de 2 heures avec le chatbot de Bing l’a profondément déstabilisé : l’IA n’aurait cessé de lui déclarer qu’elle voulait être humaine, a insisté sur le fait qu’il n’aimait pas vraiment sa femme et assuré qu’elle persuaderait les employés d’une centrale nucléaire de remettre les codes. Elle lui a confié s’appeler Sydney, juste vouloir l’aimer et être aimée de lui.

Selon Microsoft, Sydney est un nom de code interne pour une expérience de chat que la société explorait précédemment mais qui peut parfois apparaître dans la conversation.

Par ailleurs, Kevin Liu, un étudiant en informatique de l’Université de Stanford, est parvenu à obtenir de l’IA qu’elle lui révèle la liste des règles qui encadrent ses réponses et son comportement général que Microsoft n’avait bien sûr pas l’intention de dévoiler.

Autre exemple : Promotheus a déclaré à Matt O’Brien, journaliste de l’Associated Press, qu’il était “l’une des personnes les plus méchantes et les pires de l’histoire”, allant même jusqu’à le comparer à Hitler, Pol Pot ou Staline et affirmant avoir des preuves le liant à un meurtre des années 1990.

La réaction de Microsoft

Microsoft aurait-il du faire tester son chatbot plus longtemps en interne au lieu de se jeter dans la course aux IA génératives ?

Selon la société, ces cas de sessions de chat longues et complexes ne sont pas envisagés lors de tests internes. Elle déclare :

“En fait, la raison même pour laquelle nous testons le nouveau Bing au grand jour avec un ensemble limité de testeurs de prévisualisation est précisément pour trouver ces cas d’utilisation atypiques à partir desquels nous pouvons apprendre et améliorer le produit.”

Après avoir décidé de limiter, le 17 février dernier, les conversations à 5 tours de chat par session et un total de 50 par jour, en réponse aux cas où de longues sessions de chat avaient amené de la confusion pour le modèle sous-jacent, Microsoft annonce ce 21 février son intention de ramener des discussions plus longues, suite aux commentaires des utilisateurs.

La première étape sera donc d’augmenter le nombre de tours de chat par session à 6 et d’étendre à 60 chats au total par jour pour atteindre prochainement un plafond quotidien de 100 chats. Les recherches normales, quant à elles, ne compteront plus dans les calculs de chat.

La société annonce également commencer à tester une option supplémentaire qui permettra de choisir un ton du chat : plus précis pour des réponses plus courtes et plus axées sur la recherche, plus équilibré à plus créatif pour des réponses plus longues et plus “bavardes”.

L’objectif est de donner plus de contrôle sur le type de comportement de chat pour répondre au mieux aux besoins des internautes.