L’IA générative offre un potentiel énorme pour accélérer ou automatiser un large éventail de tâches dans de nombreux domaines différents, y compris celui du droit. Cependant, une récente étude met en lumière les risques sous-jacents associés à l’utilisation des LLMs dans la pratique juridique. Les auteurs ont examiné trois modèles de langage populaires (GPT 3.5, Llama 2 et PaLM 2) et ont découvert des erreurs fréquentes et troublantes qu’ils décrivent comme des “hallucinations légales”.
Des systèmes tels que ChatGPT, PaLM, Claude et Llama offrent des capacités sans précédent pour analyser et générer des textes détaillés sur une multitude de sujets. Dans le domaine du droit, ils sont utilisés pour une variété de tâches, allant du criblage de documents à la rédaction de mémorandums et de synthèses juridiques détaillés, en passant par la formulation de stratégies de litige complexes.
Cependant, alors que, selon leurs développeurs, certains LLMs ont obtenu de bons scores à l’examen du barreau, ils sont comme tous les modèles de langage sujets à des hallucinations, générant du contenu qui s’écarte des faits juridiques réels ou des principes et précédents juridiques bien établis.
Dans leur étude, les chercheurs du Stanford RegLab et de l’Institute for Human-Centered AI démontrent que les hallucinations légales sont nombreuses : les taux d’hallucination de GPT 3.5, PaLM 2 et Llama 2 sont respectivement de 69 %, 72% et 88 % en réponse à des requêtes juridiques spécifiques. Ces résultats soulèvent des préoccupations importantes quant à la fiabilité des LLMs dans les contextes juridiques, soulignant l’importance d’une intégration prudente et supervisée de ces technologies d’IA dans la pratique juridique.
Les chercheurs ont constaté que les performances des trois modèles se détériorent lorsque les tâches sont plus complexes, nécessitant une compréhension nuancée des questions juridiques, des textes juridiques ou de la hiérarchie judiciaire. Alors qu’ils ont tendance à mieux performer avec des cas célèbres et dans les cours supérieures américaines, ils éprouvent des difficultés dans l’analyse de la jurisprudence des tribunaux inférieurs, ce qui remet en question leur capacité à réduire les barrières d’accès à la justice en offrant un moyen facile et peu coûteux pour le public d’obtenir des conseils juridiques.
Pour eux, “ces résultats suggèrent que les LLM ne sont pas encore en mesure d’effectuer le type de raisonnement juridique que les avocats effectuent lorsqu’ils évaluent la relation de précédent entre les affaires – un objectif central de la recherche juridique”.
Un autre défi critique identifié est le biais contrafactuel, où les LLM ont tendance à supposer la véracité de fausses affirmations en tant qu’invites conduisant à des réponses incorrectes. Si Llama 2 rejette fréquemment ces fausses prémisses, il nie parfois à tort l’existence de cas ou de juges réels.
Les trois modèles ont également tendance à un excès de confiance, indépendamment de leur précision réelle. Ces biais soulèvent des préoccupations quant à la capacité des LLM à fournir des informations précises et fiables.
Malgré ces défis, les LLM présentent un potentiel important pour améliorer l’accès à la justice et accélérer les processus juridiques. Cependant, une approche prudente est nécessaire pour maximiser les avantages tout en minimisant les risques. Ce qui nécessite une surveillance étroite, une compréhension humaine des capacités et des limites de l’IA, ainsi qu’une intégration responsable de ces technologies dans la pratique juridique.
Références de l’article
“Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models” arXiv :2401.01301v1 2 janvier 2024
Auteurs
-
- Matthew Dahl, Yale University
- Varun Magesh, Mirac Suzgun, Daniel E. Ho, Stanford University