Pour qu’une voiture autonome circule en toute sécurité, pouvoir prédire le comportement des autres usagers de la route est essentiel. Une équipe de recherche du CSAIL du MIT (Massachusetts Institute of Technology), a mis au point avec des chercheurs de l’Institute for Interdisciplinary Information Sciences (IIIS) de l’Université Tsinghua, de Pékin, un nouveau système de ML qui pourrait, un jour, aider les voitures sans conducteur à prévoir en temps réel les prochains mouvements des conducteurs, cyclistes et piétons à proximité. Ils ont intitulé leur étude : « M2I : de la prédiction de trajectoire marginale factorisée à la prédiction interactive ».
Qiao Sun, Junru Gu, Hang Zhao sont les membres de l’IIIS qui ont participé à cette étude tandis que Xin Huang et Brian Williams ont représenté le MIT.
L’humain est imprévisible, ce qui rend de facto la prédiction du comportement des usagers de la route en milieu urbain très difficile. Les solutions d’IA actuellement utilisées sont trop simplistes : pour elles, un piéton, par exemple, peut rester sur un même trottoir sans chercher à traverser. Si elles envisagent que les piétions traversent, pour les éviter, le robot gare simplement la voiture, certaines ne prédisent que les déplacements d’un seul usager de la route.
Diviser pour mieux prédire
La prédiction de trajectoire est largement utilisée par les systèmes de conduite intelligents pour déduire les mouvements futurs des agents à proximité et identifier les scénarios à risque pour permettre une conduite sûre. Pour l’équipe, les modèles existants excellent à prédire les trajectoires marginales des agents uniques, mais n’apportent pas de réponse pour la circulation en milieu urbain où de nombreux usagers interagissent, l’espace de prédiction augmentant exponentiellement avec leur nombre.
Les chercheurs du MIT ont mis au point une solution apparemment très simple pour résoudre ce problème complexe : ils divisent un problème de prédiction de comportement multi-agents en plusieurs petites parties et s’attaquent ensuite à chacune individuellement, afin qu’un ordinateur puisse résoudre cette tâche complexe en temps réel. Ils ont appelé cette approche M21. Leur cadre de prédiction du comportement devine d’abord les relations entre deux usagers de la route : quelle voiture, cycliste ou piéton a le droit de passage et quel agent cédera le passage… Il utilise ensuite ces relations pour prédire les trajectoires futures de plusieurs agents.
Les trajectoires estimées par M21 se sont révélées plus précises que celles d’autres modèles de ML, par rapport au flux de trafic réel dans un énorme ensemble de données compilé par la société de conduite autonome Waymo.(La technique du MIT a même surpassé le modèle récemment publié par ce dernier). De plus, diviser le problème en sous-problèmes, leur a permis d’utiliser moins de mémoire.
Xin « Cyrus » Huang, étudiant diplômé au Département d’aéronautique et d’astronautique et assistant de recherche dans le laboratoire de Brian Williams, professeur d’aéronautique et d’astronautique et membre du Laboratoire d’Informatique et d’Intelligence Artificielle (CSAIL), co-auteur principal de l’étude, déclare :
« C’est une idée très intuitive, mais personne ne l’a complètement explorée auparavant, et elle fonctionne plutôt bien. La simplicité est définitivement un plus. Nous comparons notre modèle avec d’autres modèles de pointe dans le domaine, y compris celui de Waymo, la société leader dans ce domaine, et notre modèle atteint les meilleures performances sur cette référence difficile. Cela a beaucoup de potentiel pour l’avenir. »
La méthode M21
Dans ce travail, les chercheurs ont exploité les relations sous-jacentes entre les agents en interaction. L’algorithme de M21 a deux entrées : les trajectoires passées des voitures, des cyclistes et des piétons interagissant dans un environnement de circulation tel qu’une intersection à quatre voies ainsi qu’une carte avec les emplacements des rues, les configurations des voies, etc.
Grâce à ces informations, un prédicteur de relation déduit qui des deux agents a le droit de passer en premier, classant l’un comme passeur et l’autre comme cédant. Ensuite, un modèle de prédiction, appelé prédicteur marginal, devine la trajectoire de l’agent qui passe, puisque cet agent se comporte indépendamment.
Un deuxième modèle de prédiction, connu sous le nom de prédicteur conditionnel, devine ensuite ce que l’agent qui a cédé va faire en fonction des actions de l’agent qui passe. Le système prédit un certain nombre de trajectoires différentes pour le donneur et le passeur, calcule la probabilité de chacun individuellement, puis sélectionne les six résultats conjoints avec la probabilité la plus élevée de se produire.
La méthode M2I apporte une prédiction de la trajectoire de ces agents pendant les huit prochaines secondes. Elle peut faire ralentir un véhicule afin qu’un piéton puisse traverser la rue, puis accélérer lorsqu’il a dégagé l’intersection. Dans un autre exemple, le véhicule a attendu que plusieurs voitures soient passées avant de tourner d’une rue latérale vers une route principale très fréquentée.
Tests sur les données de Waymo Open Motion Dataset
Les chercheurs ont formé les modèles sur l’ensemble de données Waymo Open Motion, qui contient des millions de scènes de circulation réelles impliquant des véhicules, des piétons et des cyclistes enregistrées par des capteurs et des caméras lidar (détection et télémétrie de la lumière) montés sur les véhicules autonomes de l’entreprise. Ils n’ont retenu que les scènes où plusieurs agents étaient impliqués.
Ils ont ensuite comparé les six échantillons de prédiction de chaque méthode, pondérés par leurs niveaux de confiance, aux trajectoires réelles suivies par les voitures, les cyclistes et les piétons dans une scène. Leur méthode était la plus précise. M21 a également surpassé les modèles de base sur une métrique connue sous le nom de taux de chevauchement ; si deux trajectoires se chevauchent, cela indique une collision. M2I avait le taux de chevauchement le plus faible.
Xin Huang déclare :
« Plutôt que de simplement construire un modèle plus complexe pour résoudre ce problème, nous avons adopté une approche qui ressemble davantage à la façon dont un humain pense lorsqu’il raisonne sur les interactions avec les autres. Un être humain ne raisonne pas sur toutes les centaines de combinaisons de comportements futurs. Nous prenons des décisions assez rapidement. Un autre avantage de M2I est que, parce qu’il décompose le problème en plus petits morceaux, il est plus facile pour un utilisateur de comprendre la prise de décision du modèle. À long terme, cela pourrait aider les utilisateurs à faire davantage confiance aux véhicules autonomes. »
Par contre, le cadre ne peut pas tenir compte des cas où deux agents s’influencent mutuellement, comme lorsque deux véhicules avancent chacun à un arrêt à quatre voies parce que les conducteurs ne savent pas qui devrait céder. L’équipe compte bien remédier à cette limitation lors de prochains travaux. Elle espère en outre, utiliser sa méthode pour simuler des interactions réalistes entre les usagers de la route, ce qui permettra de vérifier les algorithmes de planification des voitures autonomes ou créer d’énormes quantités de données de conduite synthétiques pour améliorer les performances du modèle.
Sources de l’article : “M2I: From Factored Marginal Trajectory Prediction to Interactive Prediction” by Qiao Sun, Xin Huang, Junru Gu, Brian C. Williams and Hang Zhao. 28 March 2022, Computer Science Robotics.
arXiv:2202.11884