OpenAI met en place une équipe dédiée au "superalignement" de l'IA

Comment piloter et contrôler des systèmes d’IA qui pourraient dépasser considérablement notre propre intelligence ? Pour OpenAI, il est impératif d’aligner ces futurs systèmes d’IA superintelligents sur l’intention humaine et minimiser les risques potentiels. La start-up lance une nouvelle équipe dédiée à cette mission, dirigée par deux experts en IA : Ilya Sutskever, cofondateur d’OpenAI et Jan Leike, responsable de l’alignement.

Lorsqu’on parle d’IA superintelligente, on fait généralement référence à des systèmes qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines. Ces IA pourraient être capables d’apprendre rapidement, de résoudre des problèmes complexes et de prendre des décisions autonomes.

L’alignement des IA très intelligentes est une préoccupation majeure, car il est important de s’assurer que ces systèmes agissent de manière bénéfique pour l’humanité. Si les valeurs et les objectifs de l’IA ne sont pas alignés sur ceux des êtres humains, cela pourrait entraîner des conséquences indésirables, voire dangereuses.

Pour Ilya Sutskever et Jan Leike, les co-dirigeants de la nouvelle équipe, qui pensent que la superintelligence pourrait arriver la fin de cette décennie :

“La superintelligence sera la technologie la plus percutante que l’humanité ait jamais inventée et pourrait nous aider à résoudre bon nombre des problèmes les plus importants du monde. Mais le vaste pouvoir de la superintelligence pourrait aussi être très dangereux et pourrait conduire à la perte de pouvoir de l’humanité ou même à l’extinction humaine”.

Les techniques actuelles d’alignement de l’IA reposent sur la capacité des humains à superviser l’IA : l’apprentissage par renforcement à partir de la rétroaction humaine permet de guider l’IA vers des comportements souhaitables et d’améliorer sa performance grâce à l’expertise humaine.

Cela ne sera pas possible si l’IA est plus intelligente que les humains et peut déjouer ses superviseurs.

Ilya Sutskever et Jan Leike ajoutent :

“D’autres hypothèses pourraient également s’effondrer à l’avenir, comme les propriétés de généralisation favorables pendant le déploiement ou l’incapacité de nos modèles à détecter et à saper avec succès la supervision pendant la formation”.

Construire un chercheur en alignement automatisé

L’objectif de l’équipe est de construire un chercheur en alignement automatisé de niveau humain, puis d’utiliser de grandes quantités de calcul pour mettre à l’échelle ses efforts et aligner de manière itérative la superintelligence.

Dans ce but, elle devra développer une méthode d’entraînement évolutive, valider le modèle résultant et finalement tester l’ensemble de son pipeline d’alignement.

La fourniture d’un signal de formation évolutif pour les systèmes d’IA superintelligents reposera sur trois piliers principaux :

La formation de systèmes d’IA à l’aide de la rétroaction humaine ;
La formation de systèmes d’IA pour aider à l’évaluation humaine ;
La formation des systèmes d’IA pour faire de la recherche.

Ces derniers pourraient par exemple automatiser la recherche de comportements problématiques à l’intérieur des systèmes. Pour tester l’ensemble du pipeline, l’équipe va entraîner délibérément des modèles mal alignés, pour voir s’ils sont détectés, un processus connu sous le nom de test contradictoire.

Elle prévoit d’ajouter de nouveaux domaines de recherche.

La nouvelle équipe Superalignement recrute

Des chercheurs et des ingénieurs de l’équipe d’alignement précédente, ainsi que des chercheurs d’autres équipes de l’entreprise, ont rejoint Ilya Sutskever et Jan Leike pour former l’équipe Superalignement. OpenAI consacrera 20% du calcul au cours des quatre prochaines années à la résolution de ce problème.

L’alignement de la superintelligence est un problème d’apprentissage automatique et l’équipe recherche des experts dans ce domaine : des ingénieurs de recherche, des chercheurs et des gestionnaires de recherche

OpenAI prévoit de partager largement les résultats de ses travaux et considère la contribution de la communauté à l’alignement et à la sécurité des modèles non-OpenAI comme une partie importante de sa mission.