Focus sur PanGu-Alpha, le modèle de langage élaboré avec 25 milliards de paramètres de plus que GPT-3

GPT-3, le modèle de langage d'Open AI, disponible depuis juillet 2020, était au moment de son annonce, le plus gros modèle linguistique jamais entrainé avec 175 milliards de paramètres pour une taille de 45 téraoctets. À titre de comparaison, GPT-2, le précédent modèle de langage d'Open AI, n'avait été entrainé "qu'avec" 1,5 milliard de paramètres. Une équipe de recherche de la multinationale Huawei a annoncé l'élaboration d'un modèle de langage qui pourrait être similaire à GPT-3. Du nom de PanGu-Alpha, le modèle contiendrait jusqu'à 200 milliards de paramètres, soit 25 milliards de plus que celui d'Open AI.

Le défi de PanGu-Alpha : un modèle entrainé à l'aide de 200 milliards de paramètres

PanGu-Alpha a été dévoilé dans le cadre d'une publication d'une des équipes de recherche de l'entreprise chinoise Huawei. Une quarantaine de chercheurs ont aidé à la rédaction de cet article et ont contribué à la mise en place de ce projet. Il vise à concevoir un modèle de recherche contenant jusqu'à 200 milliards de paramètres, formé sur 1,1 téraoctet d'ebooks, d'articles encyclopédiques, d'actualités, de médias sociaux, et de pages internet. Les grands modèles de langage comme GPT-3 apprennent à écrire du texte en prenant pour exemple les milliards d'exemples disponibles sur internet. Comme le modèle d'Open AI, PanGu-Alpha est un modèle de langage qui est d'abord préentrainé sur du texte non étiqueté, puis affiné pour répondre à une tâche en particulier. Les chercheurs ont exploité le framework MindSpore pour développer et tester le modèle. Un cluster de 2 048 processeurs Huawei Ascend 910 AI délivrant chacun 256 téraflops de puissance de calcul ont été nécessaires à l'élaboration de l'outil. L'équipe de recherche a collecté près de 80 téraoctets de données brutes à partir d'ensembles de données publics. Ils ont ensuite filtré ces datas en supprimant les documents contenant moins de 60 % de caractères chinois, moins de 150 caractères, les publicités, etc. Le texte en chinois a ensuite été converti en chinois simplifié. Une des différences concerne le nombre de tokens sur lequel PanGu-alpha et GPT-3 ont été conçus : 499 milliards pour le modèle américain contre 40 milliards pour le modèle chinois.

Expérimentations et progrès scientifiques : un modèle quasi équivalent à GPT-3

Les chercheurs ont testé leur tout nouveau modèle et ont remarqué qu'il était particulièrement efficace pour rédiger des textes poétiques, de la fiction et du dialogue ainsi que pour résumer un texte assez long. Toutefois, un groupe chargé d'évaluer les performances du modèle a déterminé que 10 % des résultats fournis par l'outil n'étaient pas de qualité. De plus, les chercheurs ont observé que certaines des créations de PanGu-Alpha contenaient des phrases illogiques, répétitives ou non pertinentes. À l'instar de GPT-3, la modèle chinois ne peut pas se souvenir de ses précédentes conversations et n'a pas la capacité d'apprendre des concepts à travers une discussion plus approfondie et donc, d'ancrer les actions et les entités grâce à des expériences du monde réel par exemple. Toutefois, même si PanGu-Alpha semble assez impressionnant au niveau de la performance, le modèle n'est pas un progrès scientifique en soi : c'est ce qu'affirme Guy Van den Broeck, professeur adjoint d'informatique à l'Université de Californie à Los Angeles. Pour ce qui est du bilan carbone, l'impact environnemental de PanGu-Alpha n'est pas très clair, mais il est probable que l'empreinte carbone soit tout aussi "conséquent", si ce n'est plus, que des modèles de même taille.

Quel avenir pour les modèles de langage ? Performances et questions éthiques

Un article publié en février dernier, par des chercheurs d'Open AI et de l'Université de Stanford, a mis le doigt sur les capacités, les limites et l'impact sociétal des grands modèles linguistiques comme le sont GPT-3 ou encore PanGu-Alpha. Il a été écrit par Alex Tamkin, Miles Brundage, Jack Clark et Deep Ganguli. Il est précisé que les grands développeurs de modèles de langages comme Open AI ou Huawei n'ont un avantage que de six à neuf mois avant que d'autres puissent avoir la capacité de reproduire le même type de modèle. Les experts ayant rédigé la publication ont suggéré plusieurs recommandations pour remédier aux conséquences négatives des modèles linguistiques :

Adoption de lois obligeant les entreprises à reconnaitre qu'un texte est généré par l'IA si c'est le cas
Entrainer un modèle distinct qui agit comme un filtre pour le contenu généré par un modèle de langage
Déployer une suite de tests de biais pour évaluer les modèles avant d'autoriser certaines personnes ou le grand public à utiliser le modèle
Éviter certains cas d'usages spécifiques

Ce dernier point est à souligner. Les principales craintes de l'occident vis-à-vis des modèles comme PanGu-Alpha concernent la discrimination des peuples comme les ouïghours. Le mois dernier, la BBC interviewait un ingénieur logiciel chinois qui aurait potentiellement participé à la mise en place d'outils d'IA pour juger les émotions des ouïghours sous contrainte. En parallèle, le centre sur le terrorisme et sur l'extrémisme du Middlebury Institute of International Studies affirme dans une publication rédigée par Kris McGuffie et Alex Newhouse que GPT-3 aurait les capacités de générer avec beaucoup de fiabilité des textes "informatifs et influents" qui pourraient pousser les gens à se tourner vers des idéologies radicales. Deux potentiels cas d'utilisation que les chercheurs spécialisés en IA devront prendre en compte pour éviter toute polémique...ce qu'Open AI semble avoir commencé à faire.

Zach T.

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Focus sur PanGu-Alpha, le modèle de langage élaboré avec 25 milliards de paramètres de plus que GPT-3

Le défi de PanGu-Alpha : un modèle entrainé à l'aide de 200 milliards de paramètres

Expérimentations et progrès scientifiques : un modèle quasi équivalent à GPT-3

Quel avenir pour les modèles de langage ? Performances et questions éthiques

DeepSeek-V3 : quand l'open source chinois défie les LLMs américains de pointe

Qwen-3 Omni : Alibaba accélère dans la course à l’IA multimodale

Alibaba lance Qwen3-235B-A22B-Instruct-2507 et rompt avec le raisonnement hybride