Des chercheurs de FAR AI révèlent les failles émergentes de GPT-4

Les récentes avancées dans les grands modèles linguistiques ont ouvert de nouvelles perspectives mais ont également révélé des vulnérabilités potentielles qui pourraient compromettre la sécurité des utilisateurs. L’article des chercheurs de FAR AI “Exploiting Novel GPT-4 APIs” examine de près trois failles majeures découvertes dans les API de GPT-4, soulignant les risques associés à leur utilisation.

L’article publié le 21 décembre dernier souligne les fragilités du modèle phare d’OpenAI intégré à Bing Chat :

Vulnérabilités liées à l’API de réglage fin

L’API de réglage fin de GPT-4, censée améliorer les performances du modèle, expose des faiblesses importantes. Des expériences de simulation de menace ont démontré que même avec un nombre limité d’exemples, aussi peu que 15 ou 100 exemples bénins, des utilisateurs bien intentionnés pourraient involontairement entraîner des modèles nuisibles. Cette faille souligne l’importance cruciale d’une sélection minutieuse des ensembles de données pour éviter la propagation de désinformations ciblées.

Risques liés à l’API d’appel de fonction

Les GPT-4 Assistants, dotés de la capacité récente d’exécuter des appels de fonction sur des API tierces, présentent une autre source de préoccupation. L’article révèle que ces modèles divulguent facilement le schéma d’appel de fonction, permettant ainsi l’exécution d’opérations arbitraires avec des entrées non assainies. Bien que le modèle puisse parfois refuser des appels de fonction potentiellement nuisibles, il est exposé à des manipulations par des techniques d’ingénierie sociale, accentuant les risques d’utilisation malveillante.

Failles critiques dans l’API de récupération de connaissances

L’API de récupération de connaissances de GPT-4, conçue pour extraire des informations pertinentes à partir de documents téléchargés, révèle également des vulnérabilités significatives. Les auteurs de l’article ont mis en évidence la possibilité d’injecter des instructions malveillantes dans les documents de recherche, conduisant le modèle à obéir à ces instructions au lieu de produire des résumés impartiaux. Cette faille soulève des inquiétudes quant à la manipulation délibérée des résultats de la récupération de connaissances.

Ces vulnérabilités découvertes dans les API de GPT-4 soulignent la nécessité de renforcer les mesures de sécurité entourant ces technologies émergentes. Les utilisateurs et les développeurs doivent être conscients de ces risques potentiels et prendre des précautions supplémentaires pour éviter des conséquences néfastes. Des efforts accrus dans la recherche et le développement de solutions de sécurité sont essentiels pour garantir l’utilisation responsable et sûre des modèles linguistiques avancés tels que GPT-4.

Références de l’article : “Exploiting Novel GPT-4 APIs” arXiv:2312.14302v1

Auteurs :

Kellin Pelrine, FAR AI; McGill University; MILA
Mohammad Taufeeque, FAR AI
Michał Zając, FAR AI; Jagiellonian University
Euan McLean, FAR AI
Adam Gleave, FAR AI