Intelligence artificielle Retour d’expérience : Comment l’intelligence artificielle aide les acteurs de la cybersécurité...

Pour approfondir le sujet

Sur le même thème :

STREAMER : un programme permettant d’intégrer et de tester facilement des algorithmes de machine learning

Des chercheurs du CEA List (Université Paris-Saclay, CEA) et du laboratoire DAVID (Université Paris-Saclay, UVSQ) ont uni leurs forces dans le cadre du projet...

La demande et l’adoption de la technologie pour assurer la sécurité du public sont en forte hausse selon une étude

Dans son rapport « Consensus for Change », Motorola Solutions, en partenariat avec une équipe de recherche universitaire indépendante dirigée par le Dr. Chris...

Création du partenariat mondial pour l’intelligence artificielle : secrétariat au sein de l’OCDE à Paris

Le partenariat mondial sur l'intelligence artificielle, une initiative lancée par le Canada et la France à l'occasion du sommet de Biarritz en août 2019,...

Cybersécurité : création du BlackBerry Labs centré sur le machine learning et la datascience

Pour répondre aux enjeux en matière de cybersécurité, BlackBerry vient d'annoncer la création du BlackBerry Advanced Technology Development Labs. Cette business unit sera centrée...

Retour d’expérience : Comment l’intelligence artificielle aide les acteurs de la cybersécurité à lutter contre les rançongiciels ?

Depuis le début de la crise sanitaire, les entreprises, organisations publiques et associations ont dû s’adapter rapidement et déployer massivement des outils digitaux leur permettant d’assurer la continuité de leurs activités. 

Dans le même temps, ces organisations ont dû faire face à une véritable explosion du nombre de cyberattaques. D’après l’Autorité Nationale de la Sécurité des Systèmes d’Information (ANSSI), le nombre de cyberattaques en France a été multiplié par quatre en 2020 et leur sophistication est de plus en plus élevée [1]

Ce chiffre s’explique en grande partie par le manque de sensibilisation aux risques cyber, l’absence de maîtrise des systèmes d’information, le non-respect des mesures d’hygiène informatique, la pénurie d’experts en cybersécurité et, dans une certaine mesure, l’augmentation de la surface d’attaque du fait de la généralisation du télétravail qui sont autant de faiblesses exploitées par les cybercriminels [2].

Parmi ces cyberattaques, les rançongiciels, ou ransomware connaissent une véritable explosion. Il s’agit de logiciels malveillants qui bloquent l’accès à un ordinateur ou à des fichiers en les chiffrant et qui réclament à la victime le paiement d’une rançon pour en obtenir de nouveau l’accès [3]

Les entreprises et organisations publiques françaises sont de plus en plus souvent victimes de ce type d’attaques. Selon l’ANSSI, ce type d’attaques a augmenté de 255% en seulement un an et représente désormais la première menace pour les entreprises et organisations publiques en France. De nombreux secteurs d’activités ont été touchés par les rançongiciels en France en 2020 [4]: 

Secteurs d’activités touchés par les rançongiciels en France en 2020 – ANSSI

Les attaques sur les centres hospitaliers de Dax [5] et de Villefranche-sur-Saône [6], nous ont clairement montré la criticité de cette menace avec des conséquences importantes sur les soins ainsi que sur le suivi des patients.

Ces cyberattaques frappent également le monde de l’entreprise allant même jusqu’à générer des pertes importantes de chiffre d’affaires et des perturbations dans le système de production de certaines entreprises industrielles.

À titre d’exemple, les pertes subies par Sopra Steria, victime de Ryuk [7] en octobre 2020, ont été estimées à environ 50 millions d’euros [8]. Ce phénomène touche toutes les entreprises, quelle que soit leur taille et leur secteur d’activité, puisque selon la sixième édition du baromètre du Club des Experts de la Sécurité de l’Information et du Numérique (CESIN), 20% des grandes entreprises françaises ont été victimes en 2020 de rançongiciels et 30% d’entre elles emploient au moins 5000 salariés [9]. Sachant que ces chiffres sont certainement sous évalués, cela nous permet toutefois de mesurer l’ampleur de ce phénomène.

En 2020, un grand groupe industriel français s’est tourné vers l’équipe de DataScientists d’OpenStudio pour comprendre comment des cybercriminels ont réussi à s’introduire dans le réseau informatique du groupe et propager Sodinokibi sur un grand nombre de serveurs et postes de travail.

Le rançongiciel Sodinokibi (appelé également REvil et Sodin) a été détecté pour la première fois en avril 2019, lors d’une attaque ZETA [10] exploitant une vulnérabilité dans Oracle WebLogic. Il a été développé et est commercialisé par d’anciens affiliés de GandCrab (rançongiciel apparu pour la première fois en janvier 2018) ayant acheté le code source.

L’infection passe généralement par le téléchargement d’un logiciel malveillant parfois dissimulé dans la pièce jointe d’un e-mail piégé (phishing) ou par le biais d’un lien vers un site Web compromis. Une caractéristique principale de Sodinokibi est sa grande capacité à échapper à la détection des systèmes antivirus.

Sachant que plusieurs éléments indiquent que Sodinokibi est d’origine russe, il est vendu en tant que RaaS (Ransomware as a Service) sur certains forums cybercriminels russophones, offrant ainsi la possibilité à des affiliés de créer et de distribuer leur propre rançongiciel [11]

Dans le cadre d’un hackathon d’une durée de 3 jours, l’équipe de Data Scientists d’OpenStudio s’est alors mobilisée pour traiter et analyser des millions de logs (journaux d’événements) provenant de l’antivirus et du pare-feu de ce grand groupe industriel. L’objectif de ce hackathon était d’analyser les logs afin de retracer l’attaque et d’identifier les points de vulnérabilité. 

Etant confrontés à de gros volumes de données et n’ayant aucune idée précise sur la forme que pouvait prendre cette attaque, l’équipe de Data Scientists d’OpenStudio a estimé que le recours à l’intelligence artificielle pouvait être une solution adaptée pour détecter des événements anormaux et inhabituels.

Par le biais de modèles d’apprentissage non supervisés, des structures sous jacentes ont été découvertes à partir des données non étiquetées, permettant ainsi de sélectionner des logs suspects qui devront être analysés par des experts en systèmes et réseaux ainsi qu’en cybersécurité.

Au regard de la littérature scientifique, il est clairement apparu à l’équipe de Data Scientists d’OpenStudio, que l’algorithme des K-means (ou K-moyennes en français) était relativement bien adapté afin de détecter des anomalies dans des données de réseau [12]. Cette approche peut également être automatisée afin de détecter, en temps réel, des activités intrusives sur des systèmes et réseaux informatiques [13] [14].

Il est important de rappeler que l’algorithmes des K-means permet d’analyser un jeu de données caractérisées par un ensemble de descripteurs, afin de regrouper les données « similaires » en groupes (ou clusters). La similarité entre deux données étant inférée grâce à la « distance » séparant leurs descripteurs [15]

L’algorithme des K-means a permis de créer deux clusters, l’un correspondant à des structures de données (ou patterns) que l’on retrouve majoritairement dans les logs et l’autre à des structures de données minoritaires pouvant être considérés comme inhabituelles et anormales.

Visualisation des clusters créés par l’algorithme des K-means

Les structures de données considérées comme anormales ont été analysées par des experts en systèmes et réseaux ainsi qu’en cybersécurité afin de statuer sur leur niveau de dangerosité.

Dans l’optique de caractériser les clusters créés par l’algorithme des K-means, l’équipe de Data Scientists d’OpenStudio a ensuite utilisé l’algorithme Random Forest (ou forêt d’arbres décisionnels, appelé aussi forêt aléatoire en français). Cet algorithme [16] a permis d’identifier les variables qui discriminent les clusters par le biais d’un nouveau jeu de données étiquetées et d’un apprentissage supervisé.

Représentation de l’importance des variables dans le clustering

L’utilisation de modèles de partitionnement de données à base d’apprentissage non supervisé, comme c’est le cas avec l’algorithme de clustering des K-means, a permis d’identifier des structures de données inhabituelles et anormales. L’ensemble de ces structures étant ensuite étiquetées par des experts en systèmes et réseaux ainsi qu’en cybersécurité, il a alors été possible de constituer un jeu de données étiquetées afin d’identifier les variables qui discriminent ces structures via l’utilisation de modèles d’apprentissage supervisés, comme c’est le cas avec l’algorithme Random Forest.

La constitution d’un jeu de données étiquetées intégrant des structures de données relatives à des attaques avérées ou simulées, ainsi que l’automatisation d’outils d’intelligence artificielle pourraient permettre une véritable surveillance des systèmes en quasi temps réel et alerter des acteurs internes en charge de la cybersécurité de potentielles attaques.

Compte tenu des revenus générés par les attaques par rançongiciel et de l’augmentation du nombre d’attaquants, facilités par le modèle du RaaS, il est clair que le phénomène  rançongiciel continuera à croître dans les années à venir. 

Face à l’ampleur et à la sophistication de ce type de cyberattaques, le recours à l’intelligence artificielle apparaît de plus en plus nécessaire afin d’aider les experts en cybersécurité à détecter des attaques dont les conséquences peuvent s’avérer extrêmement préjudiciables dans le monde réel.

Kévin Cortial, Data Scientist chez OpenStudio.

Jean-Luc Marini, Directeur du Lab IA et de l’agence de Lyon OpenStudio

  1. Les cyberattaques ont été multipliés par quatre en 2020”, Zoom Sectoriel – Le chiffre, Bpifrance , 21 mai 2021, https://www.bpifrance.fr/A-la-une/Actualites/Les-cyberattaques-ont-ete-multipliees-par-4-en-2020-52306
  2.  “L’ANSSI et le BSI alertent sur le niveau de la menace cyber en France et en Allemagne dans le contexte de la crise sanitaire”, ANSSI, 17 décembre 2020, https://www.ssi.gouv.fr/actualites/
  3.  “Les rançongiciels (ransomwares)”, Cybermalveillance.gouv.fr, 20 novembre 2019, https://www.cybermalveillance.gouv.fr/tous-nos-contenus/fiches-reflexes/rancongiciels-ransomwares
  4.  “Cybersécurité, faire face à la menace : La stratégie française”, ANSSI, 18 février 2021, https://www.ssi.gouv.fr/actualites/
  5.  “L’hôpital de Dax en partie paralysé par une attaque informatique”, Le Monde, 10 février 2021, https://www.lemonde.fr/pixels/article/2021/02/10/l-hopital-de-dax-en-partie-paralyse-par-une-attaque-informatique_6069430_4408996.html
  6.  “Après celui de Dax, l’hôpital de Villefranche paralysé par un rançongiciel”, Le Monde, 15 février 2021, https://www.lemonde.fr/pixels/article/2021/02/15/apres-celui-de-dax-l-hopital-de-villefranche-paralyse-par-un-rancongiciel_6070049_4408996.html
  7.  Logiciel malveillant de type rançongiciel observé pour la première fois en août 2018.
  8.  “Ransomware : Ryuk aurait empoché plus de 150 millions de dollars”, ZDNet, 08 janvier 2021, https://www.zdnet.fr/actualites/ransomware-ryuk-aurait-empoche-plus-de-150-millions-de-dollars-39915797.htm
  9.  “Au moins 20% des entreprises françaises ont subi une attaque par rançongiciel l’an passé”, BFM Business, 10 février 2021, https://www.bfmtv.com/economie/au-moins-20-des-entreprises-francaises-ont-subi-une-attaque-par-rancongiciel-l-an-passe_AN-202102100290.html
  10.  Une attaque ZETA (Zero Day Exploit Attack) est une cyberattaque ciblée basée sur une vulnérabilité zero-day, qui survient le jour même où une faiblesse est détectée dans un logiciel. Ce point faible est exploité avant la mise à disposition d’un correctif par le créateur du logiciel.
  11. “Etat de la menace rançongiciel à l’encontre des entreprises et des institutions”, 4.2, CERT ANSSI, 1er mars 2021, https://www.cert.ssi.gouv.fr/uploads/CERTFR-2021-CTI-001.pdf
  12.  Münz, G., Li, S., & Carle, G. (2007). Traffic Anomaly Detection Using K-Means Clustering https://www.semanticscholar.org/paper/Traffic-Anomaly-Detection-Using-K-Means-Clustering-Münz-Li/634e2f1a20755e7ab18e8e8094f48e140a32dacd
  13.  Gu, Y., Li, K., Guo, Z., & Wang, Y. (2019). Semi-Supervised K-Means DDoS Detection Method Using Hybrid Feature Selection Algorithm. IEEE Access, 7, 64351-64365 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8717648
  14.  Kumari, R., Sheetanshu, Singh, M. K., Jha, R., & Singh, N. K. (2016). Anomaly detection in network traffic using K-means clustering. 2016 3rd International Conférence on Recent Advances in Information Technology (RAIT), 387-393. https://ieeexplore.ieee.org/document/7507933
  15.  “K-means (ou K-moyennes)”, DAP (Data Analytics Post), https://dataanalyticspost.com/Lexique/k-means-ou-k-moyennes/
  16.  “Random Forest”, DAP (Data Analytics Post), https://dataanalyticspost.com/Lexique/random-forest/


1ère Marketplace de l'IA et de la transformation numérique vous recommande :

Innovons ensemble

En 15 ans, OpenStudio s’est enrichi d’une solide expérience dans l’univers du numérique pour devenir une référence du développement web. Après l’ouver

Découvrir OpenStudio

 

Contributeur expert

Jean-Luc Marini

Jean Luc Marini est directeur Directeur du LabIA et Directeur de l’agence de Lyon de OpenSt

Partager l'article

Deux ans après l’arrivée de ChatGPT, comment la GenAI transforme la recherche en ligne et le marketing

Alors que ChatGPT vient de fêter son second anniversaire et compte aujourd'hui plus de 300 millions d'utilisateurs hebdomadaires, le rapport "Online Search After ChatGPT:...

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

Alors que Meta prépare le lancement des premiers modèles Llama 4 pour le début de l'année prochaine, l'entreprise a dévoilé en fin de semaine...

AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Lancé par ServiceNow, AgentLab est un framework open source visant à faciliter le développement et l'évaluation d'agents Web. Son objectif principal est de soutenir...

Pleias : des modèles de langages ouverts pour une IA éthique et transparente

Pleias, une start-up française, annonce le lancement de sa première famille de grands modèles de langage (LLM), définissant de nouvelles références en matière...