Cyber-défense : data analysis et machine learning sur données Firewall

ITrust explore depuis plusieurs années le potentiel de l’IA pour la Cyber Sécurité. En s’appuyant sur le Machine Learning et la corrélation intelligente, des outils comme Reveelium permettent, par exemple de décupler l’analyse de logs. Dans le cadre de cette démarche R&D, Thomas Anglade, notre Lead Data Scientist, présente ici ses travaux.

Cet article présente des méthodes d’analyse de données et de machine learning permettant d’effectuer de la modélisation comportementale sur des données firewall afin de détecter des comportements suspicieux associés à ces données.

Ces dernières années, le nombre et la variété des cyber-attaques a fortement augmenté. On recense aujourd’hui un panorama important de cybermenaces (Denial of Service, distributed Denial of Service, phishing, Command & Control, botnets, malwares, ransomwares, etc.). Au vu de la volumétrie importante de données générées par les équipements réseaux des entreprises (proxy, firewall, serveurs, …), il paraît indispensable de compléter l’expertise humaine par des algorithmes d’intelligence artificielle, pour mettre au point des systèmes de détection efficaces adaptés aux menaces encourues.

Cet article présente les étapes d’implémentation d’une méthode d’analyse comportementale de type UEBA(1) pour détecter des attaques avancées dans des données Firewall.

Données utilisées

La modélisation se base sur des logs provenant d’un Firewall enregistrant les échanges entre les machines au sein d’un réseau pendant une période de 2 semaines, pour un total de 14 Go. Les données contiennent l’intégralité des messages échangés entre les IP du réseau, avec toutes les informations associées (IP source, IP destination, port utilisé, volume de données échangé).

Illustration : pour chaque ligne de donnée, on dispose de l’heure du message, de l’IP source, l’IP destination, le port de communication, l’action du firewall, le nombre de bytes envoyés et reçus

On recense environ 2 Millions de lignes de logs par jour, ce qui justifie le recours à des méthodes d’intelligence artificielle pour traiter une telle volumétrie.

Méthode de Modélisation

On peut représenter les données de manière mathématique sous la forme d’un graphe (IP-IP communication graph). Chaque adresse IP constitue un point du graphe. Dès qu’un message a été échangé entre 2 adresses IPs, une connexion entre les deux points est effectuée dans le graphe.

Illustration : représentation schématique de logs Firewall sous la forme d’un graphe contenant 3 IPs et 5 messages. En rouge, les messages sur le port 443, en vert les messages sur le port 53 et en bleu les messages sur le port 80.

A partir de cette modélisation, il est possible de répondre aux questions suivantes :

– Quelles sont les adresses IPs les plus importantes et les plus actives dans les logs ?

– Quelles sont les différentes phases d’activité du graphe de communication dans le temps ?

– Quels types de messages sont envoyés ? Ces types de messages dépendent-ils des périodes ? (jour / nuit / week-end, etc.)

En réunissant toutes ces informations, on arrive à dresser de manière algorithmique un « portrait-robot » de l’activité du réseau et à définir les périodes pendant lesquelles le comportement observé dévie trop de la normale. Ces périodes anormales donnent lieu à une levée d’anomalies, transmise aux équipes d’investigations du « Security Operational Center » qui confirment ou infirment la menace. La performance de l’algorithme peut être évaluée selon plusieurs critères, mais deux seront observés de manière prioritaire :

– le pourcentage d’attaques détectées (vrais positifs)

– le pourcentage de fausses alertes (faux positifs).

Un système optimal devra détecter un maximum d’attaques tout en ayant un taux de faux positifs relativement limité.

Analyse comportementale du réseau :

En observant l’évolution du graphe dans le temps, il est possible de comprendre de manière précise le comportement du réseau informatique. Par exemple, l’analyse du nombre de noeuds du graphe dans le temps donne les résultats suivants :

Illustration :Nombre de noeuds dans le graphe de données Firewall entre le 2 mai et le 9 mai.

Dans cette représentation, on voit clairement les rythmes d’activité du réseau :

– un volume très faible le Week-End

– une activité soutenue entre 9h et 18h

– une baisse correspondant à la pause déjeuner.

Il est possible de déterminer les anomalies, comme par exemple le pic d’activité observée autour de 23h pendant le Week-End du 4 et 5 mai.

Résultats obtenus :

A l’aide d’algorithmes d’intelligence artificielle, il est possible de mettre en place un système permettant d’automatiser ces tâches et de détecter différents types de cyber-attaques se focalisant sur le firewall, notamment le « Command & Control » qui consiste à prendre le contrôle d’un ensemble d’adresses IPs pour exfiltrer un gros volume d’informations du réseau en découpant les fichiers en morceaux qui seront exfiltrés de manière individuelle par chacune des IPs. Cet algorithme a été détaillé dans l’article scientifique présenté par les équipes d’iTrust au cours de la « European Cyber Week 2019 » de Rennes le 20 Novembre 2019 : https://www.cesar-conference.org/wp-content/uploads/2019/09/resume_soum10.pdf

1 Analyse comportementale des entités et des utilisateurs du réseau (voir : https://digitalguardian.com/blog/what-user-and-entity-behavior-analytics-definition-ueba-benefits-how-it-works-and-more)

Cyber-défense : data analysis et machine learning sur données Firewall

Données utilisées

Méthode de Modélisation

Analyse comportementale du réseau :

Résultats obtenus :

1 Analyse comportementale des entités et des utilisateurs du réseau (voir : https://digitalguardian.com/blog/what-user-and-entity-behavior-analytics-definition-ueba-benefits-how-it-works-and-more)

Pour en savoir plus l’IA appliquée à la Cyber Sécurité, découvrez notre livre blanc et notre moteur d’analyse comportementale, Reveelium.

Comprendre la différence entre le Deep Web et le Dark Web ?

La recette d’un bon SIEM pour un bon SOC ?

Qu’est ce qu’un EDR managé ou MDR ?

🚨 Alerte SOC – Vulnérabilité de type zéro day dans Atlassian Confluence

🚨 Alerte SOC NIVEAU 1 – Vulnérabilité dans l’implémentation du protocole RPC par Microsoft

Cyber-défense : data analysis et machine learning sur données Firewall

Données utilisées

Méthode de Modélisation

Analyse comportementale du réseau :

Résultats obtenus :

1 Analyse comportementale des entités et des utilisateurs du réseau (voir : https://digitalguardian.com/blog/what-user-and-entity-behavior-analytics-definition-ueba-benefits-how-it-works-and-more)

Pour en savoir plus l’IA appliquée à la Cyber Sécurité, découvrez notre livre blanc et notre moteur d’analyse comportementale, Reveelium.

Partagez cet article, Choisissez votre Plateforme!

Related Posts

Comprendre la différence entre le Deep Web et le Dark Web ?

La recette d’un bon SIEM pour un bon SOC ?

Qu’est ce qu’un EDR managé ou MDR ?

🚨 Alerte SOC – Vulnérabilité de type zéro day dans Atlassian Confluence

🚨 Alerte SOC NIVEAU 1 – Vulnérabilité dans l’implémentation du protocole RPC par Microsoft