Mesure et analyse des échanges pair-à-pair pour la lutte
Transcription
Mesure et analyse des échanges pair-à-pair pour la lutte
Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Mesure et analyse des échanges pair-à-pair pour la lutte contre la pédocriminalité Analyse Conclusion Matthieu Latapy [email protected] LIP6 – CNRS et Université Pierre et Marie Curie (UPMC – Paris 6) 1/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Recherche ←→ problèmes scientifiques Applications pertinence applicative Positionnement Partenaires Activités Mesure Accès être aussi pertinents que possible pour l’application Analyse Conclusion interactions avec les milieux applicatifs identification de problématiques évaluation des résultats mise en œuvre PROJET EXPLORATOIRE résultats, prototypes, méthodes, ... autres applications (télécoms, politique, ...) 2/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Recherche ←→ problèmes scientifiques Applications pertinence applicative Positionnement Partenaires Activités Mesure Accès être aussi pertinents que possible pour l’application Analyse Conclusion interactions avec les milieux applicatifs identification de problématiques évaluation des résultats mise en œuvre PROJET EXPLORATOIRE résultats, prototypes, méthodes, ... autres applications (télécoms, politique, ...) 2/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Recherche ←→ problèmes scientifiques Applications pertinence applicative Positionnement Partenaires Activités Mesure Accès être aussi pertinents que possible pour l’application Analyse Conclusion interactions avec les milieux applicatifs identification de problématiques évaluation des résultats mise en œuvre PROJET EXPLORATOIRE résultats, prototypes, méthodes, ... autres applications (télécoms, politique, ...) 2/17 Projet Antipédo – LIP6 – Partenaires Matthieu Latapy • Groupes : Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion • • • • • CNRS et UPMC, France INRIA Lorraine, France UCC, Irlande UL, Slovénie FDN, Pologne réseaux, analyse réseaux, analyse psychologie appliquée statistiques, réseaux sociaux association, diffusion • Financeurs : • Communauté Européenne, Safer Internet Plus • France, Agence Nationale de la Recherche 3 ans (2007 – 2010) > 20 chercheurs impliqués > 800 KEuros sur trois ans 3/17 Projet Antipédo – LIP6 – Partenaires Matthieu Latapy • Groupes : Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion • • • • • CNRS et UPMC, France INRIA Lorraine, France UCC, Irlande UL, Slovénie FDN, Pologne réseaux, analyse réseaux, analyse psychologie appliquée statistiques, réseaux sociaux association, diffusion • Financeurs : • Communauté Européenne, Safer Internet Plus • France, Agence Nationale de la Recherche 3 ans (2007 – 2010) > 20 chercheurs impliqués > 800 KEuros sur trois ans 3/17 Projet Antipédo – LIP6 – Partenaires Matthieu Latapy • Groupes : Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion • • • • • CNRS et UPMC, France INRIA Lorraine, France UCC, Irlande UL, Slovénie FDN, Pologne réseaux, analyse réseaux, analyse psychologie appliquée statistiques, réseaux sociaux association, diffusion • Financeurs : • Communauté Européenne, Safer Internet Plus • France, Agence Nationale de la Recherche 3 ans (2007 – 2010) > 20 chercheurs impliqués > 800 KEuros sur trois ans 3/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Activités • mesure • masse d’utilisateurs et d’échanges • en continu dans le temps • protocoles complexes, peu documentés • lois, éthique Conclusion • analyse • information pertinente • données massives • données complexes, peu structurées objectifs ambitieux nombreux défis 4/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Activités • mesure • masse d’utilisateurs et d’échanges • en continu dans le temps • protocoles complexes, peu documentés • lois, éthique Conclusion • analyse • information pertinente • données massives • données complexes, peu structurées objectifs ambitieux nombreux défis 4/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Activités • mesure • masse d’utilisateurs et d’échanges • en continu dans le temps • protocoles complexes, peu documentés • lois, éthique Conclusion • analyse • information pertinente • données massives • données complexes, peu structurées objectifs ambitieux nombreux défis 4/17 Projet Antipédo – LIP6 – Mesure d’eDonkey Matthieu Latapy Contexte Positionnement Partenaires Activités Principe de fonctionnement Mesure Accès Analyse Conclusion serveurs + clients 5/17 Projet Antipédo – LIP6 – Mesure sur serveur Matthieu Latapy Contexte Positionnement Partenaires Activités • 10 semaines en continu Mesure Accès Analyse Conclusion • 1 milliard de messages • 89 millions de pairs (IP) • 275 millions de fichiers (hash code) • 24 millions de noms de fichiers distincts • 116 millions de recherches par mots-clés distinctes • 6,6 millions de mots distincts, 1,2 millions apparaissant > 100 fois 6/17 Projet Antipédo – LIP6 – Mesure par client Matthieu Latapy Envoi périodique de requêtes choisies. Contexte Positionnement Partenaires Mesures à la gendarmerie de Bordeaux : Activités Mesure Accès Analyse Conclusion • 8 mots clés spécifiques, 3 jours (terminé) • 8 mots clés spécifques, 7 généralistes, 1 mois (en cours) • 120 000 fichiers distincts • 50 000 clients distincts • 3 000 clients en France sur 12 000 localisés mesures distribuées longues durée choix de mots-clés/fichiers ? 7/17 Projet Antipédo – LIP6 – Mesure par client Matthieu Latapy Envoi périodique de requêtes choisies. Contexte Positionnement Partenaires Mesures à la gendarmerie de Bordeaux : Activités Mesure Accès Analyse Conclusion • 8 mots clés spécifiques, 3 jours (terminé) • 8 mots clés spécifques, 7 généralistes, 1 mois (en cours) • 120 000 fichiers distincts • 50 000 clients distincts • 3 000 clients en France sur 12 000 localisés mesures distribuées longues durée choix de mots-clés/fichiers ? 7/17 Projet Antipédo – LIP6 – Mesure par client Matthieu Latapy Envoi périodique de requêtes choisies. Contexte Positionnement Partenaires Mesures à la gendarmerie de Bordeaux : Activités Mesure Accès Analyse Conclusion • 8 mots clés spécifiques, 3 jours (terminé) • 8 mots clés spécifques, 7 généralistes, 1 mois (en cours) • 120 000 fichiers distincts • 50 000 clients distincts • 3 000 clients en France sur 12 000 localisés mesures distribuées longues durée choix de mots-clés/fichiers ? 7/17 Projet Antipédo – LIP6 – Matthieu Latapy Mesure par honeypot Déclaration de fichiers, attente de requêtes. Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion Mesures préliminaires : • un mois en continu • distribué sur 40 machines 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 2 4 6 8 10 12 14 16 mesures distribuées longues durée choix de mots-clés/fichiers ? 8/17 Projet Antipédo – LIP6 – Matthieu Latapy Mesure par honeypot Déclaration de fichiers, attente de requêtes. Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion Mesures préliminaires : • un mois en continu • distribué sur 40 machines 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 2 4 6 8 10 12 14 16 mesures distribuées longues durée choix de mots-clés/fichiers ? 8/17 Projet Antipédo – LIP6 – Matthieu Latapy Mesure par honeypot Déclaration de fichiers, attente de requêtes. Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion Mesures préliminaires : • un mois en continu • distribué sur 40 machines 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 2 4 6 8 10 12 14 16 mesures distribuées longues durée choix de mots-clés/fichiers ? 8/17 Projet Antipédo – LIP6 – Données au format XML Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion <opcode dir="received" TS="284400.777619" IP="0002962857" type="high" port="1047"> <OP_GLOBSEARCHREQ> <tags count="3"> <bool>0</bool> <anon-string>d6eebccdd10bc7af0fd54b2bde09f745</ <named-tag> <name-type>byte</name-type> <name-value>3</name-value> <name-meaning>FILETYPE</name-meaning> <string>Audio</string> </named-tag> </tags> </OP_GLOBSEARCHREQ> </opcode> 9/17 Projet Antipédo – LIP6 – Interface web Matthieu Latapy Contexte Positionnement Navigation entre fichiers et pairs. Partenaires Activités Mesure Accès Analyse Conclusion Données pré-traitées : • Qui demande/fournit un fichier donné ? • Quels fichiers demande/fournit un pair donné ? • Date de première observation d’un fichier ou d’un pair ? • Quels noms pour un même fichier ? • Quelles requêtes pour un même pair ? • Content rating et fake detection. • ... 10/17 Projet Antipédo – LIP6 – Analyse Matthieu Latapy Contexte Positionnement Partenaires Analyses simples : Activités Mesure Accès • arrivée et diffusion d’un fichier Analyse Conclusion • proportion de contenu pédo vs non pédo • âges (noms de fichiers et requêtes) • mots-clés pédo • content rating et fake detection • ... 11/17 Projet Antipédo – LIP6 – Arrivée et diffusion Matthieu Latapy 2500 Contexte Positionnement Partenaires 2000 Activités Accès Analyse 1500 Popularity Mesure 1000 Conclusion 500 0 01 02 03 04 05 06 Weeks 07 08 09 10 11 x : temps (semaines) y : popularité du fichier (= nb de personnes le recherchant) arrivée et départ types de fichiers ? 12/17 Projet Antipédo – LIP6 – Arrivée et diffusion Matthieu Latapy 2500 Contexte Positionnement Partenaires 2000 Activités Accès Analyse 1500 Popularity Mesure 1000 Conclusion 500 0 01 02 03 04 05 06 Weeks 07 08 09 10 11 x : temps (semaines) y : popularité du fichier (= nb de personnes le recherchant) arrivée et départ types de fichiers ? 12/17 Projet Antipédo – LIP6 – Proportion d’activité pédo Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion type pédo madonna porn fichiers 0.11 % 0.15 % 0.8 % requêtes 0.13 % 0.06 % 0.05 % activité pédo sur-représentée dans les requêtes demande > offre 13/17 Projet Antipédo – LIP6 – Proportion d’activité pédo Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion type pédo madonna porn fichiers 0.11 % 0.15 % 0.8 % requêtes 0.13 % 0.06 % 0.05 % activité pédo sur-représentée dans les requêtes demande > offre 13/17 Projet Antipédo – LIP6 – Analyse – âges Matthieu Latapy Contexte Positionnement Partenaires Activités 1 0.9 0.8 0.7 Mesure 0.6 Accès 0.5 0.4 Analyse Conclusion 0.3 0.2 queries filenames 0.1 0 2 4 6 8 10 12 14 16 18 20 x : âge sous la forme xyo y : nombre d’apparitions avec un âge ≤ x ≤ 10 ans : 40% (requêtes) et 50% (fichiers) ≤ 5 ans : 15% (requêtes) et 7% (fichiers) 14/17 Projet Antipédo – LIP6 – Analyse – âges Matthieu Latapy Contexte Positionnement Partenaires Activités 1 0.9 0.8 0.7 Mesure 0.6 Accès 0.5 0.4 Analyse Conclusion 0.3 0.2 queries filenames 0.1 0 2 4 6 8 10 12 14 16 18 20 x : âge sous la forme xyo y : nombre d’apparitions avec un âge ≤ x ≤ 10 ans : 40% (requêtes) et 50% (fichiers) ≤ 5 ans : 15% (requêtes) et 7% (fichiers) 14/17 Projet Antipédo – LIP6 – Mots-clés Matthieu Latapy 1 Contexte Positionnement 0.1 Partenaires Activités 0.01 Mesure Accès Analyse 0.001 Conclusion 1e−04 1e−05 1e−06 1e−06 1e−05 1e−04 0.001 0.01 0.1 frequences comparees x : fréquence d’apparition avec mots-clés pédo y : fréquence d’apparition avec porn découverte de nouveaux mots-clés pédo ? 15/17 Projet Antipédo – LIP6 – Mots-clés Matthieu Latapy 1 Contexte Positionnement 0.1 Partenaires Activités 0.01 Mesure Accès Analyse 0.001 Conclusion 1e−04 1e−05 1e−06 1e−06 1e−05 1e−04 0.001 0.01 0.1 frequences comparees x : fréquence d’apparition avec mots-clés pédo y : fréquence d’apparition avec porn découverte de nouveaux mots-clés pédo ? 15/17 Projet Antipédo – LIP6 – Content rating et fake detection Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Répondre automatiquement à : • tel ficher a-t-il un contenu à caractère pornographique ? pédophile ? Analyse Conclusion • a-t-il un contenu significativement différent de son nom ? pour aider à la classification et protéger les utilisateurs. Actuellement : basé sur les mots-clés seulement. résultats mitigés 16/17 Projet Antipédo – LIP6 – Content rating et fake detection Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Répondre automatiquement à : • tel ficher a-t-il un contenu à caractère pornographique ? pédophile ? Analyse Conclusion • a-t-il un contenu significativement différent de son nom ? pour aider à la classification et protéger les utilisateurs. Actuellement : basé sur les mots-clés seulement. résultats mitigés 16/17 Projet Antipédo – LIP6 – Content rating et fake detection Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Répondre automatiquement à : • tel ficher a-t-il un contenu à caractère pornographique ? pédophile ? Analyse Conclusion • a-t-il un contenu significativement différent de son nom ? pour aider à la classification et protéger les utilisateurs. Actuellement : basé sur les mots-clés seulement. résultats mitigés 16/17 Projet Antipédo – LIP6 – Analyse – graphes Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Accès Analyse Conclusion deux fichiers sont "reliés" si beaucoup de pairs les fournissent tous deux 17/17 Projet Antipédo – LIP6 – Matthieu Latapy Contexte Positionnement Partenaires Activités Mesure Conclusion • Le projet : • Données massives • Analyses poussées • Exploratoire Accès Analyse Conclusion • Premiers résultats : • Mesures sur serveur • Analyses simples • Autres mesures/analyses en cours • Nos attentes : • Retour sur les résultats • Questions prioritaires • Expertise (mots-clés, fichiers intéressants, ...) 18/17