slides - Raphaël Fournier
Transcription
slides - Raphaël Fournier
Détection et analyse de l’activité pédophile dans les ensembles de requêtes P2P Raphaël Fournier-S’niehotta Journées ResCom 29 novembre 2012 Contexte Requêtes Utilisateurs Conclusion Plan 1 Contexte 2 Requêtes pédophiles 3 Utilisateurs pédophiles 4 Conclusion Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 2 / 18 Contexte Requêtes Utilisateurs Conclusion Plan 1 Contexte Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 2 / 18 Contexte Requêtes Utilisateurs Conclusion Grands ensembles de requêtes Interaction utilisateur-moteur de recherche Des applications classiques (amélioration de systèmes) moins classiques (suivi de la grippe) Séquence de requêtes : qi = (t, u, k1 , k2 , . . . , kn ) t horodatage u information sur l’émetteur (adresse IP, port) (k1 , k2 , . . . , kn ) suite de mots-clefs Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 3 / 18 Contexte Requêtes Utilisateurs Conclusion L’activité pédophile dans le P2P Problème important Victimes directes Danger pour les utilisateurs non pédophiles Impact sur la régulation de l’Internet Très peu de connaissances Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 4 / 18 Contexte Requêtes Utilisateurs Conclusion Objectifs Améliorer la connaissance de l’activité pédophile dans le P2P Détection Élaborer une méthodologie générale Créer un outil de détection automatisé Analyse Dénombrer rigoureusement les requêtes Étudier les utilisateurs Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 5 / 18 Contexte Requêtes Utilisateurs Conclusion Problématiques Collecte de données adaptées taille, dynamicité, protocoles peu documentés Outil de détection automatique activité cachée, langues multiples Inférence statistique rigoureuse faible quantité de requêtes pédophiles Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 6 / 18 Contexte Requêtes Utilisateurs Conclusion Données eDonkey (eMule, MLDonkey, Shareaza) 2007 09-12 2009 Durée 10 semaines 147 semaines 28 semaines Nb. requêtes 107 226 021 1 290 377 956 205 228 820 Nb. IP 23 892 531 82 264 897 24 413 195 Normalisation et anonymisation des données brutes F. A IDOUNI , M. L ATAPY, AND C.M AGNIEN . Ten weeks in the life of an edonkey server. Proceedings of HotP2P’09, 2009. Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 7 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Plan 2 Requêtes pédophiles Conception de l’outil Validation de l’outil Estimation de la fraction de requêtes pédophiles Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 7 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Conception de l’outil 4 types de requêtes pédophiles requête contient explicit ? contient child et sex ? contient familyparents et familychild et sex ? contient agesuffix avec age<17 et ( sex ou child ) ? étiquetée pédophile raygold little girl porno infantil incest mom son video 12yo fuck video Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 8 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Évaluation de la qualité Faux positifs “sexy daddy destinys child” contient “sexy”, “daddy” et “child” −→ étiquetée pédophile probablement une recherche liée à la musique Faux négatifs “pjk 12yo” −→ étiquetée non pédophile contient un marqueur pédophile non connu Comment estimer ces taux de faux positifs et faux négatifs ? Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 9 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Validation – Sondage 21 experts volontaires (Europol, forces de l’ordre, ONG) 3 000 requêtes choisies aléatoirement dont : 1 000 étiquetées pédophiles 1 000 étiquetées non pédophiles 1 000 voisines (soumises dans les 2h avant ou après une requête étiquetée pédophile, par la même adresse IP) pédo ... 1174 ... prob. pédo ... 111 ... je ne sais pas ... 20 ... prob. pas ... 64 ... Raphaël Fournier-S’niehotta pas pédo ... 789 ... total ... 2158 ... pertinence ... 99.1 ... Étude de l’activité pédophile dans le P2P 10 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Résultats de la validation correct : 75,5% requête pédophile outil erroné : 24,5% correct : 98,61% toutes les requêtes outil pédophile erroné : 1,39% Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 11 / 18 Contexte Requêtes Utilisateurs Conclusion Conception Validation Estimations Fraction de requêtes pédophiles fraction of paedophile queries 0.0025 0.002 0.0015 0.001 0.0005 2007 2009 0 0 5 10 15 20 measurement duration (weeks) 25 30 Résultat détection : légèrement au-dessus de 1,9 pour 1 000 après correction : 2,5 requêtes pour 1 000 sont pédophiles 1 requête pédophile toutes les 33 secondes environ Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 12 / 18 Contexte Requêtes Utilisateurs Conclusion Distinguer Compter Plan 3 Utilisateurs pédophiles Distinguer des utilisateurs différents Compter les utilisateurs pédophiles Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 12 / 18 Contexte Requêtes Utilisateurs Conclusion Distinguer Compter Notion d’utilisateur Hypothèse classique : utilisateur ∼ adresse IP Problèmes traduction d’adresse (NAT) renouvellement d’adresses plusieurs utilisateurs par ordinateur plusieurs ordinateurs par utilisateur Améliorations utilisateur ∼ adresse IP + port de connexion durée de la mesure sessions temporelles Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 13 / 18 Contexte Requêtes Utilisateurs Conclusion Distinguer Compter Notion d’utilisateur : IP vs (IP,port) fraction of paedophile users 0.0045 0.004 0.0035 0.003 0.0025 0.002 0.0015 0.001 2007, (IP,port) 2007, IP 2009, IP 0.0005 0 0 2 4 6 8 10 time (weeks) hypothèse : un utilisateur est pédophile s’il a fait une requête pédophile pollution : toutes les adresses IP vues comme pédophiles, après un certain temps convergence quand on prend l’hypothèse (IP, port) Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 14 / 18 Contexte Requêtes Utilisateurs Conclusion Distinguer Compter Notion d’utilisateur : sessions temporelles t1 t2 t3 t5 t6 t4 t fraction of paedophile sessions session session 2007, (IP,port) 2007, IP 2009, IP 0.0035 0.003 0.0025 0.002 0.0015 0.0024 0.001 0.002 0.0005 0 0.25 0.5 0 0 2 4 Raphaël Fournier-S’niehotta 6 δ (hours) 8 10 12 Étude de l’activité pédophile dans le P2P 15 / 18 Contexte Requêtes Utilisateurs Conclusion Distinguer Compter Fraction d’utilisateurs pédophiles faux positifs et négatifs sur les utilisateurs p(u ∈ U + | u ∈ V (n, 0)) = 1 − (1 − f 0− )n p(u ∈ U − | u ∈ V (n, k )) = (f 0+ )k (1 − f 0− )n−k Résultat Fraction d’utilisateurs pédophiles proche de 0,22% Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 16 / 18 Contexte Requêtes Utilisateurs Conclusion Plan 4 Conclusion Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 16 / 18 Contexte Requêtes Utilisateurs Conclusion Conclusion Un cas de détection d’une thématique rare dans de grands ensembles de requêtes Contributions Outil de détection de requêtes pédophiles Grand ensemble de requêtes pédophiles Estimation de la fraction de requêtes pédophiles Étude de la notion d’utilisateur Estimation de la fraction de requêtes pédophiles Contributions non présentées Dynamique temporelle de l’activité pédophile Comparaison avec le réseau P2P KAD Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 17 / 18 Contexte Requêtes Utilisateurs Conclusion Perspectives Amélioration de l’outil de détection requêtes précédente/suivante langues, ordre des mots, catégories apprentissage Analyse des utilisateurs seuil différent pour être considéré comme pédophile confrontation avec d’autres systèmes recherche de communautés étude détaillée des séquences de requêtes Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 18 / 18 Dynamique Évolution sur une longue période fraction de requêtes (en %) nombre de requêtes (millions) 0.6 toutes req. 12 10 8 6 4 2 requêtes pédo. 0.5 0.4 0.3 0.2 0.1 07 01 2− 1 20 07 2− 1 20 01 1− 07 1− 1 20 1 20 01 0− 1 20 07 0− 9− 1 20 0 20 01 2− 07 01 1− 1 20 1 20 07 1− 0− 1 20 01 07 0− 1 20 1 20 9− 0 20 temps (semaine) temps (semaine) trafic global stable sur 3 ans trafic pédophile en forte croissance augmentation du nombre d’utilisateurs pédophiles Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 20 / 18 Dynamique Dynamique journalière BR+AR FR 2 1,5 1 0,5 0,9 fraction moyenne des requêtes (en %) fraction moyenne d’adresses IP (en %) 2,5 requêtes pédo. requêtes porn. 0,8 0,7 0,6 0,5 0,4 0,3 0 0 2 4 6 8 10 12 14 16 18 20 22 heure de la journée 0 2 4 6 8 10 12 14 16 18 20 22 heure de la journée effet jour/nuit du trafic pic de fraction de requêtes pédophiles vers 6 heures différent pour les requêtes pornographiques Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 21 / 18 Dynamique KAD network Completely distributed protocol of clients No server for file indexing Some peers are in charge of some files and keywords Principle: Precise and targeted injection of peers into the network to control files or keywords Peers catch queries and control replies Applications: Which files are published for a given keyword? Which peers share them ? Eclipse : prevent peers from accessing content Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 22 / 18 Dynamique Geo-location: statistics country IT ES FR BR IL DE KR US PL AR CN PT IE TW BE CH GB NL CA SI MX RU AT # queries 19569361 8881405 7583815 2795090 2139697 2093106 1386799 1053183 975170 810466 635392 513327 511185 417893 402565 320054 319386 243646 241460 239572 210504 200958 184248 # paedo 15426 5177 8059 4849 2618 11238 336 6184 1178 1465 337 434 54 138 646 1710 1698 1131 1233 167 1098 2712 977 ratio 0.08 % 0.06 % 0.11 % 0.17 % 0.12 % 0.54 % 0.02 % 0.59 % 0.12 % 0.18 % 0.05 % 0.08 % 0.01 % 0.03 % 0.16 % 0.53 % 0.53 % 0.46 % 0.51 % 0.07 % 0.52 % 1.35 % 0.53 % Raphaël Fournier-S’niehotta Biased by: language knowledge decoding problems Étude de l’activité pédophile dans le P2P 23 / 18 Dynamique Geo-location: maps # queries Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 24 / 18 Dynamique Geo-location: maps ratio # paedophile queries / # queries Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 24 / 18 Dynamique Ages 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 queries filenames 0.1 0 2 4 6 8 10 12 14 16 18 20 x : ages xyo y : fraction of occurrences with age ≤ x ≤ 10 years old : 50% (queries) et 30% (files) ≤ 5 years old : 15% (queries) et 7% (files) Raphaël Fournier-S’niehotta Étude de l’activité pédophile dans le P2P 25 / 18
Documents pareils
slides - Raphaël Fournier
Mise au point d’un outil de détection de requêtes pédophiles
conçu en collaboration avec forces de l’ordre
validation
connaissance des taux d’erreurs (FP/FN)
précision 98,6 %
rappel 76%