slides - Raphaël Fournier
Transcription
slides - Raphaël Fournier
Scientific openness with sensitive data De l’ouverture des données scientifiques sensibles Raphaël Fournier-S’niehotta Journée SoData!, IGN 14 mars 2013 Introduction Données Résultats Analyse 2 / 15 Contexte équipe ComplexNetworks : grands graphes de terrain et réseaux sociaux, mesure de l’Internet (carte) compétences en collecte de données projets MAPE (ANR) et MAPAP (CE) : Measurements and Analysis of P2P Activity against Paedophile content Antipaedo http://antipaedo.lip6.fr sujet sensible Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 3 / 15 Contexte (suite) L’activité pédophile dans le pair-à-pair (P2P) Victimes directes Danger pour les utilisateurs non pédophiles Impact sur la régulation de l’Internet Très peu de connaissances Objectifs Quantifier les requêtes et les utilisateurs Étudier l’évolution de l’activité Comparer différents réseaux Améliorer significativement les connaissances sur l’activité pédophile dans le P2P Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 4 / 15 Réseaux P2P des millions d’utilisateurs utilisateur mots-clefs fichier(s) serveur −→ ←− −→ ←− Raphaël Fournier-S’niehotta liste de fichiers fournisseur(s) Scientific openness with sensitive data Introduction Données Résultats Analyse 5 / 15 Données 2 collectes en continu sur eDonkey : 2007 10 semaines, 100 millions de requêtes, 24 millions d’IP 2009 147 semaines, 1,3 milliard de requêtes, 82 millions d’IP (géolocalisées) 1 collecte pour étudier KAD [1] : KAD 10 jours, ∼ 250 000 requêtes ed2kFR 60 jours, ∼ 240 000 requêtes ed2kUA 60 jours, ∼ 170 000 requêtes Contient des informations sensibles T. C HOLEZ , I. C HRISMENT, AND O. F ESTOR . Monitoring and Controlling Content Access in KAD. ICC 2010. Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 6 / 15 Des données sensibles 12/03-02:48:08 12/03-02:48:09 12/03-02:48:09 12/03-02:48:09 12/03-02:48:09 12/03-02:48:09 12/03-02:48:09 12/03-02:48:09 12/03-02:48:10 12/03-02:48:10 12/03-02:48:10 12/03-02:48:10 once upon a time s02e16 devenir male dominant la historia sin fin mario party 9 gangster squad naruto desaparecidos fiesta loca secret life american vostfr pthc 12yo the mentalist s01e19 ich mich nach deiner liebe soundtrack michael jackson bad man in the mirror 28/02-01:25:02 28/02-01:25:14 3/03-18:50:29 7/04-13:22:49 pierre durand cancer college emile fournier de badonvillier julie fournier lilian moreno 06 17 79 18 35 Raphaël Fournier-S’niehotta <BR><Rio De Janeiro> <AR><Buenos Aires> <DE><Enger> <PT><Barcelos> <FR><Talence> <FR><Talence> <IT><Rovigo> <FR><Toulouse> Scientific openness with sensitive data Introduction Données Résultats Analyse 7 / 15 Ouverture Préoccupation dès le début du projet Motivation Fournir les données à la communauté scientifique Reproductibilité des résultats Problèmes Satisfaire les exigences légales Ne pas divulguer d’informations personnelles Trouver un compromis entre richesse des données et anonymat Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 8 / 15 Anonymisation : procédure Temps valeur relative plutôt qu’absolue Adresses IP « seulement » 232 possibilités fonction de hachage connue insuffisante anonymisation à la volée par des entiers lenteur et demande en calculs haut niveau d’anonymisation usage ultérieur du jeu de données immédiat Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 9 / 15 Anonymisation : procédure (suite) Requêtes distinguer le général du particulier (sensible) peu de requêtes ou beaucoup de requêtes du même utilisateur seuil de 50 IP distinctes nombres : téléphone et cartes de crédit, mais aussi âges Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 10 / 15 Disponibilité Complètement accessibles méta données échantillons outil (algorithme de détection) format standard, fichier texte formaté Sur demande totalité des jeux de données Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 11 / 15 Résultats Mise au point d’un outil de détection de requêtes pédophiles conçu en collaboration avec forces de l’ordre validation connaissance des taux d’erreurs (FP/FN) précision 98,6 % rappel 76% Statistiques globales eDonkey [2] environ 2,5 requêtes pédophiles pour 1 000 (en 2009) 1 requête pédophile toutes les 33 secondes environ environ 2,2 utilisateurs pour 1 000 sont pédophiles environ 2 fois moins sur KAD M. L ATAPY, C. M AGNIEN , AND R. F OURNIER . Quantifying paedophile activity in a large P2P system. Information Processing and Management, 2012. Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 12 / 15 Évolution temporelle fraction de requêtes (en %) 0,6 requêtes pédo. 0,5 0,4 0,3 0,2 0,1 7 −0 12 20 1 −0 12 20 7 −0 11 20 1 −0 11 20 7 −0 10 20 1 −0 10 20 7 −0 09 20 temps (semaine) Trafic global stable sur 3 ans Trafic pédophile en forte croissance Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 13 / 15 fraction moyenne des requêtes (en %) Intégration sociale 0,9 requêtes pédo. 0,8 0,7 0,6 0,5 0,4 0,3 0 2 4 6 8 10 12 14 16 18 20 22 heure de la journée Effet jour/nuit Pic de fraction de requêtes pédophiles vers 6 heures Différent pour les requêtes pornographiques Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 13 / 15 fraction moyenne des requêtes (en %) Intégration sociale 0,9 requêtes pédo. requêtes porn. 0,8 0,7 0,6 0,5 0,4 0,3 0 2 4 6 8 10 12 14 16 18 20 22 heure de la journée Effet jour/nuit Pic de fraction de requêtes pédophiles vers 6 heures Différent pour les requêtes pornographiques Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 14 / 15 Ouverture des données Puissance de ce type d’analyse (Transaction-Log Analysis) avancées significatives contribution qualitative avec une approche quantitative utile dans de nombreux autres contextes Mais : responsabilité / éthique Google Flu ([1]) Étude sur Twitter ([2]) erreurs AOL notre outil J. G INSBERG , M. H. M OHEBBI , R. S. PATEL , L. B RAMMER , M. S. S MOLINSKI , AND L. B RILLIANT. Detecting influenza epidemics using search engine query data. Nature, 457:1012–1014, 2009. A. S ADILEK , H. K AUTZ , AND V. S ILENZIO. Predicting disease transmission from geo-tagged micro-blog data. AAAI Conference on Artificial Intelligence, 2012. Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 15 / 15 Merci. [email protected] Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 16 / 15 Géolocalisation pays IT ES FR BR IL DE KR US PL AR CN PT IE TW BE CH GB NL CA SI MX RU AT # requêtes 19569361 8881405 7583815 2795090 2139697 2093106 1386799 1053183 975170 810466 635392 513327 511185 417893 402565 320054 319386 243646 241460 239572 210504 200958 184248 # pédo. 15426 5177 8059 4849 2618 11238 336 6184 1178 1465 337 434 54 138 646 1710 1698 1131 1233 167 1098 2712 977 fraction 0.08 % 0.06 % 0.11 % 0.17 % 0.12 % 0.54 % 0.02 % 0.59 % 0.12 % 0.18 % 0.05 % 0.08 % 0.01 % 0.03 % 0.16 % 0.53 % 0.53 % 0.46 % 0.51 % 0.07 % 0.52 % 1.35 % 0.53 % Raphaël Fournier-S’niehotta Problèmes : langues encodage VPN Scientific openness with sensitive data Introduction Données Résultats Analyse 17 / 15 Géolocalisation total des requêtes Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse 17 / 15 Géolocalisation fraction de requêtes pédophiles Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Tool design 4 categories of paedophile queries query matches explicit ? matches child and sex ? matches familyparents and familychild and sex ? matches agesuffix with age<17 and ( sex or child )? tag as paedophile raygold little girl porno infantil incest mom son video 12yo fuck video Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Quality False positive “sexy daddy destinys child” contains “sexy”, “daddy” and “child” but most likely a music-related query False negative “pjk 12yo” contains paedophile keywords that we don’t search for How to estimate false positive and false negative rates? Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Tool assessment – Survey set of 21 volunteering experts (Europol, national authorities, NGOs) set of 3,000 randomly selected queries: paedophile not paedophile neighbours (submitted within the 2 previous or next hours of a paedophile query by the same user) tag queries as paedophile, probably paedophile, probably not paedophile, not paedophile or I don’t know pédo ... 1174 ... prob. pédo ... 111 ... je ne sais pas ... 20 ... prob. pas ... 64 ... Raphaël Fournier-S’niehotta pas pédo ... 789 ... total ... 2158 ... pertinence ... 99.1 ... Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Assessment results Limited filter precision False negatives False positives correct: 75.5% paedophile queries our tool wrong: 24.5% correct: 98.61% all queries our tool paedophile wrong: 1.39% Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Notion d’utilisateur Approximation possible : utilisateur ∼ adresse IP Problèmes Traduction d’adresse (NAT) Renouvellement d’adresses Plusieurs utilisateurs par ordinateur Plusieurs ordinateurs par utilisateur Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Notion d’utilisateur Utilisateur pédophile Un utilisateur est pédophile s’il a fait une requête pédophile Pollution : toutes les adresses IP vues comme pédophiles, après un certain temps 3 approches : utilisateur ∼ adresse IP + port de connexion sessions temporelles durée de la mesure Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term fraction d’utilisateurs détéctés comme pédophiles (en %) Notion d’utilisateur : IP vs (IP,port) 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 2007, IP 2009, IP 0,05 0 0 2 4 6 temps (semaines) 8 10 (IP, port) permet d’éviter la pollution Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term fraction d’utilisateurs détéctés comme pédophiles (en %) Notion d’utilisateur : IP vs (IP,port) 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 2007, (IP, port) 2007, IP 2009, IP 0,05 0 0 2 4 6 temps (semaines) 8 10 (IP, port) permet d’éviter la pollution Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Notion d’utilisateur : sessions temporelles t1 t2 t3 t4 t5 t6 t session Raphaël Fournier-S’niehotta session Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Notion d’utilisateur : sessions temporelles fraction de sessions détéctées comme pédophiles 0,3 0,25 0,2 0,15 0,1 2007, (IP,port) 2007, IP 2009, IP 0,05 0 0 2 4 Raphaël Fournier-S’niehotta 6 8 δ (heures) 10 12 Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Fraction d’utilisateurs pédophiles faux positifs et négatifs sur les utilisateurs p(u ∈ U + | u ∈ V (n, 0)) = 1 − (1 − f 0− )n p(u ∈ U − | u ∈ V (n, k )) = (f 0+ )k (1 − f 0− )n−k U+ , U− : ensemble des utilisateurs pédophiles/non pédophiles V+ , V− : ensemble des utilisateurs détectés comme pédophiles/non pédophiles n : nombre de requêtes d’un utilisateur k : nombre de requêtes détectées comme pédophiles |U + ∩V + | |D| = PN n=1 Pn k =1 (1 )| − (f 0+ )k (1 − f 0− )n−k ) |V (n,k |D| Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Fraction d’utilisateurs pédophiles Résultat Fraction d’utilisateurs pédophiles proche de 0,22% [2007] 1 utilisateur pédophile sur 450 environ M ATTHIEU L ATAPY, C LÉMENCE M AGNIEN , AND R APHAËL F OURNIER . Quantifying paedophile queries in a large P2P system. In IEEE International Conference on Computer Communications (INFOCOM) Mini-Conference, 2011. M ATTHIEU L ATAPY, C LÉMENCE M AGNIEN , AND R APHAËL F OURNIER . Quantifying paedophile activity in a large P2P system. Information Processing and Management, In press, 2012. Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Global traffic on server all queries (millions) 12 10 8 6 4 2 20 20 20 20 20 20 1 −0 12 7 −0 11 1 −0 11 7 −0 10 1 −0 10 7 −0 09 week Stability of global traffic over 3 years Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Fraction of paedophile queries fraction of queries (in %) 0.6 paedophile queries 0.5 0.4 0.3 0.2 0.1 20 20 20 20 20 20 20 7 −0 12 1 −0 12 7 −0 11 1 −0 11 7 −0 10 1 −0 10 7 −0 09 week Fraction of paedophile queries strongly increasing Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Fraction of paedophile users paedo. IPs fraction of IP addresses (in %) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 20 20 20 20 20 20 20 7 −0 12 1 −0 12 7 −0 11 1 −0 11 7 −0 10 1 −0 10 7 −0 09 week Fraction of paedophile users also increasing Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Daily traffic 90000 all queries average number of queries 80000 70000 60000 50000 40000 30000 20000 10000 0 0 2 4 6 8 10 12 14 16 18 20 22 hour Circadian cycle (day/night effect) Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Fraction of paedophile activity average fraction of queries (in %) 0.9 paedo. queries 0.8 0.7 0.6 0.5 0.4 0.3 0 2 4 6 8 10 12 14 16 18 20 22 hour Fraction of paedophile queries peaks at 6 AM Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Pornography vs paedophile activity average fraction of queries (in %) 0.9 paedo. queries. porn. queries 0.8 0.7 0.6 0.5 0.4 0.3 0 2 4 6 8 10 12 14 16 18 20 22 hour Paedopornagraphy and traditional pornography differ Raphaël Fournier-S’niehotta Scientific openness with sensitive data Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term Evolution of paedophile activity Results Important growth of paedophile activity between 2009 and 2012 Fraction of paedophile queries peaks at 6 AM Qualitative contribution with quantitative approach Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Documents pareils
slides - Raphaël Fournier
Conclusion
Un cas de détection d’une thématique rare
dans de grands ensembles de requêtes