Mesure et analyse des échanges pair-à-pair pour la lutte

Transcription

Mesure et analyse des échanges pair-à-pair pour la lutte
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Mesure et analyse des échanges
pair-à-pair pour la lutte contre la
pédocriminalité
Analyse
Conclusion
Matthieu Latapy
[email protected]
LIP6 – CNRS et Université Pierre et Marie Curie (UPMC – Paris 6)
1/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Recherche
←→
problèmes scientifiques
Applications
pertinence applicative
Positionnement
Partenaires
Activités
Mesure
Accès
être aussi pertinents que possible pour l’application
Analyse
Conclusion
interactions avec les milieux applicatifs
identification de problématiques
évaluation des résultats
mise en œuvre
PROJET EXPLORATOIRE
résultats, prototypes, méthodes, ...
autres applications (télécoms, politique, ...)
2/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Recherche
←→
problèmes scientifiques
Applications
pertinence applicative
Positionnement
Partenaires
Activités
Mesure
Accès
être aussi pertinents que possible pour l’application
Analyse
Conclusion
interactions avec les milieux applicatifs
identification de problématiques
évaluation des résultats
mise en œuvre
PROJET EXPLORATOIRE
résultats, prototypes, méthodes, ...
autres applications (télécoms, politique, ...)
2/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Recherche
←→
problèmes scientifiques
Applications
pertinence applicative
Positionnement
Partenaires
Activités
Mesure
Accès
être aussi pertinents que possible pour l’application
Analyse
Conclusion
interactions avec les milieux applicatifs
identification de problématiques
évaluation des résultats
mise en œuvre
PROJET EXPLORATOIRE
résultats, prototypes, méthodes, ...
autres applications (télécoms, politique, ...)
2/17
Projet
Antipédo
– LIP6 –
Partenaires
Matthieu
Latapy
• Groupes :
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
•
•
•
•
•
CNRS et UPMC, France
INRIA Lorraine, France
UCC, Irlande
UL, Slovénie
FDN, Pologne
réseaux, analyse
réseaux, analyse
psychologie appliquée
statistiques, réseaux sociaux
association, diffusion
• Financeurs :
• Communauté Européenne, Safer Internet Plus
• France, Agence Nationale de la Recherche
3 ans (2007 – 2010)
> 20 chercheurs impliqués
> 800 KEuros sur trois ans
3/17
Projet
Antipédo
– LIP6 –
Partenaires
Matthieu
Latapy
• Groupes :
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
•
•
•
•
•
CNRS et UPMC, France
INRIA Lorraine, France
UCC, Irlande
UL, Slovénie
FDN, Pologne
réseaux, analyse
réseaux, analyse
psychologie appliquée
statistiques, réseaux sociaux
association, diffusion
• Financeurs :
• Communauté Européenne, Safer Internet Plus
• France, Agence Nationale de la Recherche
3 ans (2007 – 2010)
> 20 chercheurs impliqués
> 800 KEuros sur trois ans
3/17
Projet
Antipédo
– LIP6 –
Partenaires
Matthieu
Latapy
• Groupes :
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
•
•
•
•
•
CNRS et UPMC, France
INRIA Lorraine, France
UCC, Irlande
UL, Slovénie
FDN, Pologne
réseaux, analyse
réseaux, analyse
psychologie appliquée
statistiques, réseaux sociaux
association, diffusion
• Financeurs :
• Communauté Européenne, Safer Internet Plus
• France, Agence Nationale de la Recherche
3 ans (2007 – 2010)
> 20 chercheurs impliqués
> 800 KEuros sur trois ans
3/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Activités
• mesure
• masse d’utilisateurs et d’échanges
• en continu dans le temps
• protocoles complexes, peu documentés
• lois, éthique
Conclusion
• analyse
• information pertinente
• données massives
• données complexes, peu structurées
objectifs ambitieux
nombreux défis
4/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Activités
• mesure
• masse d’utilisateurs et d’échanges
• en continu dans le temps
• protocoles complexes, peu documentés
• lois, éthique
Conclusion
• analyse
• information pertinente
• données massives
• données complexes, peu structurées
objectifs ambitieux
nombreux défis
4/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Activités
• mesure
• masse d’utilisateurs et d’échanges
• en continu dans le temps
• protocoles complexes, peu documentés
• lois, éthique
Conclusion
• analyse
• information pertinente
• données massives
• données complexes, peu structurées
objectifs ambitieux
nombreux défis
4/17
Projet
Antipédo
– LIP6 –
Mesure d’eDonkey
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Principe de fonctionnement
Mesure
Accès
Analyse
Conclusion
serveurs + clients
5/17
Projet
Antipédo
– LIP6 –
Mesure sur serveur
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
• 10 semaines en continu
Mesure
Accès
Analyse
Conclusion
• 1 milliard de messages
• 89 millions de pairs (IP)
• 275 millions de fichiers (hash code)
• 24 millions de noms de fichiers distincts
• 116 millions de recherches par mots-clés distinctes
• 6,6 millions de mots distincts, 1,2 millions
apparaissant > 100 fois
6/17
Projet
Antipédo
– LIP6 –
Mesure par client
Matthieu
Latapy
Envoi périodique de requêtes choisies.
Contexte
Positionnement
Partenaires
Mesures à la gendarmerie de Bordeaux :
Activités
Mesure
Accès
Analyse
Conclusion
• 8 mots clés spécifiques, 3 jours (terminé)
• 8 mots clés spécifques, 7 généralistes, 1 mois (en
cours)
• 120 000 fichiers distincts
• 50 000 clients distincts
• 3 000 clients en France sur 12 000 localisés
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
7/17
Projet
Antipédo
– LIP6 –
Mesure par client
Matthieu
Latapy
Envoi périodique de requêtes choisies.
Contexte
Positionnement
Partenaires
Mesures à la gendarmerie de Bordeaux :
Activités
Mesure
Accès
Analyse
Conclusion
• 8 mots clés spécifiques, 3 jours (terminé)
• 8 mots clés spécifques, 7 généralistes, 1 mois (en
cours)
• 120 000 fichiers distincts
• 50 000 clients distincts
• 3 000 clients en France sur 12 000 localisés
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
7/17
Projet
Antipédo
– LIP6 –
Mesure par client
Matthieu
Latapy
Envoi périodique de requêtes choisies.
Contexte
Positionnement
Partenaires
Mesures à la gendarmerie de Bordeaux :
Activités
Mesure
Accès
Analyse
Conclusion
• 8 mots clés spécifiques, 3 jours (terminé)
• 8 mots clés spécifques, 7 généralistes, 1 mois (en
cours)
• 120 000 fichiers distincts
• 50 000 clients distincts
• 3 000 clients en France sur 12 000 localisés
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
7/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Mesure par honeypot
Déclaration de fichiers, attente de requêtes.
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
Mesures préliminaires :
• un mois en continu
• distribué sur 40 machines
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
0
2
4
6
8
10
12
14
16
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
8/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Mesure par honeypot
Déclaration de fichiers, attente de requêtes.
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
Mesures préliminaires :
• un mois en continu
• distribué sur 40 machines
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
0
2
4
6
8
10
12
14
16
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
8/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Mesure par honeypot
Déclaration de fichiers, attente de requêtes.
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
Mesures préliminaires :
• un mois en continu
• distribué sur 40 machines
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
0
2
4
6
8
10
12
14
16
mesures distribuées
longues durée
choix de mots-clés/fichiers ?
8/17
Projet
Antipédo
– LIP6 –
Données au format XML
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
<opcode dir="received" TS="284400.777619"
IP="0002962857" type="high" port="1047">
<OP_GLOBSEARCHREQ>
<tags count="3">
<bool>0</bool>
<anon-string>d6eebccdd10bc7af0fd54b2bde09f745</
<named-tag>
<name-type>byte</name-type>
<name-value>3</name-value>
<name-meaning>FILETYPE</name-meaning>
<string>Audio</string>
</named-tag>
</tags>
</OP_GLOBSEARCHREQ>
</opcode>
9/17
Projet
Antipédo
– LIP6 –
Interface web
Matthieu
Latapy
Contexte
Positionnement
Navigation entre fichiers et pairs.
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
Données pré-traitées :
• Qui demande/fournit un fichier donné ?
• Quels fichiers demande/fournit un pair donné ?
• Date de première observation d’un fichier ou d’un pair ?
• Quels noms pour un même fichier ?
• Quelles requêtes pour un même pair ?
• Content rating et fake detection.
• ...
10/17
Projet
Antipédo
– LIP6 –
Analyse
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Analyses simples :
Activités
Mesure
Accès
• arrivée et diffusion d’un fichier
Analyse
Conclusion
• proportion de contenu pédo vs non pédo
• âges (noms de fichiers et requêtes)
• mots-clés pédo
• content rating et fake detection
• ...
11/17
Projet
Antipédo
– LIP6 –
Arrivée et diffusion
Matthieu
Latapy
2500
Contexte
Positionnement
Partenaires
2000
Activités
Accès
Analyse
1500
Popularity
Mesure
1000
Conclusion
500
0
01
02
03
04
05
06
Weeks
07
08
09
10
11
x : temps (semaines)
y : popularité du fichier (= nb de personnes le recherchant)
arrivée et départ
types de fichiers ?
12/17
Projet
Antipédo
– LIP6 –
Arrivée et diffusion
Matthieu
Latapy
2500
Contexte
Positionnement
Partenaires
2000
Activités
Accès
Analyse
1500
Popularity
Mesure
1000
Conclusion
500
0
01
02
03
04
05
06
Weeks
07
08
09
10
11
x : temps (semaines)
y : popularité du fichier (= nb de personnes le recherchant)
arrivée et départ
types de fichiers ?
12/17
Projet
Antipédo
– LIP6 –
Proportion d’activité pédo
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
type
pédo
madonna
porn
fichiers
0.11 %
0.15 %
0.8 %
requêtes
0.13 %
0.06 %
0.05 %
activité pédo sur-représentée dans les requêtes
demande > offre
13/17
Projet
Antipédo
– LIP6 –
Proportion d’activité pédo
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
type
pédo
madonna
porn
fichiers
0.11 %
0.15 %
0.8 %
requêtes
0.13 %
0.06 %
0.05 %
activité pédo sur-représentée dans les requêtes
demande > offre
13/17
Projet
Antipédo
– LIP6 –
Analyse – âges
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
1
0.9
0.8
0.7
Mesure
0.6
Accès
0.5
0.4
Analyse
Conclusion
0.3
0.2
queries
filenames
0.1
0
2
4
6
8
10
12
14
16
18
20
x : âge sous la forme xyo
y : nombre d’apparitions avec un âge ≤ x
≤ 10 ans : 40% (requêtes) et 50% (fichiers)
≤ 5 ans : 15% (requêtes) et 7% (fichiers)
14/17
Projet
Antipédo
– LIP6 –
Analyse – âges
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
1
0.9
0.8
0.7
Mesure
0.6
Accès
0.5
0.4
Analyse
Conclusion
0.3
0.2
queries
filenames
0.1
0
2
4
6
8
10
12
14
16
18
20
x : âge sous la forme xyo
y : nombre d’apparitions avec un âge ≤ x
≤ 10 ans : 40% (requêtes) et 50% (fichiers)
≤ 5 ans : 15% (requêtes) et 7% (fichiers)
14/17
Projet
Antipédo
– LIP6 –
Mots-clés
Matthieu
Latapy
1
Contexte
Positionnement
0.1
Partenaires
Activités
0.01
Mesure
Accès
Analyse
0.001
Conclusion
1e−04
1e−05
1e−06
1e−06
1e−05
1e−04
0.001
0.01
0.1
frequences comparees
x : fréquence d’apparition avec mots-clés pédo
y : fréquence d’apparition avec porn
découverte de nouveaux mots-clés pédo ?
15/17
Projet
Antipédo
– LIP6 –
Mots-clés
Matthieu
Latapy
1
Contexte
Positionnement
0.1
Partenaires
Activités
0.01
Mesure
Accès
Analyse
0.001
Conclusion
1e−04
1e−05
1e−06
1e−06
1e−05
1e−04
0.001
0.01
0.1
frequences comparees
x : fréquence d’apparition avec mots-clés pédo
y : fréquence d’apparition avec porn
découverte de nouveaux mots-clés pédo ?
15/17
Projet
Antipédo
– LIP6 –
Content rating et fake detection
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Répondre automatiquement à :
• tel ficher a-t-il un contenu à caractère pornographique ?
pédophile ?
Analyse
Conclusion
• a-t-il un contenu significativement différent de son
nom ?
pour aider à la classification et protéger les utilisateurs.
Actuellement : basé sur les mots-clés seulement.
résultats mitigés
16/17
Projet
Antipédo
– LIP6 –
Content rating et fake detection
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Répondre automatiquement à :
• tel ficher a-t-il un contenu à caractère pornographique ?
pédophile ?
Analyse
Conclusion
• a-t-il un contenu significativement différent de son
nom ?
pour aider à la classification et protéger les utilisateurs.
Actuellement : basé sur les mots-clés seulement.
résultats mitigés
16/17
Projet
Antipédo
– LIP6 –
Content rating et fake detection
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Répondre automatiquement à :
• tel ficher a-t-il un contenu à caractère pornographique ?
pédophile ?
Analyse
Conclusion
• a-t-il un contenu significativement différent de son
nom ?
pour aider à la classification et protéger les utilisateurs.
Actuellement : basé sur les mots-clés seulement.
résultats mitigés
16/17
Projet
Antipédo
– LIP6 –
Analyse – graphes
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Accès
Analyse
Conclusion
deux fichiers sont "reliés"
si
beaucoup de pairs les fournissent tous deux
17/17
Projet
Antipédo
– LIP6 –
Matthieu
Latapy
Contexte
Positionnement
Partenaires
Activités
Mesure
Conclusion
• Le projet :
• Données massives
• Analyses poussées
• Exploratoire
Accès
Analyse
Conclusion
• Premiers résultats :
• Mesures sur serveur
• Analyses simples
• Autres mesures/analyses en cours
• Nos attentes :
• Retour sur les résultats
• Questions prioritaires
• Expertise (mots-clés, fichiers intéressants, ...)
18/17