présentation

Transcription

présentation
Les grands challenges
(KDDCup, Netflix, ...), et la fouille
de données complexes
Martine Cadot
Université de Nancy 1/LORIA
Challenge : définitions
• A challenge, selon Wikipedia :
– is a general term referring to things that are
imbued with a sense of difficulty and victory.
• Un défi, selon Linternaute :
– Sens 1 : Provocation, appel à se mesurer.
– Sens 2 : Fait de refuser de se soumettre.
• Ex : Il a agi ainsi par défi envers son père.
• Synonymes : Competition, Contest
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
2
A Good Grand Challenge Problem for
Data Mining [Shapiro et al. 2006]
1) The problem is hard -- very difficult to solve given the
current state of the art
2) Involves data mining: data mining plays an important role in
solving the problem.
3) Based on a large, publicly available data set
4) There is a specific goal: it is clear when the problem is solved
5) Problem is interesting to researchers and understandable
to the public, and preferably stated in one sentence.
6) There is significant public benefit if it is solved.
The Netflix Prize satisfies the first 5 of our proposed criteria
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
3
La KDD Cup
Challenge annuel de la KDD [L2]
•
•
•
•
•
•
•
•
•
•
•
•
•
•
2010 - Student performance evaluation
2009 - Customer relationship prediction
2008 - Breast cancer
2007 - Consumer recommendations
2006 - Pulmonary embolisms detection from image data
2005 - Internet user search query categorization
2004 - Particle physics; plus protein homology prediction
2003 - Network mining and usage log analysis
2002 - BioMed document; plus gene role classification
2001 - Molecular bioactivity; plus protein locale prediction
2000 - Online retailer website clickstream analysis
1999 - Computer network intrusion detection
1998 - Direct marketing for profit optimization
1997 - Direct marketing for lift curve optimization
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
4
KDD Cup 2009 - CRM
Customer relationship prediction
• Les données proviennent d’Orange, compagnie française de Telecom
• Le but du challenge est de prédire la propension des consommateurs à
– Changer de fournisseur (churn),
– Acheter de nouveaux produits ou services (appetency),
– Acheter les MAJ ou compléments qui leurs sont proposés (up-selling).
• Le défi annoncé est de battre le système développé en interne par
Orange Labs.
• La difficulté vient des données :
– Très grosse base de données
– Données hétérogènes et bruitées
– Distributions de probabilité des données déséquilibrées
• Plusieurs sous-tâches de difficulté croissante
– 230 (small set) ou 15000 variables (large set)
– En temps réduit (fast) ou non (slow)
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
5
KDD Cup 2009
• 50 000 utilisateurs pour les ensembles train et test
• 3 var. à prédire Appetency, Churn, Upselling
• 15000 var. prédictives quantitatives et qualitatives (230 small set)
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
6
Les challenges les plus appréciés
• Données authentiques, ensembles d’entraînement et de
test créés en même temps
• Règles du jeu claires, permettant une auto-évaluation
efficace
• Leaderboard disponible constamment sur une partie des
données avec
– MAJ régulière
– Résultats « par défaut »
– Liens vers les équipes qui le souhaitent
• FAQ bien gérée
• Des problèmes variés
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
7
KDD-Cup 2010
Prédiction de la performance d’un élève à des problèmes
mathématiques à partir de ses logs d’interaction avec des tutoriaux.
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
8
KDD Cup 2004
Protein Homology Problem
• données simples : 74 variables numériques, dont le
numéro de séquence (~150), le numéro de protéine
(~1000 par séquence/bloc), et il faut prédire si la
protéine est ou non homologue à la séquence.
• 4 mesures d’évaluation, calculées sur chaque bloc:
top 1 (% blocs dont le rang 1 est homologue), rang
moyen de la dernière homologue du bloc, RMSE
et précision moyenne
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
9
ECML/PKDD Challenge 2011 [L3]
• Vcvg
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
10
Une FAQ bien gérée…
• Suffisamment ouverte,
– permet de glaner des informations utiles, de ne pas
trébucher sur les mêmes écueils que les premiers joueurs,
• Mais pas trop, cf Hutter prize, 50,000 € [L1]
– “Warning: The average quality of the posts in the
discussion groups and mailing lists is very low. Most
participants don't know the underlying scientific concepts
and some have not even read the rationale behind the
contest. For a cleaned summary consult the frequently
asked questions. The competition was also announced or
discussed in many blogs.”
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
11
L’aspect financier : NETFLIX
• Avant Netflix : le prix du gagnant lui
permettait tout juste de couvrir ses frais de
déplacement à la conférence.
• Depuis, les sommes mises en jeu vont bien
au delà :
– Netflix : 1 million $
– Heritage Health Prize : 3 millions $
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
12
The Netflix Prize [L5]
• We’re quite curious, really. To the tune of one million dollars.
• Netflix is all about connecting people to the movies they love.
To help customers find those movies, we’ve developed our
world-class movie recommendation system: CinematchSM. Its
job is to predict whether someone will enjoy a movie based on
how much they liked or disliked other movies. We use those
predictions to make personal movie recommendations based
on each customer’s unique tastes. And while Cinematch is
doing pretty well, it can always be made better.
• Serious money demands a serious bar. We suspect the 10%
improvement is pretty tough, but we also think there is a good
chance it can be achieved. It may take months; it might take
years.
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
13
The Netflix Prize
• Contest begins October 2, 2006 and continues
through at least October 2, 2011.
• On September 21, 2009 we awarded the $1M Grand
Prize to team “BellKor’s Pragmatic Chaos”.
• There are currently 51051 contestants on 41305
teams from 186 different countries.
We have received 44014 valid submissions from
5169 different teams; 0 submissions in the last 24
hours.
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
14
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
15
Heritage Health Prize [L4]
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
16
Les méthodes des gagnants
KDD Cup 2010:
• First Place: National Taiwan University
Feature engineering and classifier ensembling for KDD
CUP 2010
• First Runner Up: Zhang and Su
Gradient Boosting Machines with Singular Value
Decomposition
• Second Runner Up: BigChaos @ KDD
Collaborative Filtering Applied to Educational Data
Mining
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
17
Les leçons des challenges de fouille
de données
• Une bonne association de méthodes donne de
meilleurs résultats que chaque méthode.
• Une bonne association d’équipes donne de meilleurs
résultats que chaque équipe.
Il y a certainement un challenge fait pour vous. Et il y
a de grandes chances qu’il nous convienne aussi.
Alors contactez-nous !

[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
18
Références bibliographiques
Les numéros 2 de SIGKDD explorations de chaque année, en particulier
[Shapiro et al. 2006] G-P. Shapiro, C. Djeraba, L. Getoor, R. Grossman, R. Feldman and M. Zaki
(2006) What Are The Grand Challenges for Data Mining? KDD-2006 Panel Report.
SIGKDD explorations, V.8-2, 70-77.
Liens vers des challenges
[L1] 50'000€ Prize for Compressing Human Knowledge : http://prize.hutter1.net/
[L2] Centre de la KDD Cup : http://www.sigkdd.org/kddcup/index.php
[L3] Tunedit, plateforme de compétitions : http://tunedit.org/challenge/
(organisation du challenge de ECML/PKDD et de “Materials Identification Based on
Measurements of Passively Emitted Electromagnetic Radiation”)
[L4] Kaggle, plateforme de compétitions : http://www.kaggle.com/c/mdm/Index
(organisation de “Heritage Health Prize” et de “Mapping Dark Matter”)
[L5] Netflix : http://www.netflixprize.com/
[L6] MediaEval Benchmarking Initiative for Multimedia Evaluation http://www.multimediaeval.org/
[L7] Clef : http://www.clef-campaign.org/2009/working_notes/CLEF2009WN-Contents.html
[L8] DEFT : http://deft2011.limsi.fr/
[L9] Pascal : http://pascallin2.ecs.soton.ac.uk/Challenges/
[L10]KDnuggets : http://www.kdnuggets.com/competitions/index.html
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
19
Heritage Health Prize [L4]
• More than 71 million individuals in the United States are admitted
to hospitals each year, according to the latest survey from the
American Hospital Association. Studies have concluded that in
2006 well over $30 billion was spent on unnecessary hospital
admissions. Is there a better way? Can we identify earlier those
most at risk and ensure they get the treatment they need? The
Heritage Provider Network (HPN) believes that the answer is
"yes”.
• To achieve its goal of developing a breakthrough algorithm that
uses available patient data to predict and prevent unnecessary
hospitalizations, HPN is sponsoring the Heritage Health Prize
Competition (the “Competition”). HPN believes that incentivized
competition is the best way to achieve the radical breakthroughs
necessary to begin fixing America’s health care system.
[email protected]
Journées FDC-FGG – CNAM – 20-21 juin 2011
20