présentation
Transcription
présentation
Les grands challenges (KDDCup, Netflix, ...), et la fouille de données complexes Martine Cadot Université de Nancy 1/LORIA Challenge : définitions • A challenge, selon Wikipedia : – is a general term referring to things that are imbued with a sense of difficulty and victory. • Un défi, selon Linternaute : – Sens 1 : Provocation, appel à se mesurer. – Sens 2 : Fait de refuser de se soumettre. • Ex : Il a agi ainsi par défi envers son père. • Synonymes : Competition, Contest [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 2 A Good Grand Challenge Problem for Data Mining [Shapiro et al. 2006] 1) The problem is hard -- very difficult to solve given the current state of the art 2) Involves data mining: data mining plays an important role in solving the problem. 3) Based on a large, publicly available data set 4) There is a specific goal: it is clear when the problem is solved 5) Problem is interesting to researchers and understandable to the public, and preferably stated in one sentence. 6) There is significant public benefit if it is solved. The Netflix Prize satisfies the first 5 of our proposed criteria [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 3 La KDD Cup Challenge annuel de la KDD [L2] • • • • • • • • • • • • • • 2010 - Student performance evaluation 2009 - Customer relationship prediction 2008 - Breast cancer 2007 - Consumer recommendations 2006 - Pulmonary embolisms detection from image data 2005 - Internet user search query categorization 2004 - Particle physics; plus protein homology prediction 2003 - Network mining and usage log analysis 2002 - BioMed document; plus gene role classification 2001 - Molecular bioactivity; plus protein locale prediction 2000 - Online retailer website clickstream analysis 1999 - Computer network intrusion detection 1998 - Direct marketing for profit optimization 1997 - Direct marketing for lift curve optimization [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 4 KDD Cup 2009 - CRM Customer relationship prediction • Les données proviennent d’Orange, compagnie française de Telecom • Le but du challenge est de prédire la propension des consommateurs à – Changer de fournisseur (churn), – Acheter de nouveaux produits ou services (appetency), – Acheter les MAJ ou compléments qui leurs sont proposés (up-selling). • Le défi annoncé est de battre le système développé en interne par Orange Labs. • La difficulté vient des données : – Très grosse base de données – Données hétérogènes et bruitées – Distributions de probabilité des données déséquilibrées • Plusieurs sous-tâches de difficulté croissante – 230 (small set) ou 15000 variables (large set) – En temps réduit (fast) ou non (slow) [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 5 KDD Cup 2009 • 50 000 utilisateurs pour les ensembles train et test • 3 var. à prédire Appetency, Churn, Upselling • 15000 var. prédictives quantitatives et qualitatives (230 small set) [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 6 Les challenges les plus appréciés • Données authentiques, ensembles d’entraînement et de test créés en même temps • Règles du jeu claires, permettant une auto-évaluation efficace • Leaderboard disponible constamment sur une partie des données avec – MAJ régulière – Résultats « par défaut » – Liens vers les équipes qui le souhaitent • FAQ bien gérée • Des problèmes variés [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 7 KDD-Cup 2010 Prédiction de la performance d’un élève à des problèmes mathématiques à partir de ses logs d’interaction avec des tutoriaux. [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 8 KDD Cup 2004 Protein Homology Problem • données simples : 74 variables numériques, dont le numéro de séquence (~150), le numéro de protéine (~1000 par séquence/bloc), et il faut prédire si la protéine est ou non homologue à la séquence. • 4 mesures d’évaluation, calculées sur chaque bloc: top 1 (% blocs dont le rang 1 est homologue), rang moyen de la dernière homologue du bloc, RMSE et précision moyenne [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 9 ECML/PKDD Challenge 2011 [L3] • Vcvg [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 10 Une FAQ bien gérée… • Suffisamment ouverte, – permet de glaner des informations utiles, de ne pas trébucher sur les mêmes écueils que les premiers joueurs, • Mais pas trop, cf Hutter prize, 50,000 € [L1] – “Warning: The average quality of the posts in the discussion groups and mailing lists is very low. Most participants don't know the underlying scientific concepts and some have not even read the rationale behind the contest. For a cleaned summary consult the frequently asked questions. The competition was also announced or discussed in many blogs.” [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 11 L’aspect financier : NETFLIX • Avant Netflix : le prix du gagnant lui permettait tout juste de couvrir ses frais de déplacement à la conférence. • Depuis, les sommes mises en jeu vont bien au delà : – Netflix : 1 million $ – Heritage Health Prize : 3 millions $ [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 12 The Netflix Prize [L5] • We’re quite curious, really. To the tune of one million dollars. • Netflix is all about connecting people to the movies they love. To help customers find those movies, we’ve developed our world-class movie recommendation system: CinematchSM. Its job is to predict whether someone will enjoy a movie based on how much they liked or disliked other movies. We use those predictions to make personal movie recommendations based on each customer’s unique tastes. And while Cinematch is doing pretty well, it can always be made better. • Serious money demands a serious bar. We suspect the 10% improvement is pretty tough, but we also think there is a good chance it can be achieved. It may take months; it might take years. [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 13 The Netflix Prize • Contest begins October 2, 2006 and continues through at least October 2, 2011. • On September 21, 2009 we awarded the $1M Grand Prize to team “BellKor’s Pragmatic Chaos”. • There are currently 51051 contestants on 41305 teams from 186 different countries. We have received 44014 valid submissions from 5169 different teams; 0 submissions in the last 24 hours. [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 14 [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 15 Heritage Health Prize [L4] [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 16 Les méthodes des gagnants KDD Cup 2010: • First Place: National Taiwan University Feature engineering and classifier ensembling for KDD CUP 2010 • First Runner Up: Zhang and Su Gradient Boosting Machines with Singular Value Decomposition • Second Runner Up: BigChaos @ KDD Collaborative Filtering Applied to Educational Data Mining [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 17 Les leçons des challenges de fouille de données • Une bonne association de méthodes donne de meilleurs résultats que chaque méthode. • Une bonne association d’équipes donne de meilleurs résultats que chaque équipe. Il y a certainement un challenge fait pour vous. Et il y a de grandes chances qu’il nous convienne aussi. Alors contactez-nous ! [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 18 Références bibliographiques Les numéros 2 de SIGKDD explorations de chaque année, en particulier [Shapiro et al. 2006] G-P. Shapiro, C. Djeraba, L. Getoor, R. Grossman, R. Feldman and M. Zaki (2006) What Are The Grand Challenges for Data Mining? KDD-2006 Panel Report. SIGKDD explorations, V.8-2, 70-77. Liens vers des challenges [L1] 50'000€ Prize for Compressing Human Knowledge : http://prize.hutter1.net/ [L2] Centre de la KDD Cup : http://www.sigkdd.org/kddcup/index.php [L3] Tunedit, plateforme de compétitions : http://tunedit.org/challenge/ (organisation du challenge de ECML/PKDD et de “Materials Identification Based on Measurements of Passively Emitted Electromagnetic Radiation”) [L4] Kaggle, plateforme de compétitions : http://www.kaggle.com/c/mdm/Index (organisation de “Heritage Health Prize” et de “Mapping Dark Matter”) [L5] Netflix : http://www.netflixprize.com/ [L6] MediaEval Benchmarking Initiative for Multimedia Evaluation http://www.multimediaeval.org/ [L7] Clef : http://www.clef-campaign.org/2009/working_notes/CLEF2009WN-Contents.html [L8] DEFT : http://deft2011.limsi.fr/ [L9] Pascal : http://pascallin2.ecs.soton.ac.uk/Challenges/ [L10]KDnuggets : http://www.kdnuggets.com/competitions/index.html [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 19 Heritage Health Prize [L4] • More than 71 million individuals in the United States are admitted to hospitals each year, according to the latest survey from the American Hospital Association. Studies have concluded that in 2006 well over $30 billion was spent on unnecessary hospital admissions. Is there a better way? Can we identify earlier those most at risk and ensure they get the treatment they need? The Heritage Provider Network (HPN) believes that the answer is "yes”. • To achieve its goal of developing a breakthrough algorithm that uses available patient data to predict and prevent unnecessary hospitalizations, HPN is sponsoring the Heritage Health Prize Competition (the “Competition”). HPN believes that incentivized competition is the best way to achieve the radical breakthroughs necessary to begin fixing America’s health care system. [email protected] Journées FDC-FGG – CNAM – 20-21 juin 2011 20