A tutorial for cross-validation model with KNIME

Transcription

A tutorial for cross-validation model with KNIME
Université de Caen Basse-Normandie
1
2 novembre 2015
Département de Mathématiques et Mécanique
Validation croisée avec KNIME
Sommaire
1.1
1.2
1.3
1.4
1.5
1.6
Objectif . . . . . . . . . .
Préparation des données
Exploration . . . . . . . .
Partitionnement . . . . .
Modélisation . . . . . . .
Evaluation d’un modèle .
1.6.1 Matrice de confusion .
1.6.2 K Validation croisée .
1.6.3 Courbe ROC . . . . .
1.7 Transfert du modèle . . .
1.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. .
. .
. .
. . .
. . .
. . .
. .
1
1
1
2
2
2
2
2
3
3
Objectif
On utilse dans cet exercice le logiciel KNIME. Il se programme grâce à une interface graphique. L’installation est très
facile, puisque sous Linux il suffit de décompresser l’archive. Il est assez proche de SAS Enterprise Miner.
Figure 1 – WorkFlow
De nombreux exemples sont disponibles.
1.2
Préparation des données
1. Depuis le dépot de noeud choir IO/Read/File Reader. Configuer ce noeud en indiquant l’url des données :
http://www.math.unicaen.fr/~kauffmann/data/heart-c.csv et que le séparateur de données est un point virgule.
Faire excécuter le noeud, puis consulter la table crée (menu clic-gauche).
2. Dépuis le dépot Data Views/Property, ajouter le noeud Color Manager. Lier le noeud File Reader au noeud Color
Manager. Préciser la couleur verte pour la modalité <50 et la couleur rouge pour la modalité >50 de la variable num.
1.3
Exploration
1. Ajouter un noeud Statistics/Statistics. Le lier à la sortie du noeud Color Manager. Configuer ce noeud en ajoutant
toutes la variables. Explorer les résultats des statistiques obtenues pour les variables quantitatives et qualitatives
(nominal).
http://www.math.unicaen.fr/~kauffman/cours
1
[email protected]
Université de Caen Basse-Normandie
2 novembre 2015
Département de Mathématiques et Mécanique
2. Ajouter un noeud Statistics/Crosstab qui calcule des tables de contingences et test l’indépendance : sexe par num.
Faire exécuter, faire afficher les résultats.
3. Ajouter un noeud Data View/Scatter Matrix Sélectionner des variables, visualiser le résultat.
1.4
Partitionnement
Ajouter le noeud DataManipulation/Row/Transform/Partitioning et choisir un pourcentage de 70% pour la base
d’apprentissage et de 40% pour la base (test et validation). Etudier les deux sorties de ce noeuds.
1.5
Modélisation
1. Ajouter un noeud Mining/Decision Tree/Decision Tree learner, le relier à la base d’apprentissage, puis le configurer la variable cible num.
2. Ajouter un noeud Mining/Decision Tree/Decision Tree Predictor. Relier la sortie du noeud Decision Tree
Learner de couleur bleue (modèle) à l’entrée bleue de ce noeud. Relier la base de test à la deuxième entrée du
noeud (triangle blanc données). Faire exécuter, examiner les résultats.
Figure 2 – Arbre de décision
1.6
1.6.1
Evaluation d’un modèle
Matrice de confusion
Ajouter un noeud Mining/Scorer/scorer et le relier à la sortie du noeud de prédiction etudier la matrice de confusion.
1.6.2
K Validation croisée
Dans cette partie on va réaliser une boucle sur les parties de la validation croisée dans le graphe des noeuds.
1. Ajouter un noeud Mining/Scorer/X-Partitioner{. C’est le début de la boucle. Le relier à la base de données complètes
sortie du noeud Color Manager. Configuer ce noeud en précisant que l’on veut 10 parties.
http://www.math.unicaen.fr/~kauffman/cours
2
[email protected]
Université de Caen Basse-Normandie
2 novembre 2015
Département de Mathématiques et Mécanique
2. Ajouter les deux noeuds Decision Tree Learner et Decision Tree Predictor. Sélectionner l’option permettant de
calculer les probabilités d’affectation à une classe : ”Append colums with normalized class distribution” et indiquer que
les variables auront un suffixe P.
3. Ajouter un noeud Mining/Scorer/X-Partitioner} c’est la fin de la boucle.
4. Faire exécuter et étudier les deux sorties la table de sortie des prédictions et les taux d’erreurs.
1.6.3
Courbe ROC
Ajouter un noeud Mining/Scoring/ROC Curve qui sera relié à la table de sortie du noeud de fin de boucle. Sélectionner
la classe cible num pour la Class column. Choisir la modalité positive >50_1 et inclure dans les colonnes contenant les
probabilités d’affectation la colonne contenant la probabilité d’affectatin à la modalité positive. Visualisez la courbe ROC,
que vaut le critère AUC ?
Figure 3 – Courbe ROC
1.7
Transfert du modèle
Enregister votre projet.
http://www.math.unicaen.fr/~kauffman/cours
3
[email protected]