1 Base de données iris avec Minitab
Transcription
1 Base de données iris avec Minitab
Université de Caen Basse-Normandie 1 2 octobre 2014 Département de Mathématiques et Mécanique Base de données iris avec Minitab Sommaire 1.1 1.2 1.3 1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enoncé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 Objectifs On utilise dans Minitab les statistiques descriptives histogramme, les QQplot. la loi normale, densité , probabilité, discrimination, nouvelle colonne calculée dans Minitab. 1.2 Description Les données iris ont été utilisées par Sir Ronald Fisher en 1936 comme exemple pour discriminer la race de trois espèces d’iris en fonction de critères morphologiques de la plante. Ces données ont été largement utilisées en.wikipedia.org. Cette données contiennent 150 lignes concernant 150 mesures d’iris et 5 colonnes. Les quatre premières colonnes sont des mesures morphologiques de la plante, la cinquième colonne est l’espèce de la plante. Le séparateur de champs est un point-virgule. 1 2 3 4 5 6 Sepal.Length 5.10 4.90 4.70 4.60 5.00 5.40 Sepal.Width 3.50 3.00 3.20 3.10 3.60 3.90 Petal.Length 1.40 1.40 1.30 1.50 1.40 1.70 Petal.Width 0.20 0.20 0.20 0.20 0.20 0.40 Species setosa setosa setosa setosa setosa setosa Table 1 – Table de données iris Figure 1 – La plante nom Sepal.Length Sepal.Width Petal.Length Petal.width Species type quanti quanti quanti quanti quali commentaires longueur du sépal en cm largeur du sépal en cm longueur de pétal en cm largeur du pétal en cm espèce de l’iris Table 2 – Catalogue des variables http://www.math.unicaen.fr/~kauffman/cours 1 [email protected] Université de Caen Basse-Normandie 2 octobre 2014 setosa versicolor virginica Département de Mathématiques et Mécanique Species 50 50 50 Table 3 – Tableau de contingence de l’espèce versicolor virginica On peut lire les données dans R grâce à la commande setosa X=read.table( file="http://www.math.unicaen.fr/~kauffman/data/iris.txt", sep=';', header=TRUE ) 1.3 Enoncé 1. Ouvrir la feuille de travail et lire les données iris. 2. Enregister la feuillede travail iris.csv au format html. Vérifier. setosa versicolor virginica 4 1 2 3 Petal.Length 5 6 7 3. Tracez les observations avec en abscisse(X) kes largeur des pétales et en ordonnées(Y) les longueur des pétales en utilisant des symboles différents pour chacune des expèces d’iris. 0.5 1.0 1.5 2.0 2.5 Petal.Width Figure 2 – Graphique longueur des pétales en fonction de leur largeur 4. Tracez un diagramme matriciel ( scatter plot) des variables qualitatives, en utilisant des couleurs différentes par espèces. http://www.math.unicaen.fr/~kauffman/cours 2 [email protected] Université de Caen Basse-Normandie 2 octobre 2014 Département de Mathématiques et Mécanique 0.5 1.0 1.5 2.0 2.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 2.0 2.5 3.0 3.5 4.0 4.5 5.5 Sepal.Length 5 6 7 Sepal.Width 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Petal.Length Petal.Width 4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 Figure 3 – Diagramme matriciel 5. Dans cette question, on veut uniquement travailler sur les espèces setosa etversicolor. 0.6 0.0 0.2 0.4 Density 0.8 1.0 1.2 (a) A partir du menu Calc > Divisiser la feuille. Spécifier les lignes à inclure à l’aide d’un test spécifiant que la variable Species doit être différente de "virginica". On appelera cette feuille X. (b) On veut étudier l’histogramme de la variable Sepal.Length pour les deux espèces setosa et versicolor. 4 5 6 7 8 Sepal.Length Figure 4 – Histogramme de Sepal.Length par espèce (c) Refaire les deux questions précédentes en n’utilisant que la fonction histogramme. 6. A l’aide du menu Stat > Statistiques élementaires > Stocker les statistiques descriptives calculer les moyennes et les écarts types par espèce pour les données complètes. Que vallent la moyenne empirique µ et l’écart type empirique σ des longueurs des sépales de l’espèce setosa . http://www.math.unicaen.fr/~kauffman/cours 3 [email protected] Université de Caen Basse-Normandie 1 2 3 2 octobre 2014 Species setosa versicolor virginica Sepal.Length 5.01 5.94 6.59 Sepal.Width 3.43 2.77 2.97 Département de Mathématiques et Mécanique Petal.Length 1.46 4.26 5.55 Petal.Width 0.25 1.33 2.03 Table 4 – Moyenne par espèce 1 2 3 Species setosa versicolor virginica Sepal.Length 0.35 0.52 0.64 Sepal.Width 0.38 0.31 0.32 Petal.Length 0.17 0.47 0.55 Petal.Width 0.11 0.20 0.27 Table 5 – Ecarts types par espèce 0.4 0.0 0.2 Density 0.6 0.8 7. On étudie dans cette partie une modélisation de la longueur des sépales des iris de l’espèce setosa par une variable aléatoire Xsetosa normale de moyenne µ et d’écart type σ. (a) Réalisez un diagramme de probabilité pour la loi normale et pour chacune des espèces d’iris, peut-on dire que les distributions empiriques sont proches d’une distribution normale ? (b) Créer une colone contenant une suite de nombre régulièrement espacés compris entre 2 et 8 et séparé de 0.1 Calc > Générer des suites de nombres > Ensemble simple de nombres. Puis tracez la densité de la loi normale N (µ, σ) à l’aide du menu Calc > Lois de probabilités > Normale. (c) Tracez l’histogramme (densité) de la longueur des sépales superposé à la densité du modèle gaussien ∼ N (µ, σ). On choisira comme coupures les nombres suivants 4.24.65.05.45.8. 2 3 4 5 6 7 8 Sepal.Length Figure 5 – Histogramme et modele de Sepal.Length par espèce (d) Si on décide que les iris ayant une longueur de pétale comprise entre 4 et 6 sont du type setosa. Calculer P r([4 < Xsetosa < 6]). On observe un iris de type setosa, donnez la probabilité de se tromper si on adopte la règle précédente (risque de première espèce). 8. On choisi la règle suivante Petal.Length ] − ∞, 2.5] ]2.5, 5.4] ]5.4, +∞] http://www.math.unicaen.fr/~kauffman/cours espece prédite setosa versicolor virginica 4 [email protected] Université de Caen Basse-Normandie 2 octobre 2014 Département de Mathématiques et Mécanique (a) Pour les 60 observations calculer les espèces prédites à láide du menu Calc > Calculatrice et deux fonction SI impriqué. Si( test1; "setosa";"autre") Si( test1; "setosa";Si( test2; "versicolor";"virginica")) (b) A l’aide du menu Stat > Tableaux > Tableau à entrées multiples construire un tableau de contingence comptant le nombre de cas par croisement de la variable Species et votre variable espèce prédite. setosa versicolor virginica pred.setosa 50 0 0 pred.versicolor 0 50 20 pred.virginica 0 0 30 Table 6 – Résultats de la classification http://www.math.unicaen.fr/~kauffman/cours 5 [email protected]