1 Base de données iris avec Minitab

Transcription

1 Base de données iris avec Minitab
Université de Caen Basse-Normandie
1
2 octobre 2014
Département de Mathématiques et Mécanique
Base de données iris avec Minitab
Sommaire
1.1
1.2
1.3
1.1
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Enoncé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
2
Objectifs
On utilise dans Minitab
les statistiques descriptives histogramme,
les QQplot.
la loi normale, densité , probabilité,
discrimination, nouvelle colonne calculée dans Minitab.
1.2
Description
Les données iris ont été utilisées par Sir Ronald Fisher en 1936 comme exemple pour discriminer la race de trois espèces
d’iris en fonction de critères morphologiques de la plante. Ces données ont été largement utilisées en.wikipedia.org.
Cette données contiennent 150 lignes concernant 150 mesures d’iris et 5 colonnes. Les quatre premières colonnes sont
des mesures morphologiques de la plante, la cinquième colonne est l’espèce de la plante. Le séparateur de champs est un
point-virgule.
1
2
3
4
5
6
Sepal.Length
5.10
4.90
4.70
4.60
5.00
5.40
Sepal.Width
3.50
3.00
3.20
3.10
3.60
3.90
Petal.Length
1.40
1.40
1.30
1.50
1.40
1.70
Petal.Width
0.20
0.20
0.20
0.20
0.20
0.40
Species
setosa
setosa
setosa
setosa
setosa
setosa
Table 1 – Table de données iris
Figure 1 – La plante
nom
Sepal.Length
Sepal.Width
Petal.Length
Petal.width
Species
type
quanti
quanti
quanti
quanti
quali
commentaires
longueur du sépal en cm
largeur du sépal en cm
longueur de pétal en cm
largeur du pétal en cm
espèce de l’iris
Table 2 – Catalogue des variables
http://www.math.unicaen.fr/~kauffman/cours
1
[email protected]
Université de Caen Basse-Normandie
2 octobre 2014
setosa
versicolor
virginica
Département de Mathématiques et Mécanique
Species
50
50
50
Table 3 – Tableau de contingence de l’espèce
versicolor
virginica
On peut lire les données dans R grâce à la commande
setosa
X=read.table(
file="http://www.math.unicaen.fr/~kauffman/data/iris.txt",
sep=';',
header=TRUE
)
1.3
Enoncé
1. Ouvrir la feuille de travail et lire les données iris.
2. Enregister la feuillede travail iris.csv au format html. Vérifier.
setosa
versicolor
virginica
4
1
2
3
Petal.Length
5
6
7
3. Tracez les observations avec en abscisse(X) kes largeur des pétales et en ordonnées(Y) les longueur des pétales en
utilisant des symboles différents pour chacune des expèces d’iris.
0.5
1.0
1.5
2.0
2.5
Petal.Width
Figure 2 – Graphique longueur des pétales en fonction de leur largeur
4. Tracez un diagramme matriciel ( scatter plot) des variables qualitatives, en utilisant des couleurs différentes par espèces.
http://www.math.unicaen.fr/~kauffman/cours
2
[email protected]
Université de Caen Basse-Normandie
2 octobre 2014
Département de Mathématiques et Mécanique
0.5 1.0 1.5 2.0 2.5
6.5
7.5
2.0 2.5 3.0 3.5 4.0
2.0 2.5 3.0 3.5 4.0
4.5
5.5
Sepal.Length
5
6
7
Sepal.Width
0.5 1.0 1.5 2.0 2.5
1
2
3
4
Petal.Length
Petal.Width
4.5
5.5
6.5
7.5
1
2
3
4
5
6
7
Figure 3 – Diagramme matriciel
5. Dans cette question, on veut uniquement travailler sur les espèces setosa etversicolor.
0.6
0.0
0.2
0.4
Density
0.8
1.0
1.2
(a) A partir du menu Calc > Divisiser la feuille. Spécifier les lignes à inclure à l’aide d’un test spécifiant que
la variable Species doit être différente de "virginica". On appelera cette feuille X.
(b) On veut étudier l’histogramme de la variable Sepal.Length pour les deux espèces setosa et versicolor.
4
5
6
7
8
Sepal.Length
Figure 4 – Histogramme de Sepal.Length par espèce
(c) Refaire les deux questions précédentes en n’utilisant que la fonction histogramme.
6. A l’aide du menu Stat > Statistiques élementaires > Stocker les statistiques descriptives calculer les
moyennes et les écarts types par espèce pour les données complètes. Que vallent la moyenne empirique µ et l’écart type
empirique σ des longueurs des sépales de l’espèce setosa .
http://www.math.unicaen.fr/~kauffman/cours
3
[email protected]
Université de Caen Basse-Normandie
1
2
3
2 octobre 2014
Species
setosa
versicolor
virginica
Sepal.Length
5.01
5.94
6.59
Sepal.Width
3.43
2.77
2.97
Département de Mathématiques et Mécanique
Petal.Length
1.46
4.26
5.55
Petal.Width
0.25
1.33
2.03
Table 4 – Moyenne par espèce
1
2
3
Species
setosa
versicolor
virginica
Sepal.Length
0.35
0.52
0.64
Sepal.Width
0.38
0.31
0.32
Petal.Length
0.17
0.47
0.55
Petal.Width
0.11
0.20
0.27
Table 5 – Ecarts types par espèce
0.4
0.0
0.2
Density
0.6
0.8
7. On étudie dans cette partie une modélisation de la longueur des sépales des iris de l’espèce setosa par une variable
aléatoire Xsetosa normale de moyenne µ et d’écart type σ.
(a) Réalisez un diagramme de probabilité pour la loi normale et pour chacune des espèces d’iris, peut-on dire que les
distributions empiriques sont proches d’une distribution normale ?
(b) Créer une colone contenant une suite de nombre régulièrement espacés compris entre 2 et 8 et séparé de 0.1 Calc
> Générer des suites de nombres > Ensemble simple de nombres. Puis tracez la densité de la loi normale
N (µ, σ) à l’aide du menu Calc > Lois de probabilités > Normale.
(c) Tracez l’histogramme (densité) de la longueur des sépales superposé à la densité du modèle gaussien ∼ N (µ, σ).
On choisira comme coupures les nombres suivants 4.24.65.05.45.8.
2
3
4
5
6
7
8
Sepal.Length
Figure 5 – Histogramme et modele de Sepal.Length par espèce
(d) Si on décide que les iris ayant une longueur de pétale comprise entre 4 et 6 sont du type setosa. Calculer P r([4 <
Xsetosa < 6]). On observe un iris de type setosa, donnez la probabilité de se tromper si on adopte la règle précédente
(risque de première espèce).
8. On choisi la règle suivante
Petal.Length
] − ∞, 2.5]
]2.5, 5.4]
]5.4, +∞]
http://www.math.unicaen.fr/~kauffman/cours
espece prédite
setosa
versicolor
virginica
4
[email protected]
Université de Caen Basse-Normandie
2 octobre 2014
Département de Mathématiques et Mécanique
(a) Pour les 60 observations calculer les espèces prédites à láide du menu Calc > Calculatrice et deux fonction SI
impriqué.
Si( test1; "setosa";"autre")
Si( test1; "setosa";Si( test2; "versicolor";"virginica"))
(b) A l’aide du menu Stat > Tableaux > Tableau à entrées multiples construire un tableau de contingence
comptant le nombre de cas par croisement de la variable Species et votre variable espèce prédite.
setosa
versicolor
virginica
pred.setosa
50
0
0
pred.versicolor
0
50
20
pred.virginica
0
0
30
Table 6 – Résultats de la classification
http://www.math.unicaen.fr/~kauffman/cours
5
[email protected]