Chapitre 7
Transcription
Chapitre 7
26 CHAPITRE 7 Les mesures de tendance centrale Les mesures de tendance centrale servent à caractériser une série statistique à l’aide d’une valeur ou d’une modalité typique. Il existe trois mesures possibles : le mode, la médiane et la moyenne. 1. Le mode 1.1. Introduction au mode. Débutons par la définition du mode d’une distribution. Définition 7.1 (Le mode). Le mode d’une série de données correspond à la valeur ou à la modalité la plus fréquente. On note le mode par Mo. Cette mesure est valide pour les variables qualitatives et quantitatives et pour tous les types d’échelle de mesure. Regardons un exemple. Exemple 7.1. Soit le tableau suivant : Ici, Mo est Carla Bruni, Tab. 1. Répartitions, en pourcentage, des votes aux élections municipales. Candidat Pourcentage des votes (% ) Joël Allard 13 Carla Bruni 45 Jules Verne 24 Richard Zetnik 18 Total 100 car c’est la modalité qui possède la plus grande fréquence. 1.2. Variables regroupées en classes. Lorsque les données sont regroupées en classe, il est plus difficile de parler du mode. On déterminera alors la classe modale. Celle-ci correspond à la classe possédant la plus grande fréquence. Il faut cependant s’assurer que toutes les classes sont de la même dimension, sinon la classe modale n’est pas représentative. Dans le cas où il y a une classe ouverte, il n’y a habituellement aucun problème, car il s’agit de cas marginaux. 27 28 7. LES MESURES DE TENDANCE CENTRALE Exemple 7.2. Soit le tableau suivant : Tab. 2. Répartitions des monarques d’Angleterre (roi ou reine) selon la durée de leur règne, 827-1952. Durée du règne Nombre de monarques 0-10 22 10-20 16 20-30 11 30-40 7 40-50 1 50-60 3 60-... 1 Total 61 Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70. Ici, la classe modale est 0 − 10. Si l’on est vraiment déterminé à calculer le mode, on peut prendre le milieu de la classe modale, c’est-à-dire que Mo = 5 dans le dernier exemple. 1.3. Variables sans mode. Il faut cependant faire attention avec la représentativité du mode. L’exemple suivant démontrera ce que nous voulons dire. Exemple 7.3. Soit les résultats suivants : Si l’on se fie à la déTab. 3. Répartitions des 135 étudiants du cours de Méthodes quantitatives H08 selon leur jour de naissance. Jours Nombre de monarques Lundi 18 Mardi 20 Mercredi 22 Jeudi 19 Vendredi 20 Samedi 17 Dimanche 19 Total 135 Source : La tête du prof ! ! finition du monde, nous avons que Mo = Mercredi. Par contre, on ne peut pas vraiment affirmer que c’est la modalité qui revient le plus 2. LA MÉDIANE 29 souvent puisqu’elle ne se distingue pas des autres. On remarque que les fréquences sont assez uniformément distribuées. Dans le cas où le mode n’est pas révélateur, on dit que la variable n’a pas de mode. 1.4. Distribution bimodale. Une distribution est dite bimodale si sa variable possède deux modalités ou valeurs qui se distinguent des autres en terme de fréquences. Exemple 7.4. Voici la distribution des étudiants d’un cours selon la note de leur devoir. On remarque que le nombre d’étudiants ayant Répartition des notes d’un devoir de 50 étudiants du cours de méthodes quantitatives 15 14 13 12 11 Fréquence 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Note Fig. 1. Exemple de distribution bimodale. obtenus un 9 est supérieur aux autres. Par contre, le nombre d’étudiants ayant obtenus un 4 est sensiblement le même. Ces deux valeurs se démarquent des autres notes. On a donc deux modes, soit 4 et 9. 2. La médiane Pour trouver la médiane, nous devons placer les valeurs ou les modalités en ordre croissant. Ainsi, cette mesure n’est pas valide pour des variables à échelle nominale, car il n’y a pas d’ordre dans les modalités. La médiane correspond à la modalité ou la valeur qui divise la distribution en deux, c’est-à-dire qu’il y a la même fréquence à gauche et à droite de la médiane. Regardons comment déterminer cette mesure. 30 7. LES MESURES DE TENDANCE CENTRALE 2.1. Médiane pour une variable qualitative ordinale. Pour déterminer la valeur de la médiane, il faut tout d’abord placer les résultats en ordre croissant. Par la suite, on trouve la position de la médiane. Celle-ci est n2 si n est pair et n+1 si n est impair (n étant le nombre de 2 données). Exemple 7.5. On a demandé à 25 personnes la qualité de la nourriture servie à la cafétéria. Les gens utilisaient une échelle de 1 à 5, 5 étant Excellente et 1 Médiocre. Voici la série de résultats : 2, 4, 3, 4, 2, 4, 3, 5, 5, 4, 3, 5, 5, 4, 5, 4, 3, 2, 3, 4, 5, 3, 5, 4, 3 Puisque n = 25, la position de la médiane se trouve à la position 13 des données placées en ordre croissant. 25+1 2 = |{z} 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4 , 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5 13e Ainsi, la médiane, notée Me, est Me = 4. Exemple 7.6. Trouvons la médiane des données suivantes : Puisque Tab. 4. Répartition des répondants, selon le niveau d’aptitude à la lecture. Niveau Nombre de répondants Cumulatif des répondants 1 17 17 2 23 40 3 55 95 4 155 250 Total 250 n = 250 est un nombre pair, la position de la médiane est donc 250/2 = 125. La donnée à la position 125 se trouve dans la quatrième classe d’où Me = 4. 2.2. Médiane pour une variable quantitative. Le calcul de la position de la valeur de la médiane est légèrement différent que celui pour des variables qualitatives ordinales. Voici la règle : n+1 Si n est impair: la position de la valeur médiane est . 2 Si n est pair: la valeur de la médiane correspond à la moitié de la somme des valeurs aux positions n2 et n2 + 1. Regardons quelques exemples. Exemple 7.7. Soit la série de 7 données suivante : 1, 2, 4, 6, 7, 13, 18 2. LA MÉDIANE 31 Trouvons la médiane. Puisque n est impair, la position de la médiane n+1 est = 4. La valeur à la 4e position est 6, d’où Me = 6. 2 Ajoutons une donnée à cette série et trouvons la médiane. Exemple 7.8. Soit la série de 8 données suivante : 1, 2, 4, 6, 7, 9, 13, 18 Puisque n est pair, la médiane correspond à la moitié de la somme des valeurs aux positions n/2 et n/2 + 1. Prenons donc les valeurs aux positions 4 et 5, c’est-a-dire 6 et 7. D’où, 6+7 = 6.5 2 2.3. Médiane pour des variables regroupées en classes. La technique pour déterminer la médiane lorsque les données sont regroupées en classes nécessite un peu de réflexion. Étudions la méthode à l’aide d’un exemple. Me = Exemple 7.9. Trouvons la médiane des données suivantes : Tab. 5. Répartitions des monarques d’Angleterre (roi ou reine) selon la durée de leur règne, 827-1952. Durée du règne Nombre de monarques Fréquences cumulées 0-10 22 22 10-20 16 38 20-30 11 49 30-40 7 56 40-50 1 57 50-60 3 60 60-... 1 61 Total 61 Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70. La première étape est de calculer la fréquence cumulée afin de déterminer la classe médiane, c’est-à-dire la classe qui contient la médiane. Ici, il y a 61 données. Ainsi, la médiane se trouve à la position n+1 = 31. 2 Cette position se trouve dans la classe 10 − 20 que l’on nomme classe médiane. Il reste à déterminer la médiane qui se trouve entre 10 et 20. Pour se faire, il faut utiliser les proportions. On sait que la position de la valeur 10 est plus petite que 22. De même, celle de la valeur de 20 est inférieur 38. On cherche la valeur de la donnée de la position 32 7. LES MESURES DE TENDANCE CENTRALE 31. On cherche à garder le même rapport de valeurs entre les positions pour toute la classe. Ainsi, 20 − 10 Me − 10 = . 38 − 22 31 − 22 En isolant Me, on obtient Me = 15.6. 3. La moyenne La moyenne est la mesure de tendance centrale la plus connue. On la note x̄ ou µ selon si les données correspondent à un échantillon ou une population. Regardons la définition générale de la moyenne. Définition 7.2 (Moyenne). Soit une série de n données x1 , x2 , x3 , ..., xn . La moyenne de cette distribution est donnée par la formule x̄ = x1 + x2 + x3 + ... + xn . n On écrit souvent la moyenne sous une forme abrégée x̄ = X 1 n xk . n k=1 Exemple 7.10. Trouver la moyenne de la série de 25 données suivante : 2, 4, 3, 4, 2, 4, 3, 5, 5, 4, 3, 5, 5, 4, 5, 4, 3, 2, 3, 4, 5, 3, 5, 4, 3. x1 + x2 + x3 + ... + xn n x1 + x2 + x3 + ... + x25 = 25 1 = (2 + 4 + 3 + 4 + 2 + 4 + 3 + 5 + 5 + 4 + 3 25 + 5 + 5 + 4 + 5 + 4 + 3 + 2 + 3 + 4 + 5 + 3 + 5 + 4 + 3) 95 = 25 =3.76 x̄ = 3. LA MOYENNE 33 3.1. Moyenne de données regroupées par valeurs. Lorsque les données sont groupées par valeurs, on calcule la moyenne à l’aide de la formule suivante : X 1 k v1 f1 + v2 f2 + ... + vk fk x̄ = vi fi = , n i=1 n où – – – – vi est la i-ème valeur fi est la fréquence de la i-ème valeur k est le nombre de valeurs possibles n est le nombre de données Exemple 7.11. Trouvons la moyenne des résultats présentés dans le tableau suivant : Note obtenue à un mini-test Fréquences 2 3 3 7 4 8 5 7 Total 25 v1 f1 + v2 f2 + ... + vk fk n 2×3+3×7+4×8+5×7 = 25 = 3.76 x̄ = 3.2. Moyenne de données regroupées par classes. Lorsque les données sont regroupées en classes, on ne connaît pas la valeur de la variable pour chaque fréquence. On prend alors le milieu de la classe. La moyenne est obtenue avec la formule suivante : x̄ = X m1 f1 + m2 f2 + ... + mk fk 1 k mi fi = , n i=1 n où – – – – mi est le milieu de la i-ème classe fi est la fréquence de la i-ème classe k est le nombre de classes n est le nombre de données Exemple 7.12. Trouvons le temps moyen de règne des monarques de l’Angleterre. On cherche µ, car c’est une population. 34 7. LES MESURES DE TENDANCE CENTRALE Tab. 6. Répartitions des monarques d’Angleterre (roi ou reine) selon la durée de leur règne, 827-1952. Durée du règne Nombre de monarques 0-10 22 10-20 16 20-30 11 30-40 7 40-50 1 50-60 3 60-70 1 Total 61 Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70. m1 f1 + m2 f2 + ... + m7 f7 N 5 × 22 + 15 × 16 + 25 × 11 + 35 × 7 + 45 × 1 + 55 × 3 + 65 × 1 = 61 1145 = 61 = 18.8 ans µ=