Chapitre 7

Transcription

Chapitre 7
26
CHAPITRE 7
Les mesures de tendance centrale
Les mesures de tendance centrale servent à caractériser une série
statistique à l’aide d’une valeur ou d’une modalité typique. Il existe
trois mesures possibles : le mode, la médiane et la moyenne.
1. Le mode
1.1. Introduction au mode. Débutons par la définition du mode
d’une distribution.
Définition 7.1 (Le mode). Le mode d’une série de données correspond à la valeur ou à la modalité la plus fréquente. On note le mode
par Mo. Cette mesure est valide pour les variables qualitatives et quantitatives et pour tous les types d’échelle de mesure.
Regardons un exemple.
Exemple 7.1. Soit le tableau suivant : Ici, Mo est Carla Bruni,
Tab. 1. Répartitions, en pourcentage, des votes aux
élections municipales.
Candidat
Pourcentage des votes (% )
Joël Allard
13
Carla Bruni
45
Jules Verne
24
Richard Zetnik
18
Total
100
car c’est la modalité qui possède la plus grande fréquence.
1.2. Variables regroupées en classes. Lorsque les données sont
regroupées en classe, il est plus difficile de parler du mode. On déterminera alors la classe modale. Celle-ci correspond à la classe possédant la
plus grande fréquence. Il faut cependant s’assurer que toutes les classes
sont de la même dimension, sinon la classe modale n’est pas représentative. Dans le cas où il y a une classe ouverte, il n’y a habituellement
aucun problème, car il s’agit de cas marginaux.
27
28
7. LES MESURES DE TENDANCE CENTRALE
Exemple 7.2. Soit le tableau suivant :
Tab. 2. Répartitions des monarques d’Angleterre (roi
ou reine) selon la durée de leur règne, 827-1952.
Durée du règne Nombre de monarques
0-10
22
10-20
16
20-30
11
30-40
7
40-50
1
50-60
3
60-...
1
Total
61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.
Ici, la classe modale est 0 − 10.
Si l’on est vraiment déterminé à calculer le mode, on peut prendre
le milieu de la classe modale, c’est-à-dire que Mo = 5 dans le dernier
exemple.
1.3. Variables sans mode. Il faut cependant faire attention avec
la représentativité du mode. L’exemple suivant démontrera ce que nous
voulons dire.
Exemple 7.3. Soit les résultats suivants : Si l’on se fie à la déTab. 3. Répartitions des 135 étudiants du cours de Méthodes quantitatives H08 selon leur jour de naissance.
Jours
Nombre de monarques
Lundi
18
Mardi
20
Mercredi
22
Jeudi
19
Vendredi
20
Samedi
17
Dimanche
19
Total
135
Source : La tête du prof ! !
finition du monde, nous avons que Mo = Mercredi. Par contre, on
ne peut pas vraiment affirmer que c’est la modalité qui revient le plus
2. LA MÉDIANE
29
souvent puisqu’elle ne se distingue pas des autres. On remarque que les
fréquences sont assez uniformément distribuées.
Dans le cas où le mode n’est pas révélateur, on dit que la variable
n’a pas de mode.
1.4. Distribution bimodale. Une distribution est dite bimodale
si sa variable possède deux modalités ou valeurs qui se distinguent des
autres en terme de fréquences.
Exemple 7.4. Voici la distribution des étudiants d’un cours selon
la note de leur devoir. On remarque que le nombre d’étudiants ayant
Répartition des notes d’un devoir de 50 étudiants du cours de méthodes quantitatives
15
14
13
12
11
Fréquence
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Note
Fig. 1. Exemple de distribution bimodale.
obtenus un 9 est supérieur aux autres. Par contre, le nombre d’étudiants ayant obtenus un 4 est sensiblement le même. Ces deux valeurs
se démarquent des autres notes. On a donc deux modes, soit 4 et 9.
2. La médiane
Pour trouver la médiane, nous devons placer les valeurs ou les modalités en ordre croissant. Ainsi, cette mesure n’est pas valide pour des
variables à échelle nominale, car il n’y a pas d’ordre dans les modalités.
La médiane correspond à la modalité ou la valeur qui divise la distribution en deux, c’est-à-dire qu’il y a la même fréquence à gauche et à
droite de la médiane. Regardons comment déterminer cette mesure.
30
7. LES MESURES DE TENDANCE CENTRALE
2.1. Médiane pour une variable qualitative ordinale. Pour
déterminer la valeur de la médiane, il faut tout d’abord placer les résultats en ordre croissant. Par la suite, on trouve la position de la médiane.
Celle-ci est n2 si n est pair et n+1
si n est impair (n étant le nombre de
2
données).
Exemple 7.5. On a demandé à 25 personnes la qualité de la nourriture servie à la cafétéria. Les gens utilisaient une échelle de 1 à 5, 5
étant Excellente et 1 Médiocre. Voici la série de résultats :
2, 4, 3, 4, 2, 4, 3, 5, 5, 4, 3, 5, 5, 4, 5, 4, 3, 2, 3, 4, 5, 3, 5, 4, 3
Puisque n = 25, la position de la médiane se trouve à la position
13 des données placées en ordre croissant.
25+1
2
=
|{z}
2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4 , 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5
13e
Ainsi, la médiane, notée Me, est Me = 4.
Exemple 7.6. Trouvons la médiane des données suivantes : Puisque
Tab. 4.
Répartition des répondants, selon le niveau d’aptitude à la lecture.
Niveau Nombre de répondants Cumulatif des répondants
1
17
17
2
23
40
3
55
95
4
155
250
Total
250
n = 250 est un nombre pair, la position de la médiane est donc 250/2 =
125. La donnée à la position 125 se trouve dans la quatrième classe d’où
Me = 4.
2.2. Médiane pour une variable quantitative. Le calcul de la
position de la valeur de la médiane est légèrement différent que celui
pour des variables qualitatives ordinales. Voici la règle :
n+1
Si n est impair: la position de la valeur médiane est
.
2
Si n est pair: la valeur de la médiane correspond à la moitié de
la somme des valeurs aux positions n2 et n2 + 1.
Regardons quelques exemples.
Exemple 7.7. Soit la série de 7 données suivante :
1, 2, 4, 6, 7, 13, 18
2. LA MÉDIANE
31
Trouvons la médiane. Puisque n est impair, la position de la médiane
n+1
est
= 4. La valeur à la 4e position est 6, d’où Me = 6.
2
Ajoutons une donnée à cette série et trouvons la médiane.
Exemple 7.8. Soit la série de 8 données suivante :
1, 2, 4, 6, 7, 9, 13, 18
Puisque n est pair, la médiane correspond à la moitié de la somme
des valeurs aux positions n/2 et n/2 + 1. Prenons donc les valeurs aux
positions 4 et 5, c’est-a-dire 6 et 7. D’où,
6+7
= 6.5
2
2.3. Médiane pour des variables regroupées en classes. La
technique pour déterminer la médiane lorsque les données sont regroupées en classes nécessite un peu de réflexion. Étudions la méthode à
l’aide d’un exemple.
Me =
Exemple 7.9. Trouvons la médiane des données suivantes :
Tab. 5. Répartitions des monarques d’Angleterre (roi
ou reine) selon la durée de leur règne, 827-1952.
Durée du règne Nombre de monarques Fréquences cumulées
0-10
22
22
10-20
16
38
20-30
11
49
30-40
7
56
40-50
1
57
50-60
3
60
60-...
1
61
Total
61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.
La première étape est de calculer la fréquence cumulée afin de déterminer la classe médiane, c’est-à-dire la classe qui contient la médiane. Ici,
il y a 61 données. Ainsi, la médiane se trouve à la position n+1
= 31.
2
Cette position se trouve dans la classe 10 − 20 que l’on nomme classe
médiane. Il reste à déterminer la médiane qui se trouve entre 10 et 20.
Pour se faire, il faut utiliser les proportions. On sait que la position
de la valeur 10 est plus petite que 22. De même, celle de la valeur de
20 est inférieur 38. On cherche la valeur de la donnée de la position
32
7. LES MESURES DE TENDANCE CENTRALE
31. On cherche à garder le même rapport de valeurs entre les positions
pour toute la classe. Ainsi,
20 − 10
Me − 10
=
.
38 − 22
31 − 22
En isolant Me, on obtient Me = 15.6.
3. La moyenne
La moyenne est la mesure de tendance centrale la plus connue. On
la note x̄ ou µ selon si les données correspondent à un échantillon ou
une population. Regardons la définition générale de la moyenne.
Définition 7.2 (Moyenne). Soit une série de n données
x1 , x2 , x3 , ..., xn .
La moyenne de cette distribution est donnée par la formule
x̄ =
x1 + x2 + x3 + ... + xn
.
n
On écrit souvent la moyenne sous une forme abrégée
x̄ =
X
1 n
xk .
n k=1
Exemple 7.10. Trouver la moyenne de la série de 25 données suivante :
2, 4, 3, 4, 2, 4, 3, 5, 5, 4, 3, 5, 5, 4, 5, 4, 3, 2, 3, 4, 5, 3, 5, 4, 3.
x1 + x2 + x3 + ... + xn
n
x1 + x2 + x3 + ... + x25
=
25
1
= (2 + 4 + 3 + 4 + 2 + 4 + 3 + 5 + 5 + 4 + 3
25
+ 5 + 5 + 4 + 5 + 4 + 3 + 2 + 3 + 4 + 5 + 3 + 5 + 4 + 3)
95
=
25
=3.76
x̄ =
3. LA MOYENNE
33
3.1. Moyenne de données regroupées par valeurs. Lorsque
les données sont groupées par valeurs, on calcule la moyenne à l’aide
de la formule suivante :
X
1 k
v1 f1 + v2 f2 + ... + vk fk
x̄ =
vi fi =
,
n i=1
n
où
–
–
–
–
vi est la i-ème valeur
fi est la fréquence de la i-ème valeur
k est le nombre de valeurs possibles
n est le nombre de données
Exemple 7.11. Trouvons la moyenne des résultats présentés dans
le tableau suivant :
Note obtenue à un mini-test Fréquences
2
3
3
7
4
8
5
7
Total
25
v1 f1 + v2 f2 + ... + vk fk
n
2×3+3×7+4×8+5×7
=
25
= 3.76
x̄ =
3.2. Moyenne de données regroupées par classes. Lorsque
les données sont regroupées en classes, on ne connaît pas la valeur de
la variable pour chaque fréquence. On prend alors le milieu de la classe.
La moyenne est obtenue avec la formule suivante :
x̄ =
X
m1 f1 + m2 f2 + ... + mk fk
1 k
mi fi =
,
n i=1
n
où
–
–
–
–
mi est le milieu de la i-ème classe
fi est la fréquence de la i-ème classe
k est le nombre de classes
n est le nombre de données
Exemple 7.12. Trouvons le temps moyen de règne des monarques
de l’Angleterre. On cherche µ, car c’est une population.
34
7. LES MESURES DE TENDANCE CENTRALE
Tab. 6. Répartitions des monarques d’Angleterre (roi
ou reine) selon la durée de leur règne, 827-1952.
Durée du règne Nombre de monarques
0-10
22
10-20
16
20-30
11
30-40
7
40-50
1
50-60
3
60-70
1
Total
61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.
m1 f1 + m2 f2 + ... + m7 f7
N
5 × 22 + 15 × 16 + 25 × 11 + 35 × 7 + 45 × 1 + 55 × 3 + 65 × 1
=
61
1145
=
61
= 18.8 ans
µ=