Échantillonnage - Estimation

Transcription

Échantillonnage - Estimation
Échantillonnage - Estimation
1
Fluctuation d’échantillons
L’échantillonnage est l’étude des liens existants entre les paramètres, moyenne ou fréquence, des échantillons prélevés dans une population et ceux de la population elle-même.
1 1 Position du problème
Dans une population donnée, on connaît la fréquence f d’un
caractère.
On répète n fois, de façon indépendante, le choix d’un individu
dans cette population de façon à constituer un échantillon de
taille n.
On aimerait alors connaître, ou du moins estimer, sur cet
échantillon, la fréquence f 0 du caractère.
Population
fréquence f
Echantillonnage
(déduction)
Echantillon
fréquence f 0
taille n
Si Xn est la variable aléatoire égale au nombre de personnes possédant le caractère étudié dans notre
échantillon, Xn suit alors une loi binomiale B(n; f ).
Xn
.
On cherche donc à estimer la fréquence f 0 =
n
Définition 1
1 2 Intervalle de fluctuation
Lorsqu’on répète n fois la même expérience aléatoire, on obtient une série de n succès ou échecs que
l’on appelle échantillon de taille n.
Si on réalise plusieurs échantillons de même taille, les fréquences de succès ou d’échecs calculées
pour chaque échantillon varient d’un échantillon à l’autre.
Ce phénomène s’appelle la fluctuation d’échantillonnage.
Exemple. On lance une pièce bien équilibrée (donc, la probabilité d’obtention des événements "Pile" et
"Face" sont égales à p = 0,5) 100 fois successivement :
54
= 0,54 ;
100
41
= 0,41 ;
– pour une 2e série de 100 lancers, on obtient 41 fois "Pile", soit une fréquence f 0 =
100
– pour une 3e série . . .
– pour une 1re série de 100 lancers, on obtient 54 fois "Pile", soit une fréquence f 0 =
Bien que ce phénomène soit aléatoire, on sait que, d’après la loi des grands nombres, plus la taille des
échantillons augmente, plus les fréquences observées se rapprochent, ou se stabilisent autour, d’une valeur
limite f 0 = p = 0,5.
Dans l’exemple précédent, on sait que même si le nombre de succès varie d’une expérience à l’autre, il
sera rare (c’est-à-dire la probabilité sera faible) d’avoir une fréquence de "Pile" très faible ou très grande
(disons, par exemple, inférieure à 0,1 ou supérieure à 0,9).
La notion d’intervalle de fluctuation permet de quantifier ce phénomène : la fréquence de succès calculée
sur un échantillon de taille n donné est comprise, avec une certaine probabilité, dans un intervalle de valeurs,
http://lycee.lagrave.free.fr
1
TS. Échantillonnage - Estimation
Définition 2
ou intervalle de fluctuation.
Soit X une variable aléatoire qui suit la loi binomiale B(n; p) et 0 < α < 1.
Dire que [a ; b] est un intervalle de fluctuation au seuil 1 − α signifie que
P (a 6 X 6 b) = 1 − α
Soit Xn une variable aléatoire suivant la loi binomiale B(n; p), alors pour tout α ∈]0; 1[, on a
Xn
lim P
∈ In = 1 − α
n→+∞
n
Propriété 1
où In désigne l’intervalle
"
#
p
p
p(1 − p)
p(1 − p)
√
√
p − uα
; p + uα
n
n
avec uα le nombre tel que, si X suit la loi normale N (0; 1),
P (−uα 6 X 6 uα ) = 1 − α
L’intervalle In s’appelle l’intervalle de fluctuation asymptotique au seuil 1 − α.
Preuve. Si Xn suit la loi binomiale B(n; p), alors d’après le théorème de Moivre-Laplace, pour n assez
p
Xn
grand, Xn suit approximativement la loi normale N (np; np(1 − p)), et donc, la variable aléatoire
suit
!
r n
p
np(1 − p)
np
p(1 − p)
approximativement la loi normale N
;
, soit la loi normale N (p; σ), avec σ =
.
n
n
n
Xn
On cherche alors δ tel que P p − δ 6
6 p + δ = 1 − α.
n
Xn
à une variable suivant la loi normale réduite N (0; 1) :
En ramenant la variable
n


Xn
−
p
δ
 δ
P − 6 n
6 =1−α
σ
σ
σ
Xn
−p
La variable aléatoire X = n
suit une loi normale centrée réduite N (0; 1), et on sait donc qu’il existe
σ
un unique nombre uα tel que
P (−uα 6 X 6 uα ) = 1 − α .
δ
Le théorème est donc vérifié pour
= uα , soit δ = uα σ = uα
σ
grand,
Xn
P
∈ In = 1 − α
n
r
p(1 − p)
, et on a donc, pour n assez
n
♣
En pratique, la variable aléatoire Xn désigne le nombre succès, c’est-à-dire le nombre d’individus posséXn
dant le caractère étudié, dans l’échantillon de taille n formé, et alors f 0 =
est la fréquence de caractère
n
dans l’échantillon.
Cette propriété fournit donc un intervalle In de fluctuation au seuil α.
2
http://lycee.lagrave.free.fr
TS. Échantillonnage - Estimation
1 3 Calcul pratique de l’intervalle de fluctuation
Avec les valeurs approchées, u0,05 ' 1,96 et u0,01 ' 2,58, on peut préciser les intervalles de fluctuation les
plus utilisés, au seuil de 95 % et au seuil de 99 % :
Corollaire 1
Si n > 30, np > 5 et n(1 − p) > 5, alors,
• l’intervalle de fluctuation au seuil de 95% est environ :
"
#
p
p
p(1 − p)
p(1 − p)
√
√
p − 1,96
; p + 1,96
n
n
• l’intervalle de fluctuation au seuil de 99% est environ :
"
#
p
p
p(1 − p)
p(1 − p)
√
√
p − 2,58
; p + 2,58
n
n
Exemple. On lance une pièce de monnaie bien équilibrée 100 fois successivement, et on compte le nombre
de tirages "Pile".
Ce phénomène étant aléatoire, on peut s’attendre à obtenir un nombre quelconque de tirages "Pile"
compris entre 0 et 100.
Néanmoins, on imagine bien que, la pièce étant équilibrée, obtenir un faible nombre (par exemple, inférieur
à 10) ou un fort nombre (par exemple, supérieur à 90) de "Pile" sera rare.
L’intervalle de fluctuation permet de préciser cela.
La probabilité d’obtenir "Pile" sur un lancé est p = 0,5 et donc de ne pas l’obtenir : q = 1 − p = 0,5.
Les lancés successifs de la pièce étant identiques et indépendants entre eux, la variable aléatoire X100 , qui
au n = 100 lancers associe le nombre d’obtention de "Pile", suit la loi B(100; 0,5).
On a ici, n = 100 > 30 et np = n(1 − p) = 50 > 5, et donc, d’après la propriété précédente, l’intervalle
X100
de fluctuation au seuil de 95 % de la variable aléatoire
(le nombre moyen de "Pile" obtenus, ou encore
100
la fréquence de "Pile" sur les 100 lancers) est :
p
p − 1,96
p
p(1 − p)
p(1 − p)
√
√
; p + 1,96
n
n
√
√
0,5 × 0,5
0,5 × 0,5
√
√
= 0,5 − 1,96
; 0,5 + 1,96
100
100
' [ 0,5 − 0,098 ; 0,5 + 0,098 ]
= [ 0,402 ; 0,598 ]
Dans 95% des cas, la fréquence f 0 de "Pile" obtenue sera dans l’intervalle [0,402 ; 0,598].
De la même façon, l’intervalle de fluctuation au seuil de 99% est :
"
#
p
p
p(1 − p)
p(1 − p)
√
√
p − 2,58
; p + 2,58
' [0,5 − 0,129 ; 0,5 + 0,129]
n
n
= [0,371 ; 0,629]
Dans 99% des cas, la fréquence f 0 de "Pile" obtenue sur ces 100 lancés sera comprise entre 0,371 et 0,629.
http://lycee.lagrave.free.fr
3
TS. Échantillonnage - Estimation
Corollaire 2
Si n > 30, np > 5 et n(1 − p) > 5, l’intervalle de fluctuation au seuil de 95% peut-être approximé
par l’intervalle
1
1
p− √ ; p+ √
n
n
Preuve. L’intervalle de fluctuation au seuil de 95%, d’après le théorème précédent est, avec α = 5% = 0,05
"
p
p − u0,05
p(1 − p)
√
; p + u0,05
n
#
p
p(1 − p)
√
n
où u0,05 est le nombre tel que si X suit la loi normale centrée réduite N (0; 1),
P (−u0,05 6 X 6 u0,05 ) = 1 − 0,05 = 0,95 = 95%
On sait que u0,05 ' 1,96, et donc que l’intervalle de fluctuation au seuil de 95% est :
"
p
p − 1,96
p(1 − p)
√
; p + 1,96
n
p
p(1 − p)
√
n
#
De plus, soit f : p 7→ p(1 − p), pour p ∈ [0; 1], alors f est une fonction trinôme du second degré dont le
sens de variation est :
d’où, la fonction racine carrée étant croissante :
p
0
1
2
1
4
f (p)
0
p
1
p
0
1
1
2
p(1 − p)
0
1
2
0
0
et donc, pour tout p ∈ [0; 1],
p
1
1,96 p(1 − p) 6 1,96 × < 1
2
On a donc, pour tout p ∈ [0; 1],
"
# p
p
p(1 − p)
p(1 − p)
1
1
√
√
p − 1,96
; p + 1,96
⊂ p− √ ; p+ √
n
n
n
n
♣
Exemple. Avec les données de l’exemple précédent, l’intervalle de fluctuation approché au seuil de 95% est
alors :
1
1
1
1
p− √ ; p+ √
= 0,5 − √
; 0,5 + √
' [0,4 ; 0,6]
n
n
100
100
En comparant avec les résultats obtenus précédemment pour l’intervalle de fluctuation au seuil de 95%, on
commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approchée.
4
http://lycee.lagrave.free.fr
TS. Échantillonnage - Estimation
1 4 Exemple
Selon l’Institut national des études démographiques (INED), il naît normalement 105 garçons pour 100
105
' 0,51.
filles, soit une proportion de garçons p =
205
Aux abords d’une ville est venue s’implanter, il y a cinq ans, une usine chimique. La toxicité des substances
manipulées et produites par cette usine est depuis grandement source de polémique.
Dans la maternité de cette ville, sont nés depuis ces cinq dernières années 693 enfants, dont "seulement"
332 garçons. Les opposants à cette usine citent cette "faible" quantité de naissances de garçons comme une
conséquence néfaste de l’exploitation de cette usine.
Ont-ils raison ?
Le sexe d’un enfant à sa naissance est aléatoire. Ainsi, il est envisageable, en théorie, de n’avoir aucun
garçon né parmi les 693 naissances, tout comme il serait envisageable d’avoir vu naître 693 garçons. Ces cas
extrêmes sont néanmoins peu probables.
L’intervalle de fluctuation permet de préciser, et quantifier, cette idée de "peu probable". En effet, dans
95% des cas de 693 naissances, la proportion de garçons nés sera comprise dans l’intervalle :
I=
Ici, la proportion d’enfants de garçons nés depuis les cinq dernières années est : f 0 = . . .
Comme f 0 ∈ I, ce "faible" nombre de naissance de garçons s’explique, au seuil de 95%, par les fluctuations
aléatoires des naissances de garçons/filles.
L’usine ne peut être incriminée dans ces observations.
Remarque. Dans le cas où on aurait eu f 0 ∈
/ I, il faut toutefois rester prudent : au seuil de fluctuation
de 95%, les fluctuations aléatoires des naissances ne permettraient pas d’expliquer ce faible nombre de
naissances de garçons ; néanmoins, cela ne signifierait pas directement que l’usine est en cause, pas plus
que probablement un certain nombre d’autres paramètres. Une étude statistique (ici épidémiologique) plus
poussée serait nécessaire pour aboutir à une telle conclusion.
1 D’après les lois génétiques de Mendel, certains croisement de différentes variétés de pois devraient
donner des pois jaunes et verts dans une proportion égale à 3 pour 1.
Lors d’une expérience, on a obtenu un échantillon, que l’on peut considérer comme aléatoire, présentant
176 pois jaunes et 48 pois verts.
Ces résultats sont-ils cohérents avec la théorie de Mendel ?
2 Deux entreprise A et B recrutent leur personnel dans un bassin d’emploi où il y a autant d’hommes
que de femmes.
L’entreprise A emploie 60 personnes dont 26 femmes, tandis que l’entreprise B emploie 1050 personnes
dont 480 femmes.
1. Calculer les proportions de femmes employées dans chaque entreprise.
Laquelle de ces deux entreprises semble au mieux respecter la parité homme-femme ?
2. Déterminer pour chaque entreprise l’intervalle de fluctuation au seuil de 95 % de la proportion de femmes
employées.
Les deux entreprises respectent-elles la parité au seuil d’erreur de 5 % ?
http://lycee.lagrave.free.fr
5
TS. Échantillonnage - Estimation
2
Estimation
L’estimation, ou inférence, statistique consiste à essayer de déterminer les caractéristiques d’une population en ne connaissant des informations que sur un échantillon la composant.
Un des exemples les plus médiatisés de nos jours est celui de sondage : en interrogeant un faible nombre
de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions de vote de la
population constituée par tous les électeurs.
Le journaliste et statisticien américain Georges Gallup a réussi à prédire en 1936 l’élection de Franklin
Roosevelt contre Alfred Landon : les instituts de sondage étaient nés.
2 1 Position du problème
Population
Dans une population donnée, on connaît la fréquence f 0 d’un Inférence
caractère d’un échantillon aléatoire de la population complète. (induction)
À partir de la connaissance de cette fréquence empirique f 0 ,
on souhaite estimer la fréquence f de ce caractère dans toute
la population.
fréquence f
Echantillon
taille n
fréquence
empirique f 0
On constitue un échantillon en prélevant aléatoirement et successivement n individus dans la population
globale.
Chacun de ces n individus a la probabilité f de posséder le caractère étudié.
Si l’effectif de cette population est assez important, ces tirages successifs peuvent être considérés comme
étant avec remise et donc indépendants entre eux. La constitution d’un tel échantillon de taille n correspond
donc à un schéma de Bernoulli.
Si on note alors X la variable aléatoire égale au nombre d’individus dans l’échantillon qui ont le caractère
étudié, alors X suit une loi binomiale B(n; f ) de paramètres n et f .
C’est justement la connaissance et l’utilisation de cette loi binomiale, et de son approximation par une
loi normale, qui permet de donner un intervalle dans lequel on peut s’attendre à trouver la fréquence f
connaissant celle, f 0 , dans l’échantillon.
2 2 Intervalle de confiance
Propriété 2
On considère la variable aléatoire X qui à tout échantillon de taille n associe le nombre d’individus
X
possédant le caractère étudié. On suppose que X suit une loi binomiale B(n,f ), et on note f 0 =
la
n
fréquence du caractère dans l’échantillon.
Alors, pour n assez grand, l’intervalle
1
1
In = f 0 − √ ; f 0 + √
.
n
n
contient la fréquence f du caractère dans la population avec une probabilité supérieure ou égale à 0,95.
L’intervalle In s’appelle l’intervalle au niveau de confiance de 95 %.
X
Preuve. La fréquence f 0 du caractère dans l’échantillon est une valeur prise par la variable aléatoire . Elle
n
1
1
est ou n’est pas dans l’intervalle f − √ ; f + √ , mais on sait que 95 % des fréquences des échantillons
n
n
6
http://lycee.lagrave.free.fr
TS. Échantillonnage - Estimation
sont dans cet intervalle. De plus,
1
1
f ∈ f0 − √ ; f0 + √
n
n
1
1
⇐⇒ f 0 − √ 6 f 6 f 0 + √
n
n

1
1
0


 f >f−√
 f0 + √ > f
n
n
⇐⇒
⇐⇒
1
1


0
0
 f 6f+√
 f −√ 6f
n
n
1
1
1
1
Et on a donc, f 0 ∈ f − √ ; f + √
⇐⇒ f ∈ f 0 − √ ; f 0 + √ .
n
n
n
n 1
1
0
0
Ainsi, f sera dans 95 % des intervalles du type In = f − √ ; f + √ .
n
n
♣
Exemple. Dans un village, lors d’un sondage effectué un mois avant le scrutin auprès de 200 personnes
choisies de façon aléatoire, 109 personnes se déclarent favorables au candidat A.
La proportion d’électeurs favorables dans l’échantillon sondé est : p0 = . . .
L’intervalle de confiance au niveau de 95 % de la proportion p d’électeurs qui vont voter pour le candidat A
est :
I=
On peut donc estimer, avec un niveau de confiance de 95 %, à partir du sondage
effectué sur
h
i 200 personnes,
que le score du candidat A aux prochaines élections sera dans la fourchette
;
En particulier, à partir de ce sondage, le candidat A ne peut pas en conclure qu’il sera élu car, au niveau
de confiance de 95 %, il n’est pas exclu que la proportion de ses électeurs soit dans l’intervalle [47,4 % ; 50 %[,
et donc inférieure à 50 %.
3 Avant le premier tour de l’élection présidentielle de 2002 un sondage IPSOS, réalisé auprès de 989
personnes constituant un échantillon national représentatif de la population française inscrite sur les listes
électorales, annonçait les intentions de vote suivantes :
20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.
Les médias se préparaient donc pour un second tour entre J. Chirac et L. Jospin.
Le résultat réel des votes à ce premier tour a alors surpris bien des personnes . . .
1. Déterminer, pour chaque candidat, l’intervalle de confiance au niveau de confiance de 0,95 de la proportion d’électeurs ayant eu l’intention de voter pour lui.
2. Les résultats à l’issue du premier tour ont été les suivants :
19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.
Ces pourcentages sont-ils en accord avec les calculs précédents ?
3. Pouvait-on, au vu de ce sondage, écarter avec un niveau de confiance de 0,95, l’un de ces trois candidats ?
2 3 Dimensionnement des échantillons
Le paragraphe précédent donne un intervalle au niveau de confiance de 95 %. Dans l’exemple précédent,
cet intervalle se trouve être au final trop "large" pour pouvoir en tirer une conclusion.
En sondant un échantillon nettement plus important (plus de 200 personnes), cet intervalle aurait pu
être restreint.
Quand on cherche la taille de l’échantillon à sonder, deux éléments sont en concurrence :
– si la taille de l’échantillon est trop faible, la fourchette obtenue est large, et l’information peut donc
manquer de pertinence ;
– on souhaite ne pas avoir à sonder des échantillons de taille trop importante, afin de diminuer le coût
de l’étude.
On cherche donc la taille minimale de l’échantillon à étudier pour pouvoir aboutir à une conclusion.
http://lycee.lagrave.free.fr
7
TS. Échantillonnage - Estimation
Exemple. On reprend les données de l’exemple précédent. L’intervalle de confiance au seuil de 95 % est :
1
1
1
1
0
0
p −√ ;p +√
= 0,545 − √ ; 0,545 + √
n
n
n
n
On souhaite, avec un niveau de confiance de 95 %, réduire cette fourchette à un intervalle ne contenant pas
50 %.
Il faut pour cela que :
1
0,545 − √ > 0,5
n
1
⇐⇒ 0,545 − 0,5 > √
n
√
1
6 n
⇐⇒
0,045 2
1
6n
⇐⇒
0,045
⇐⇒ n > 494
Il faudrait donc choisir un échantillon aléatoire constitué d’au moins 494 personnes.
4 Un laboratoire pharmaceutique met en place un test pour estimer l’efficacité d’un nouveau médicament
contre les migraines.
Deux groupes de 125 patients souffrant de migraines, considérés comme des échantillons aléatoires, participent à ce test.
On administre aux patients du groupe A le nouveau médicament, tandis que les patients du groupe B
reçoivent un placebo.
Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B déclarent ressentir
une diminution de l’intensité de leurs migraines.
1. Déterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients
déclarant ressentir une diminution de l’intensité de leurs migraines, dans chaque échantillon.
2. Les intervalles de confiance permettent-ils, au niveau de confiance 0,95 de considérer que le médicament
est plus efficace que le placebo ?
3. Quelle devrait-être la taille minimale de chaque échantillon pour que, avec des proportions identiques
à celles observées précédemment, les résultats confirment l’efficacité du médicament, au niveau de
confiance 0,95.
5
Un magasin s’apprête à commercialiser deux modèles d’un même produit : le modèle A et le modèle B.
Une enquête préalable à la commande des produits par le magasin a montré que dans une ville 63 %
des 400 personnes interrogées préfèrent le modèle A, et que dans une seconde ville, 69 % des 500 personnes
interrogées préfèrent le modèle A.
Peut-on considérer, au niveau de confiance de 95 % qu’il y a une différence de préférence entre les personnes
des deux villes ?
Quelle proportion de modèle A commanderiez-vous ?
6 Dans une expérience de perception extra-sensorielle on demande à un sujet d’indiquer la couleur d’un
jeton tiré aléatoirement dans un sac par un expérimentateur placé dans une autre pièce. Ni le sujet, ni
l’expérimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.
On choisit la règle de décision suivante : si le pourcentage de couleurs devinées correctement appartient
à l’intervalle de fluctuation autour de 50 % à un certain seuil fixé à l’avance, on considère que le sujet n’a
pas de don de perception extra-sensorielle, sinon on considère qu’il a un don.
Un sujet fait le test, et identifie correctement la couleur de 32 jetons sur 50 essais.
Appliquer la règle de décision aux seuils de 95 %, puis de 99 %.
8
http://lycee.lagrave.free.fr