Module 105 105.4 Intervalle de confiance de la moyenne 105.4.1

Transcription

Module 105 105.4 Intervalle de confiance de la moyenne 105.4.1
Module 105
105.4 Intervalle de confiance de la moyenne
105.4.1
Principe
Plaçons-nous dans la situation la plus courante où se trouve l’expérimentateur.
2
Après son expérience, il dispose des statistiques Mx et S calculées sur base d’un
échantillon de valeurs indépendantes, prélevé dans une population de paramètres
inconnus. Son objectif est de préciser le mieux possible ces paramètres.
Sur un échantillon de 5 dosages de MCHC8, on obtient les statistiques Mx =
2
30 g/dl et S = 20 (g/dl)2. La variable mesurée est supposée normale : X v.a.
N(µ,σ2). Que peut-on dire au sujet de la moyenne réelle de MCHC dans ces
échantillons de sang ?
A priori, l’expérimentateur doit savoir que le paramètre µ ne vaut pas
exactement 30 g/dl. Il peut cependant affirmer que la probabilité est grande que
µ = 30 g/dl ± une certaine imprécision (ε).
La distribution d’échantillonnage de Mx est une variable normale de moyenne
µ, prenant théoriquement des valeurs comprises entre ± ∞. Limiter l’intervalle à µ ± ε
implique d’accepter que certaines valeurs de Mx sortiront parfois de l’intervalle. Ce
risque d’erreur est α ( petite incertitude) Si α = 0, ε=± ∞ (imprécision infinie).
Plus l’incertitude est grande, plus l’imprécision est petite (Figure 10-1 A), et
réciproquement (Figure 10-1 B).
On ne peut donc fixer ε que pour une probabilité 1-α donnée.
8
MCHC : mean cell hemoglobin concentration, concentration moyenne en hémoglobine dans le sang.
La fourchette normale est de 32 – 36 g/dl.
148
Module 105
0,4
F
D
P
0,4
F
D
P
0,2
-#
1-!="
95%"
"
0,2
-#
+#"
0,0
-4
-3
-2
-1
+0
+1
+2
+3
+4
z
1-!="
99%"
"
+#"
0,0
-4
-3
-2
A
-1
+0
+1
+2
+3
+4
z
B
Figure 105-1. Distribution d’échantillonnage de Mx standardisée.
P(Mx = µ ± ε) = (1-α) . Relation entre l’incertitude (A : α = 5 %, B : α = 1 %) et
l’imprécision de la fourchette (± ε)
105.4.2
Technique
La détermination de ε dépend de la distribution d’échantillonnage. Pour
déterminer l’intervalle à la moyenne (v.a. Normale suivant le théorème central limite),
lorsque la variance de la population est estimée par S2, la variable à considérer est
un t de Student.
tn!1;1! " =
Mx1!" ! µ
S
2
tn!1;" =
2
2
n
Mx" ! µ
S
2
n
=
=
#
S
n
!#
S
n
±! = tn!1;1!" S
2
n
Équation 105-1
149
Module 105
Dans notre exemple de dosages de MCHC n = 5 : t a 4 degrés de liberté (d.l.)
La borne supérieure se trouve dans les tables : t4 ;0,975 = 2,78
! = 2, 78 20 = 5, 6!!!!!!!!lim!sup =!30 + 5, 6 = 35, 6
5
De la même façon, on trouvera la borne inférieure en utilisant t4 ;0,025 = -t4 ;0,975
= -2,78, ce qui donne lim inf = 30 -5,6 = 24,4.
Revoyons graphiquement la signification des valeurs obtenues :
0,15!
F
D
P
!
0,10!
0,05!
0,00!
µ - 5,6
µ
!
µ + 5,6
Figure 105-2. Distribution d’échantillonnage de MX centré sur µ; intervalle de
confiance de 95 %, ε = 5,6.
La distribution d’échantillonnage de Mx ne précise pas de valeurs en abscisse car µ
est inconnu. Ce que l’on sait est que ε = 5,6.
150
Module 105
0,15!
F
D
P
!
24,4
+
5,6= 30 !
!
0,10!
0,05!
0,00!
20!
25!
30!
35!
40!
Figure 105-3. Distribution d’échantillonnage de Mx centrée sur une moyenne µ
minimale de 24,4. Intervalle de confiance de µ centré sur Mx = 30 (1 - α = 95%).
Imaginons que la moyenne observée (30) soit la moyenne la plus grande que l’on ait
pu observer. Dans ce cas, la valeur la plus petite que l’on puisse considérer pour µ
est 30 - 5,6 = 24,4
0,15!
F
D
P
!
25,6
-
5,6= 30 !
!
0,10!
0,05!
0,00!
20!
25!
30!
35!
40!
Figure 105-4. Distribution d’échantillonnage de Mx centrée sur une moyenne vraie
maximale de 35,6. Intervalle de confiance de µ centré sur Mx = 30 (1 - α = 95%).
A l’inverse si 30 est la plus petite que l’on ait pu observer , la valeur la plus
grande que l’on puisse considérer pour µ est 30 + 5,6 = 35,6.
Au-delà de ces limites de la zone de probabilité 95 %, on entre dans des zones
improbables, non considérées.
151
Module 105
105.4.3
L’intervalle de confiance peut réserver des surprises
L’intervalle de confiance peut être nettement plus grand que celui que l’on estimerait
intuitivement.
Un médecin obtient pour une patiente une mesure de glucose de 1,5 g/l sang
et trouve cette valeur élevée. Il fait refaire une analyse indépendante et obtient
1,1 g/l (moyenne = 1,3 ; S = 0,28 g/l). S’il ne disposait d’aucune autre valeur
de variance que celle obtenue à partir de ces deux mesures, que peut-il dire
de la moyenne réelle µ de ce patient?
! = t1;0,975 S
n
= 12, 71! 0, 28
2
= 2, 54
µ = Mx ± ε = 1,3 ± 2,54
Les échantillons contiendraient dans 95 % des cas une moyenne comprise,
avec une confiance de 95%, entre -1,24 et 3,84 g/l ( ! !).
Par contre, sil est informé que la glycémie est considérée normale si elle est
comprise entre 0,74 g/l et 1,06 g/l9 soit ≈ µ ± 2σ il pourra en déduire une
valeur de σ assez fiable de 0,16/2 = 0,08 g/l et estimer que µ = Mx ± ε = 1,3 ±
0,11 soit comprise, avec une confiance de 95%, entre 1,19 g/l et 1,41 g/l.
De l’exemple précédent, notons que si n est petit, l’imprécision de l’estimation
de S influence fortement l’imprécision de l’intervalle de confiance. A partir de
quelques observations, un intervalle de confiance peut toutefois donner une
estimation relativement précise d’une population tout à fait inconnue :
Sur 5 cultures dans un nouveau fermenteur10 un pharmacien travaillant en
industrie obtient un rendement de 78, 74, 75, 72, 73 %. Que peut-il dire avec
une confiance de 95% du rendement moyen réel µ du fermenteur ?
Mx = 74,75 ; Sx = 2,3
1−α = 95 %
Tables : t4 ;0,975 = 2,78
! = t4;0,975 S
n
= 2, 78 ! 2, 3
5
= 2,86
µ = Mx ± ε = 74,75 ± 2,86 et donc est µ compris entre 71,54 et 77,26
9
http://fr.wikipedia.org/wiki/Glycémie consulté le 31/3/13
Fermenteur : cuve pouvant atteindre une capacité de plusieurs milliers de litres et permettant la
fermentation de micro-organismes dans un milieu parfaitement contrôlé. Utilisé en brasserie et dans
de nombreuses applications bio-technologiques.
10
152