Module 105 105.4 Intervalle de confiance de la moyenne 105.4.1
Transcription
Module 105 105.4 Intervalle de confiance de la moyenne 105.4.1
Module 105 105.4 Intervalle de confiance de la moyenne 105.4.1 Principe Plaçons-nous dans la situation la plus courante où se trouve l’expérimentateur. 2 Après son expérience, il dispose des statistiques Mx et S calculées sur base d’un échantillon de valeurs indépendantes, prélevé dans une population de paramètres inconnus. Son objectif est de préciser le mieux possible ces paramètres. Sur un échantillon de 5 dosages de MCHC8, on obtient les statistiques Mx = 2 30 g/dl et S = 20 (g/dl)2. La variable mesurée est supposée normale : X v.a. N(µ,σ2). Que peut-on dire au sujet de la moyenne réelle de MCHC dans ces échantillons de sang ? A priori, l’expérimentateur doit savoir que le paramètre µ ne vaut pas exactement 30 g/dl. Il peut cependant affirmer que la probabilité est grande que µ = 30 g/dl ± une certaine imprécision (ε). La distribution d’échantillonnage de Mx est une variable normale de moyenne µ, prenant théoriquement des valeurs comprises entre ± ∞. Limiter l’intervalle à µ ± ε implique d’accepter que certaines valeurs de Mx sortiront parfois de l’intervalle. Ce risque d’erreur est α ( petite incertitude) Si α = 0, ε=± ∞ (imprécision infinie). Plus l’incertitude est grande, plus l’imprécision est petite (Figure 10-1 A), et réciproquement (Figure 10-1 B). On ne peut donc fixer ε que pour une probabilité 1-α donnée. 8 MCHC : mean cell hemoglobin concentration, concentration moyenne en hémoglobine dans le sang. La fourchette normale est de 32 – 36 g/dl. 148 Module 105 0,4 F D P 0,4 F D P 0,2 -# 1-!=" 95%" " 0,2 -# +#" 0,0 -4 -3 -2 -1 +0 +1 +2 +3 +4 z 1-!=" 99%" " +#" 0,0 -4 -3 -2 A -1 +0 +1 +2 +3 +4 z B Figure 105-1. Distribution d’échantillonnage de Mx standardisée. P(Mx = µ ± ε) = (1-α) . Relation entre l’incertitude (A : α = 5 %, B : α = 1 %) et l’imprécision de la fourchette (± ε) 105.4.2 Technique La détermination de ε dépend de la distribution d’échantillonnage. Pour déterminer l’intervalle à la moyenne (v.a. Normale suivant le théorème central limite), lorsque la variance de la population est estimée par S2, la variable à considérer est un t de Student. tn!1;1! " = Mx1!" ! µ S 2 tn!1;" = 2 2 n Mx" ! µ S 2 n = = # S n !# S n ±! = tn!1;1!" S 2 n Équation 105-1 149 Module 105 Dans notre exemple de dosages de MCHC n = 5 : t a 4 degrés de liberté (d.l.) La borne supérieure se trouve dans les tables : t4 ;0,975 = 2,78 ! = 2, 78 20 = 5, 6!!!!!!!!lim!sup =!30 + 5, 6 = 35, 6 5 De la même façon, on trouvera la borne inférieure en utilisant t4 ;0,025 = -t4 ;0,975 = -2,78, ce qui donne lim inf = 30 -5,6 = 24,4. Revoyons graphiquement la signification des valeurs obtenues : 0,15! F D P ! 0,10! 0,05! 0,00! µ - 5,6 µ ! µ + 5,6 Figure 105-2. Distribution d’échantillonnage de MX centré sur µ; intervalle de confiance de 95 %, ε = 5,6. La distribution d’échantillonnage de Mx ne précise pas de valeurs en abscisse car µ est inconnu. Ce que l’on sait est que ε = 5,6. 150 Module 105 0,15! F D P ! 24,4 + 5,6= 30 ! ! 0,10! 0,05! 0,00! 20! 25! 30! 35! 40! Figure 105-3. Distribution d’échantillonnage de Mx centrée sur une moyenne µ minimale de 24,4. Intervalle de confiance de µ centré sur Mx = 30 (1 - α = 95%). Imaginons que la moyenne observée (30) soit la moyenne la plus grande que l’on ait pu observer. Dans ce cas, la valeur la plus petite que l’on puisse considérer pour µ est 30 - 5,6 = 24,4 0,15! F D P ! 25,6 - 5,6= 30 ! ! 0,10! 0,05! 0,00! 20! 25! 30! 35! 40! Figure 105-4. Distribution d’échantillonnage de Mx centrée sur une moyenne vraie maximale de 35,6. Intervalle de confiance de µ centré sur Mx = 30 (1 - α = 95%). A l’inverse si 30 est la plus petite que l’on ait pu observer , la valeur la plus grande que l’on puisse considérer pour µ est 30 + 5,6 = 35,6. Au-delà de ces limites de la zone de probabilité 95 %, on entre dans des zones improbables, non considérées. 151 Module 105 105.4.3 L’intervalle de confiance peut réserver des surprises L’intervalle de confiance peut être nettement plus grand que celui que l’on estimerait intuitivement. Un médecin obtient pour une patiente une mesure de glucose de 1,5 g/l sang et trouve cette valeur élevée. Il fait refaire une analyse indépendante et obtient 1,1 g/l (moyenne = 1,3 ; S = 0,28 g/l). S’il ne disposait d’aucune autre valeur de variance que celle obtenue à partir de ces deux mesures, que peut-il dire de la moyenne réelle µ de ce patient? ! = t1;0,975 S n = 12, 71! 0, 28 2 = 2, 54 µ = Mx ± ε = 1,3 ± 2,54 Les échantillons contiendraient dans 95 % des cas une moyenne comprise, avec une confiance de 95%, entre -1,24 et 3,84 g/l ( ! !). Par contre, sil est informé que la glycémie est considérée normale si elle est comprise entre 0,74 g/l et 1,06 g/l9 soit ≈ µ ± 2σ il pourra en déduire une valeur de σ assez fiable de 0,16/2 = 0,08 g/l et estimer que µ = Mx ± ε = 1,3 ± 0,11 soit comprise, avec une confiance de 95%, entre 1,19 g/l et 1,41 g/l. De l’exemple précédent, notons que si n est petit, l’imprécision de l’estimation de S influence fortement l’imprécision de l’intervalle de confiance. A partir de quelques observations, un intervalle de confiance peut toutefois donner une estimation relativement précise d’une population tout à fait inconnue : Sur 5 cultures dans un nouveau fermenteur10 un pharmacien travaillant en industrie obtient un rendement de 78, 74, 75, 72, 73 %. Que peut-il dire avec une confiance de 95% du rendement moyen réel µ du fermenteur ? Mx = 74,75 ; Sx = 2,3 1−α = 95 % Tables : t4 ;0,975 = 2,78 ! = t4;0,975 S n = 2, 78 ! 2, 3 5 = 2,86 µ = Mx ± ε = 74,75 ± 2,86 et donc est µ compris entre 71,54 et 77,26 9 http://fr.wikipedia.org/wiki/Glycémie consulté le 31/3/13 Fermenteur : cuve pouvant atteindre une capacité de plusieurs milliers de litres et permettant la fermentation de micro-organismes dans un milieu parfaitement contrôlé. Utilisé en brasserie et dans de nombreuses applications bio-technologiques. 10 152