résumé de cours

Transcription

résumé de cours
Université de Nice
Département de Mathématiques
Année 2003-2004
MP2-MI2
Option Statistique C4 :
Théorème limite central
(ou tendance vers une loi normale)
1
Introduction
Enoncé flou : Soient X1 , X2 , . . .,Xn n tirages aléatoires indépendants, de même loi, d’espérance µ
et écart-type σ. Si n est suffisamment grand,√la somme Sn := X1 + . . . + Xn suit approximativement une
loi normale N (µ0 , σ 0 ), avec µ0 = nµ et σ 0 = nσ.
Remarques :
– Les valeurs de µ0 et σ 0 s’obtiennent facilement à partir des propriétés élémentaires sur l’espérance
de la somme de v.a. et sur la variance de la somme de v.a. indépendantes.
– Pour des v.a. Xi de variance pas trop grande, n ≥ 30 convient généralement.
– Une variante de cet énoncé flou est que la moyenne √
Yn := n1 (X1 + . . . + Xn ) suit approximativement
une loi normale N (µ”, σ”), avec µ” = µ et σ”
√ = σ/ n. Sous cette forme on retrouve en particulier
la loi des grands nombres, puisque σ” = σ/ n est petit pour n grand ; on voit ainsi que Yn est de
moins en moins aléatoire et qu’à la limite elle n’est plus aléatoire du tout : elle vaut µ = EXi (loi
des grands nombres).
– A l’origine de ce théorème, il y a les travaux de Laplace (1749-1827), et surtout de Gauss (1777-1855)
qui s’intéressait à la loi des erreurs lors des mesures astronomiques et à la pratique des astronomes
consistant à effectuer ces mesures à plusieurs reprises et à retenir pour résultat la moyenne des
mesures effectuées.
– Pour transformer ces énoncés flous en énoncés exacts, il nous faudra remplacer la somme Sn et la
moyenne Yn par Zn := √1n ((X1 − µ) + . . . + (Xn − µ)), de manière à remplacer µ0 , σ 0 et σ” par des
grandeurs indépendantes de n. La précision se paye alors par une gymnastique un peu plus grande
pour appliquer le résultats.
Exemple typique : Une compagnie aérienne donne des réservations sur le vol d’un appareil de 400
places. La probabilité qu’un passager ayant réservé pour ce vol ne se présente pas est de 0.08 = 8%. Si
la compagnie accorde 420 réservations sur ce vol, quel est le risque de “surbooking” (c’est-à-dire qu’il se
présente plus de passagers que les 400 qui pourront embarquer) ? Voir la solution ci-dessous.
2
Le théorème
Définition : Soit (Xn ) une suite de v.a. de fonction de répartition Fn , Fn (x) := P (Xn ≤ x), et soit
L
X une v.a. de fonction de répartion F . On dit que Xn tend en loi vers X, et on note Xn −→ X si et
seulement si , en tout point x où F est continue, on a limn−→∞ Fn (x) = F (x).
Théorème 1 (Théorème limite central) Avec les notations et les hypothèses ci-dessus, Zn := √1n (X1 +
1
. . . + Xn − nµ) tend en loi vers une v.a. Z de loi N (0, σ) et Zn /σ := σ√
(X1 + . . . + Xn − nµ) tend en
n
loi vers la v.a. Z/σ de loi N (0, 1).
Voyez votre cours de probabilités pour étudier la notion de convergence en loi et la preuve du théorème
limite central
3
Applications
Surbooking : Nous reprenons “l’exemple typique” ci-dessus. Nous modélisons le problème avec des
Xi ∈ {0, 1} (v.a. de Bernoulli) avec Xi = 0 pour “le i-ème passager ne se présente pas à l’embarquemement” ; Sn := X1 + . . . + Xn est donc, avec n = 420, le nombre (aléatoire) de passagers qui se présentent
à l’embarquement. Biensûr S420 ; B(n, p) avec p = 1 − 0.08 = 0.92 mais, pour pouvoir utiliser les
tables, on préfère assimiler S420 à une loi normale N (µ0 , σ 0 ), avec µ0 = np = 420 · 0.92 = 386.4 et
1
√
√
σ 0 = 420
p · 0.92 · 0.08 = 30.912 ≈ 5.6, puisque les v.a. aléatoires Xi sont de Bernoulli, et donc µ = p
et σ = p(1 − p). Pour pouvoir utiliser les tables (ou la fonction N des logiciels) on se ramène à une
v.a. centrée (ici S420 − µ0 ) et réduite (ici (S420 − µ0 )/σ 0 ). On pose donc T := (S420 − µ0 )/σ 0 . Avec ces
notations on a donc :
Risque de la compagnie : P (S420 > 400). On a
P (S420 > 400) = P (S420 − µ0 > 400 − µ0 ) = P ((S420 − µ0 )/σ 0 > (400 − µ0 )/σ 0 )
= P (T > (400 − µ0 )/σ 0 ) = 1 − FT ((400 − µ0 )/σ 0 )
≈ 1 − N ((400 − µ0 )/σ 0 ) d’après le théorème limite central.
√
Or (400 − µ0 )/σ 0 = (400 − 386.4)/ 30.912 ≈ 2.43, et N (2.43) ≈ LOI.NORMAL.STANDARD(2,43) =
0.99245059. Le risque de la compagnie est donc de 1 − 0.99245059 = 0.00754941, ou 0.76%.
Surbooking optimisé : la compagnie est prête à accepter un risque de surbooking dès lors qu’il est
inférieur à 5% ; quel est le nombre maximal n de réservations qu’elle peut accorder ? En d’autre terme,
quel est le plus grand n tel que P (Sn ≤ 400) ? Par le théorème limite
central on assimile Sn à une v.a.
p
normale Gn ; N (µ0 , σ 0 ) avec µ0 = E(Sn ) = np et σ 0 = σ(Sn ) = np(1 − p). On se ramène un nouvelle
fois à une v.a. centrée réduite, en observant que
P (Sn ≤ 400) = P (Sn − µ0 ≤ 400 − µ0 ) = P ((Sn − µ0 )/σ 0 ≤ (400 − µ0 )/σ 0 ) ≈ P (G ≤ (400 − µ0 )/σ 0 )
où G ; N (0, 1). Il convient donc de choisir n tel que N ((400 − µ0)/σ 0 ) := P (G ≤ (400 − µ0)/σ 0 ) ≤ 95% =
N (y). Il faut donc choisir n tel que
400 − np
p
(= (400 − µ0 )/σ 0 ) ≤ y avec
np(1 − p)
(1)
y := LOI.NORMAL.STANDARD.INVERSE(0,95);
on trouve y = 1.644853 et l’équation (1) équivaut
à 400 −
√ p
√
np
≤
n
p(1
−
p)y
qui
est
une
inéquation
trinôme
du
second
degré
en
l’inconnue
x
=
n,
avec
px2 +
p
p(1 − p)yx − 400 ≥ 0. Avec nos valeurs numériques on trouve (0 ≤)x ≤ 20.6115, d’où n = x2 ≤
(20.6115)2 = 424.83393. Il faut donc choisir n ≤ 424 : la compagnie doit donc accorder au plus 424
réservations pour avoir un risque de surbooking inférieur à 5%.
Gros bras : Voici un second exemple d’application : suite à l’annulation d’un concert de Hard-Rock,
un guichet doit procéder au remboursement des places. Le prix moyen des places est de 50 euros, avec
un écart-type de 30 euros. Le guichet dispose de 6500 euros pour rembourser les 120 personnes qui se
pressent devant le guichet. Quelle est la probabilité qu’il ait assez d’argent ?
Ici Sn =montant à rembourser aux n = 120 personnes, et µ = E(Xi ) = 50 et σ = σ(Xi ) = 30 (la loi
des Xi est inconnue !). On suppose les Xi indépendants. On se ramène à la v.a. centrée réduite
S120 − 6000
Sn − nµ
√
√
=
= T ≈ G ; N (0, 1)
σ n
30 120
et on obtient
P (S120 ≤ 6500) = P
T ≤
500
328.63
= FT
500
328.63
≈N
500
328.63
≈ N (1.5244) ≈ 0.936 ;
Il y a donc plus de 7% de risque qu’il n’y ait pas assez d’argent en caisse... Appelleriez-vous M. Sarkozy
au secours du guichetier ?
2