Table des mati`eres

Transcription

Table des mati`eres
Table des matières
1 Quelques rappels de probabilités
1.1 Caractérisation des variables aléatoires . . . . . . . . . . . . . . . .
1.1.1 Moments des variables aléatoires . . . . . . . . . . . . . . .
1.1.2 Quantiles des lois de probabilités . . . . . . . . . . . . . . .
1.1.3 Autres caractéristiques . . . . . . . . . . . . . . . . . . . . .
1.2 Rappel de quelques inégalités . . . . . . . . . . . . . . . . . . . . .
1.3 Suites de variables aléatoires . . . . . . . . . . . . . . . . . . . . .
1.4 Indépendance et théorèmes limites . . . . . . . . . . . . . . . . . .
1.4.1 Sommes de variables indépendantes . . . . . . . . . . . . .
1.4.2 Approximation des distributions par des lois asymptotiques
1.5 Théorèmes de continuité . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Construction d’un échantillon aléatoire par simulation . . . . . . .
1.6.1 Simulation des variables uniformément distribuées . . . . .
1.6.2 Simulation des variables d’une loi générale . . . . . . . . . .
1.6.3 Simulation de la loi normale N (0, 1) . . . . . . . . . . . . .
1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Régression et corrélation
2.1 Couples des variables aléatoires. Lois jointes et marginales . .
2.2 Conditionnement (cas discret) . . . . . . . . . . . . . . . . . .
2.2.1 Propriétés des espérances conditionnelles (cas discret)
2.3 Conditionnement comme une projection . . . . . . . . . . . .
2.3.1 Meilleure prévision . . . . . . . . . . . . . . . . . . . .
2.4 Probabilité et espérance conditionnelle (Cas général) . . . . .
2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . .
2.4.2 Propriétés de l’espérance conditionnelle (cas général) .
2.5 Conditionnement : cas continu . . . . . . . . . . . . . . . . .
2.6 Covariance et corrélation . . . . . . . . . . . . . . . . . . . . .
2.6.1 Propriétés de covariance et de corrélation . . . . . . .
2.7 Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 Variance résiduelle . . . . . . . . . . . . . . . . . . . .
2.8 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
7
10
12
13
14
15
15
16
17
18
19
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
25
26
26
28
29
29
30
32
32
33
35
37
39
2
3 Vecteurs aléatoires. Loi normale multivariée
3.1 Vecteurs aléatoires (rappel) . . . . . . . . . . . . . . . . . .
3.1.1 Propriétés de densité d’une distribution multivariée .
3.1.2 Moments des vecteurs aléatoires . . . . . . . . . . .
3.1.3 Fonction caractéristique d’un vecteur aléatoire . . .
3.1.4 Transformations des vecteurs aléatoires . . . . . . .
3.1.5 Rappel des propriétes des matrices symétriques . . .
3.2 Espérance conditionnelle d’un vecteur aléatoire . . . . . . .
3.2.1 Théorème de meilleure prévision . . . . . . . . . . .
3.3 Loi normale multivariée . . . . . . . . . . . . . . . . . . . .
3.3.1 La loi Np (0, I) . . . . . . . . . . . . . . . . . . . . .
3.3.2 Loi normale sur Rp . . . . . . . . . . . . . . . . . . .
3.3.3 Loi normale non-dégénérée . . . . . . . . . . . . . .
3.3.4 Loi normale dégénérée . . . . . . . . . . . . . . . . .
3.3.5 Propriétés de la loi normale multivariée . . . . . . .
3.3.6 Géometrie de la distribution normale multivariée . .
3.4 Lois dérivées de la loi normale . . . . . . . . . . . . . . . . .
3.4.1 Loi χ2 de Pearson . . . . . . . . . . . . . . . . . . .
3.4.2 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . .
3.4.3 Loi t de Student (W. Gosset) . . . . . . . . . . . . .
3.5 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . .
3.6 Théorème de corrélation normale et filtre de Kalman-Bucy .
3.6.1 Filtre de Kalman-Bucy . . . . . . . . . . . . . . . .
3.6.2 Solutions d’exercices de la section 3.6.1 . . . . . . .
3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Autres Exercices . . . . . . . . . . . . . . . . . . . . . . . .
TABLE DES MATIÈRES
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
44
45
46
47
49
49
50
50
51
52
53
54
56
56
56
57
58
59
60
65
69
70
73
Chapitre 1
Quelques rappels de probabilités
1.1
Caractérisation des variables aléatoires
Soit (Ω, F, P ) un espace de probabilité où Ω est un ensemble de nature générale, F est
une tribu et P est une mesure de probabilité sur F. Une variable aléatoire X est une fonction
mesurable X : (Ω, F) → (R, B) où B est la tribu borélienne. Quelquefois on la désigne par X(ω)
pour souligner le fait que c’est une fonction de ω ∈ Ω.
La fonction de répartition
(f.d.r.) d’une variable aléatoire X
est la fonction F : R → [0, 1]
F (x) = P (X ≤ x) = P (ω : X(ω) ≤ x).
C’est une fonction monotone croissante, continue à droite telle que F (−∞) = 0 et F (∞) = 1.
On appelle aussi F la loi (ou la distribution) de X. On distingue 2 types de variables aléatoires :
les variables discrètes et les variables continues.
Variable discrète X est une variable dont les valeurs sont dans un ensemble fini ou dénombrable.
La variable de Poisson 1 est un exemple de variable discrète où l’ensemble de ses valeurs est
dénombrable : pour λ > 0 la loi de X satisfait
Pλ (X = k) =
λk −λ
e ,
k!
k = 0, 1, 2, ...
1. On verra dans la suite l’importance de cette loi et son lien avec la notion de processus ponctuel de Poisson.
3
4
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
On dit que X suit la loi P(λ). La fonction de répartition de X (dans la suite f.d.r.) est
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−1
0
1
2
3
4
5
6
La f.d.r. d’une variable aléatoire discrète est une “fonction-échelle”.
Variable continue X est une variable continue si sa loi admet une densité par rapport à la
mesure de Lebesgue sur R. Dans ce cas la f.d.r. F de X est dérivable presque partout sur R et
sa dérivée
f (x) = F 0 (x)
s’appelle la densité de probabilité de X. On remarque que f (x) ≥ 0 pour tout x ∈ R et
Z ∞
f (x)dx = 1.
−∞
Exemple 1.1
a) Loi normale N (µ, σ 2 ) de densité
f (x) = √
(x−µ)2
1
e− 2σ2 ,
2πσ
x ∈ R,
où µ ∈ R et σ > 0. Si µ = 0, σ 2 = 1, la loi N (0, 1) est dite loi normale standard.
b) Loi uniforme U [0, θ] de densité
1
f (x) = I{x ∈ [0, θ]},
θ
x ∈ R,
où θ > 0 et I{·} désigne la fonction indicatrice : pour un ensemble A
(
I{x ∈ A} =
1
0
si x ∈ A,
sinon.
c) Loi exponentielle E(λ) de densité
f (x) = λe−λx , pour x ≥ 0 et f (x) = 0 pour x < 0,
1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES
5
où λ > 0. La fonction de répartition de E(λ) est
F (x) = (1 − e−λx ) pour x ≥ 0 et F (x) = 0 pour x < 0.
Les lois des variables discrètes sont entièrement définies par les probabilités de type {P (X =
k)}k , les lois des variables continues par leur densités f (·). Certaines caractéristiques scalaires
de la fonction de répartition (ses fonctionnelles) sont importantes pour la description du comportement des variables aléatoires. Exemples de fonctionnelles sont les moments et les quantiles
des variables aléatoires.
1.1.1
Moments des variables aléatoires
Moyenne
(espérance) d’une variable aléatoire X :
Z ∞
µ = E(X) =
−∞
Moment d’ordre k
( P
iP (X = i)
xdF (x) = R i
xf (x)dx
dans le cas discrèt,
dans le cas continu.
(k = 1, 2, ...) :
k
µk = E(X ) =
Z ∞
xk dF (x),
−∞
ainsi que moment centré d’ordre k :
µ0k = E((X − µ)k ) =
Z ∞
(x − µ)k dF (x).
−∞
Un cas particulier est la variance σ 2 (= µ02 – le moment centré d’ordre 2) :
σ 2 = Var(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
La racine carrée de la variance s’appelle l’écart-type de X : σ =
Moment absolu µ̄k d’ordre k
µ̄k = E(|X|k )
p
Var(X).
ainsi que moment absolu centré d’ordre k :
µ̄0k = E(|X − µ|k ).
Bien évidemment ces définitions supposent l’existence des intégrales respectives, et toutes les
lois ne possèdent pas de moments.
Exemple 1.2
Non-existence de tous les moments. Soit X variable aléatoire de densité de probabilité
f (x) =
où la constante c > 0 est telle que
R
c
,
1 + |x| log2 |x|
x ∈ R,
f = 1. Alors E(|X|a ) = ∞ pour tout a > 0.
La moyenne est utilisée pour caractériser la localisation (position) d’une loi de probabilités.
La variance caractérise la dispersion (l’échelle) d’une loi.
6
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Loi normale N (µ, σ 2 ) avec la moyenne µ et la variance σ 2 :
0.4

0.35
0.3
0.25
0.2
0.15
0.1

0.05
0
−10

−8
−6
−4
−2
0
2
4
6
8
10
σ “grand” (beaucoup de dispersion), σ “petit” (peu de dispersion)
Soit F f.d.r. de la variable aléatoire X dont la moyenne et la variance sont µ et σ. Par
transformation affine on obtient la variable X0 = (X − µ)/σ, telle que E(X0 ) = 0, E(X02 ) = 1
(la variable standardisée). Si F0 est la f.d.r. de X0 , alors F (x) = F0 ( x−µ
σ ). Dans le cas continu
la densité de X s’écrit
1
x−µ
f (x) = f0 (
),
σ
σ
où f0 est la densité de X0 . En général, pour définir la loi standardisée F0 et d’avoir la réprésentation
F (x) = F0 ( x−µ
σ ), il n’est pas nécessaire que la moyenne et la variance existent. Ceci est fait
uniquement pour souligner que F dépend des paramètres de localisation (ou de position)
µ et d’échelle σ. Par exemple, pour la famille des densités de Cauchy dépendant de µ, σ :
1
1
f (x) = πσ(1+[(x−µ)/σ]
2 ) , la densité standardisée est f0 (x) = π(1+x2 ) . Pourtant, l’espérance et la
variance de la loi de Cauchy n’éxistent pas.
Un problème d’analyse très intéressant est lié à la notion des moments µk : soit F une f.d.r.
dont tous les moments sont finis. Étant donnée la suite {µk }, k = 1, 2, ... de moments de F ,
est-il possible de reconstituer F ? La réponse est généralement négative. Il existe néanmoins des
cas pour lesquels la reconstitution est possible, notamment sous l’hypothése très forte que
1/k
µ̄k
k→∞ k
lim sup
<∞
(µ̄k étant le k-ème moment absolu). Cette hypothèse est vérifiée, par exemple, pour une densité
à support borné. La condition nécessaire et suffisante pour la solution du problème de moments
reste inconnue.
1.1.2
Quantiles des lois de probabilités
Soit X une variable aléatoire de f.d.r. F continue et strictement croissante. Le quantile
d’ordre p, 0 < p < 1, de la loi F est la solution qp de l’équation
F (qp ) = p.
1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES
7
On remarque que si F est strictement croissante et continue, la solution existe et elle est unique,
donc le quantile qp est bien défini. Si F admet des parties plates ou n’est pas continue, alors on
peut modifier la définition :
Définition 1.1 Soit F une f.d.r. Le quantile qp d’ordre p de F est la valeur
qp = inf{q : F (q) ≥ p}.
La médiane M de la f.d.r. F est le quantile d’ordre 1/2, autrement dit,
M = q1/2 .
Notons que si F est continue, F (M ) = 1/2.
Les quartiles
sont les quantiles q1/4 et q3/4 d’ordre 1/4 et 3/4.
Les pourcentiles
de l%, de la loi F sont les quantiles qp d’ordre p = l/100, 0 < l < 100.
On note que la médiane caractérise la position (localisation) d’une loi de probabilités, tandis
que la différence q3/4 − q1/4 (dite intervalle interquartile) peut être interprétée comme une
caractéristique de l’échelle. Ces quantités sont analogues à la moyenne µ et à l’écart-type σ
respectivement. Mais à la différence de ceux-ci, la médiane et l’intervalle interquartile sont
définis pour toutes les lois de probabilités.
1.1.3
Autres caractéristiques
Mode d’une loi. Dans le cas discret on appelle la valeur k ∗ telle que
P (X = k ∗ ) = max P (X = k)
k
le mode de la loi F . Dans le cas continu le mode est la valeur x∗ telle que
f (x∗ ) = max f (x).
x
Une densité f est dite unimodale si x∗ est l’unique maximum local de f (le point ”le plus à la
mode”). De façon analogue on parle de densités bimodales et multimodales. Cette caractéristique
est assez imprécise, car même si le maximum global de la densité f est unique (il y a un seul mode
dans le sens propre) on l’appellera densité multimodale si il y a d’autres maximums locaux. Le
8
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
mode est une caractéristique de position. Elle peut se révéler intéressante dans le cas unimodal.
0.25
Mode
0.2
Mediane
Moyenne
0.15
0.1
0.05
0
0
2
4
6
8
10
12
14
16
18
20
Le mode, la médiane et la moyenne d’une loi
Caractéristiques d’asymétrie et d’aplatissement
Définition 1.2 La loi de X (la f.d.r. F ) est dite symétrique par rapport à zéro (ou tout simplement symétrique) si pour tout x ∈ Rm, F (x) = 1 − F (−x) (f (x) = f (−x) dans le cas continu).
Définition 1.3 La loi de X (la f.d.r. F ) est dite symétrique par rapport à µ ∈ R si
F (x + µ) = 1 − F (µ − x)
(f (x + µ) = f (µ − x) dans le cas continu).
Autrement dit, la f.d.r F (· − µ) est symétrique (par rapport à zéro).
Exercice 1.1
a) Montrer que si F est symétrique par rapport à µ, et E(|X|) < ∞, alors sa moyenne vérife
E(X) = µ. Si, en outre, F admet une densité unimodale, alors moyenne = médiane = mode.
b) Si F est symétrique et tous les moments µ̄k existent, alors les moments µk = 0 pour tout k
impair. Si F est symétrique par rapport à µ et tous les moments µ̄k existent, alors µ0k = 0 pour
tout k impair (par exemple, µ03 = 0).
On peut qualifier les distributions asymétriques comme étant “proches” de symétrie et “loins”
de symétrie. Dans ce but on introduit (pour tout loi de probabilité avec E(|X|3 ) < ∞) le
coefficient d’asymétrie (“skewness”)
α=
µ03
.
σ3
On remarque que α = 0 pour une f.d.r. symétrique avec E(|X|3 ) < ∞. Notons que la réciproque
n’est pas vraie : la condition α = 0 n’implique pas la symétrie de loi.
1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES
9
Exercice 1.2
Donner un exemple de densité non-symétrique avec α = 0.
Notons le
rôle de σ dans laRdéfinition de α : supposons parRexemple, que la densité f0 (x) de
R
X satisfait xf0 (x)dx = 0 et x2 f0 (x)dx = 1 et α0 = µ030 = x3 f0 (x)dx. Pour σ > 0, µ ∈ R,
la fonction
1
x−µ
f (x) = f0 (
),
σ
σ
est la densité de la variable σX +µ, et donc Var(σX +µ) = σ 2 et µ03 = (x−µ)3 f (x)dx = σ 3 µ030 .
µ0
En calculant α = σ33 on observe que α = α0 . Donc, le coefficient d’asymétrie α est invariant par
rapport aux transformations affines (d’échelle et de position).
R
Le coefficient α est une mesure controversée : on ne peut pas toujours affirmer que α > 0 si
la loi est “asymétrique vers la droite” et α < 0 si la loi est ”asymétrique vers la gauche”. Les
notions d’asymétrie “vers la droite” ou “vers la gauche” ne sont pas définies rigoureusement.
Coefficient d’aplatissement(“kurtosis”) β est définie de façon suivante : si le 4ème moment centré µ04 de la variable aléatoire X existe, alors
β=
µ04
− 3.
σ4
Exercice 1.3
Montrer que pour la loi normale N (µ, σ 2 ) on a : µ04 /σ 4 = 3 et donc β = 0.
On note que, comme le coefficient α d’asymétrie, le kurtosis β est invariant par rapport aux
transformations affines (changement de position et d’échelle).
Le coefficient β est le plus souvent calculé pour avoir une idée intuitive sur les “queues” de
la loi de X. On utilise le vocabulaire suivant : on dit que la loi F a des “queues lourdes” si
Z
Z
f (x)dx dans le cas continu)
dF (x) (=
Q(b) =
|x|≥b
|x|≥b
décroı̂t lentement quand b → ∞, par exemple, de façon polynômiale (comme 1/br où r > 0).
Sinon, on dit que “les queues sont légères” si Q(b) décroı̂t rapidement (exemple : décroissance
exponentielle).
On utilise l’heuristique suivante : si β > 0 on peut considérer que les queues de la loi en
2
question sont plus lourdes que celles de la loi normale (Q(b) = O(e−b /2 ) pour la loi normale
N (0, 1)). Si β < 0 (on dit dans ce cas que la loi est leptokurtique) on peut supposer que les
queues sont plus légères que celles de la loi normale (pour la loi normale β = 0).
Notons également que, pour toute loi de probabilité, β ≥ −2 (voir le paragraphe suivant).
Exemple 1.3
a) Le kurtosis β de la loi uniforme U [0, 1] est égal à −1.2 (queues ultra-légères).
b) Si f (x) ∼ |x|−5 quand |x| tend vers ∞, σ 2 est fini mais µ04 = ∞, ce qui implique β = ∞
(queues lourdes).
10
1.2
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Rappel de quelques inégalités
Proposition 1.1 (Inégalité de Markov) Soit h(·) une fonction non négative croissante et
E(h(X)) < ∞. Alors pour tout a > 0 tel que h(a) > 0,
P (X ≥ a) ≤
E(h(X))
.
h(a)
(1.1)
Preuve : Soit a > 0 tel que h(a) > 0. Comme h(·) est une fonction croissante,
P (X ≥ a) ≤ P (h(X) ≥ h(a)) =
Z
I{h(x) ≥ h(a)}dF (x)
= E(I{h(X) ≥ h(a)}) ≤ E
h(X)
E(h(X))
I{h(X) ≥ h(a)} ≤
.
h(a)
h(a)
Corollaire 1.1 (Inégalité de Tchebychev) Soit X une variable aléatoire telle que E(X 2 ) <
∞. Alors pour tout a > 0
P (|X| ≥ a) ≤
P (|X − E(X)| ≥ a) ≤
E(X 2 )
a2
Var(X)
a2
Preuve : Pour montrer la première inégalité il suffit de poser dans (1.1) h(t) = t2 et Y = |X|
(ou Y = |X − E(X)| pour la deuxième).
Proposition 1.2 (Inégalité de Hölder) Soit r > 1, 1/r + 1/s = 1. Soit ξ et η deux variables
aléatoires telles que E(|ξ|r ) < ∞ et E(|η|s ) < ∞. Alors E(|ξη|) < ∞ et
E(|ξη|) ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s .
Preuve : On note d’abord que pour tout a > 0, b > 0, par concavité de la fonction log t,
(1/r) log a + (1/s) log b ≤ log(a/r + b/s),
ce qui est équivalent à :
a1/r b1/s ≤ a/r + b/s.
Posons ici a = |ξ|r /E(|ξ|r ), b = |η|s /E(|η|s ) (on suppose pour l’instant que E(|ξ|r ) 6= 0, E(|η|s ) 6=
0), ce qui donne
|ξη| ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s (|ξ|r /rE(|ξ|r ) + |η|s /sE(|η|s )) .
On conclut en prenant l’espérance. Si E(|ξ|r ) = 0 ou E(|η|s ) = 0, alors ξ = 0 (p.s) ou η = 0
(p.s.), et l’inégalité est triviale.
1.2. RAPPEL DE QUELQUES INÉGALITÉS
11
Corollaire 1.2 (Inégalité de Lyapunov) Soit 0 < v < t et X une variable aléatoire t.q.
E(|X|t ) < ∞. Alors E(|X|v ) < ∞ et
[E(|X|v )]1/v ≤ [E(|X|t )]1/t .
(1.2)
Pour démontrer ce corollaire il suffit d’appliquer l’inégalité de Hölder avec ξ = X v , η = 1,
r = t/v.
µ04
σ4
En utilisant l’inégalité (1.2) avec v = 2, t = 4 et |X − E(X)| au lieu de |X| on obtient
≥ 1. Donc, le coefficient d’aplatissement β vérifie l’inégalité β ≥ −2.
L’inégalité de Lyapunov implique la chaı̂ne des inégalités entre les moments absolus :
E(|X|) ≤ [E(|X|2 )]1/2 ≤ . . . ≤ [E(|X|k )]1/k .
Corollaire 1.3 (Inégalité de Cauchy-Schwarz) Soit ξ et η deux variables aléatoires telles
que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors E(|ξη|) < ∞ et
E(|ξη|)2 ≤ E(ξ 2 )E(η 2 ).
(Cas particulier de l’inegalité de Hölder pour r = s = 2.)
Proposition 1.3 (Inégalité de Jensen) Soit g(·) une fonction convexe, X une variable aléatoire
telle que E(|X|) < ∞. Alors
g(E(X)) ≤ E(g(X)).
Preuve : Par convexité de g, il existe une fonction g 1 (·) t.q. pour tout x, x0 ∈ R
g(x) ≥ g(x0 ) + (x − x0 )g 1 (x0 ).
On pose x0 = E(X). Alors
g(X) ≥ g(E(X)) + (X − E(X))g 1 (E(X)).
En prenant l’espérance on obtient E(g(X)) ≥ g(E(X)).
Un exemple d’application de l’inégalité de Jensen est le suivant :
|E(X)| ≤ E(|X|).
(1.3)
Proposition 1.4 (Inégalité de Cauchy-Schwarz - une modification) Soit ξ et η deux variables aléatoires telles que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors
(E(ξη))2 ≤ E(ξ 2 )E(η 2 ).
(1.4)
L’égalité est atteinte si et seulement si il existent a1 , a2 ∈ R tels que a1 6= 0 ou a2 6= 0 et
a1 ξ + a2 η = 0
presque sûrement.
(1.5)
12
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Preuve : L’inégalité (1.4) est une conséquence du Corollaire 1.3 et de (1.3). Si (1.5) est vraie,
il est évident que l’égalité
(E(ξη))2 − E(ξ 2 )E(η 2 ) = 0
(1.6)
est atteinte. Réciproquement, si on a (1.6) et E(η 2 ) 6= 0, alors E((ξ − aη)2 ) = 0 avec a =
E(ξη)/E(η 2 ), ce qui implique ξ = aη presque sûrement. Le cas E(η 2 ) = 0 est trivial.
1.3
Suites de variables aléatoires
Soient ξ1 , ξ2 ..., et ξ variables aléatoires (v.a.) sur (Ω, F, P ).
P
Définition 1.4 La suite (ξn ) converge vers une variable aléatoire ξ en probabilité (noté ξn → ξ)
quand n → ∞ si
lim P {|ξn − ξ| ≥ } = 0
n→∞
pour tout > 0.
Définition 1.5 La suite (ξn ) converge en moyenne quadratique vers ξ si E(ξ 2 ) < ∞ et
lim E(|ξn − ξ|2 ) = 0.
n→∞
Définition 1.6 La suite (ξn ) converge presque sûrement vers ξ (noté ξn → ξ (p.s.), n → ∞) si
P {ω : ξn→
/ ξ} = 0
Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la
suivante : pour tout > 0
lim P {sup |ξk − ξ| ≥ } = 0.
n→∞
k≥n
D
Définition 1.7 La suite (ξn ) converge vers une variable aléatoire ξ en loi (on note ξn → ξ,
n → ∞) si
P {ξn ≤ t} → P {ξ ≤ t} lorsque n → ∞
dans chaque point de continuité de la f.d.r. F (t) = P {ξ ≤ t}.
Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la
convergence
E(f (ξn )) → E(f (ξ)) quand n → ∞
pour toute fonction f continue et bornée.
1.4. INDÉPENDANCE ET THÉORÈMES LIMITES
13
Liens entre les différents types de convergence :
convergence en moyenne quadratique =⇒ convergence en probabilité =⇒ | convergence en loi
convergence p.s.
=⇒ Exercice 1.4
Soit (ξn ) et (ηn ) deux suites de v.a.. Démontrer les résultats suivants :
1o . Si a ∈ R est une constante, alors
D
ξn → a
⇔
P
ξn → a,
lorsque n → ∞.
D
D
2o . (Théorème de Slutsky) Si ξn → a et ηn → η lorsque n → ∞ et a ∈ R est une constante,
alors
D
ξn + ηn → a + η,
lorsque n → ∞. Montrer que si a est une v.a. générale, ces deux relations ne sont pas vérifiées
(donner un contre-exemple).
P
D
3o . Si ξn → a et ηn → η lorsque n → ∞, où a ∈ R est une constante et η est une variable
aléatoire, alors
D
ξn ηn → aη,
lorsque n → ∞. Ce résultat reste-t-il vrai si on suppose que a est une variable aléatoire générale ?
1.4
Indépendance et théorèmes limites
Définition 1.8 Soit X et Y deux variables aléatoires. La variable X est dite indépendante de
Y si
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B)
pour tout A ∈ B et B ∈ B (A et B boréliens). Dans ce cas on note X⊥⊥Y .
Si E(|X|) < ∞, E(|Y |) < ∞, alors l’indépendence implique
E(XY ) = E(X)E(Y )
(la réciproque n’est pas vraie !).
Définition 1.9 Soient X1 , ..., Xn des variables aléatoires, on dit que X1 , ..., Xn sont (mutuellement) indépendantes si pour tous A1 , ..., An ∈ B
P (X1 ∈ A1 , ..., Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).
Remarque. Le fait que Xi , i = 1, ..., n soient indépendantes deux à deux, c’est-à-dire Xi ⊥⊥Yj ,
n’implique pas que X1 , .., Xn soient mutuellement indépendantes. Par contre, l’indépendance
mutuelle implique l’indépendance deux à deux. En particulier, si X1 , ..., Xn sont indépendantes
et E(|Xi |) < ∞, i = 1, ..., n, alors
E(Xi Xj ) = E(Xi )E(Xj ),
i 6= j.
14
1.4.1
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Sommes de variables indépendantes
Considérons la somme ni=1 Xi , où X1 , ..., Xn sont indépendantes. Si E(Xi2 ) < ∞, i = 1, ..., n
(par l’inégalité de Lyapunov cela implique E(|Xi |) < ∞), alors
P
E
n
X
i=1
!
Xi
=
n
X
E(Xi ) (vrai sans hypothèse d’indépendance)
i=1
et, de plus,
Var
n
X
!
Xi
i=1
=
n
X
Var(Xi ).
i=1
Définition 1.10 On dit que les variables X1 , ..., Xn sont i.i.d. (indépendantes et équidistribuées)
si elles sont mutuellement indépendantes et Xi est de même loi que Xj pour tous 1 ≤ i, j ≤ n.
Proposition 1.5 Soit X1 , ..., Xn v.a. i.i.d. telles que E(X1 ) = µ et Var(X1 ) = σ 2 < ∞. Alors
la moyenne arithmétique
n
1X
X̄ =
Xi
n i=1
satisfait
E(X̄) = µ et Var(X̄) =
σ2
1
Var(X1 ) =
.
n
n
Proposition 1.6 (Loi forte de grands nombres de Kolmogorov) Soient X1 , ..., Xn v.a. i.i.d.
telles que E(|X1 |) < ∞, et µ = E(X1 ). On a
X̄ → µ (p.s.) lorsque n → ∞.
Contre-exemple. Soient Xi variables i.i.d de loi de Cauchy. La densité de X1 est
f (x) =
1
, x ∈ R.
π(1 + x2 )
Alors E(|X1 |) = ∞, E(X1 ) n’est pas définie et la moyenne arithmétique X̄ n’est pas convergente
(on remarque que les queues de la loi de Cauchy sont “lourdes”).
Proposition 1.7 (Théorème central limite ) Soient X1 , ..., Xn v.a. i.i.d. telles que E(X12 ) <
∞ et σ 2 = Var(X1 ) > 0. Alors,
√
X̄ − µ
n
σ
où µ = E(X1 ), et η ∼ N (0, 1).
!
D
→ η, lorsque n → ∞,
1.5. THÉORÈMES DE CONTINUITÉ
1.4.2
15
Approximation des distributions par des lois asymptotiques
Le théorème central limite (Proposition 1.7) s’écrit sous la forme équivalente :
P
√
X̄ − µ
n
σ
!
!
≤t
→ P (η ≤ t), lorsque n → ∞,
pour tout t ∈ R, où η ∼ N (0, 1). Notons
Φ(t) = P (η ≤ t)
la f.d.r. normale standard. Alors
√
P (X̄ ≤ x) = P
X̄ − µ
n
σ
!
≤
√
x−µ
n
σ
!
√
≈Φ
x−µ
n
σ
quand n → ∞. Autrement dit, P (X̄ ≤ x), la f.d.r. de X̄, peut être approximée par la loi normale :
√
P (X̄ ≤ x) ≈ Φ
x−µ
n
σ
pour n assez grand.
1.5
Théorèmes de continuité
Proposition 1.8 (Premier théorème de continuité) Soit g(·) une fonction continue et ξ1 , ξ2 , ...
et ξ variables aléatoires sur (Ω, F, P ). Alors
(i) ξn → ξ (p.s.) ⇒ g(ξn ) → g(ξ) (p.s.)
P
⇒ g(ξn ) → g(ξ)
D
⇒ g(ξn ) → g(ξ)
(ii)
ξn → ξ
(iii)
ξn → ξ
P
D
Preuve : (i) est évident. On va démontrer (ii) dans le cas particulier ξ = a (a fixe déterministe).
En effet, ce cas seulement présente un intérêt dans la suite de ce cours. La continuité de g implique
que pour tout > 0 il existe δ > 0 tel que
|ξn − a| ≤ δ
⇒ |g(ξn ) − g(a)| < .
P
Comme ξn → a, n → ∞, on a
lim P (|ξn − a| < δ) = 1 pour tout δ > 0.
n→∞
D’où
lim P (|g(ξn ) − g(a)| < ) = 1 pour tout > 0.
n→∞
(iii) Il suffit de démontrer (voir la remarque après la Définition 1.7) que pour toute fonction
continue bornée h(x)
E(h(g(ξn ))) → E(h(g(ξ))), n → ∞.
16
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
D
Comme g est continue, f = h ◦ g est aussi continue et bornée. Ceci démontre (iii), car ξn → ξ
signifie que
E(f (ξn )) → E(f (ξ)), n → ∞,
pour toute fonction f continue bornée.
Proposition 1.9 (Deuxième théorème de continuité) Soit g(·) continue et continûment
différentiable et X1 , ..., Xn variables aléatoires i.i.d. telles que E(X12 ) < ∞ et σ 2 = Var(X1 ) > 0.
Alors
!
√
g(X̄) − g(µ) D
n
→ ηg 0 (µ), n → ∞,
σ
où X̄ =
1
n
Pn
i=1 Xi ,
µ = E(X1 ) et η ∼ N (0, 1).
Preuve : La fonction
(
h(x) =
g(x)−g(µ)
,
x−µ
0
g (µ),
si x 6= µ
si x = µ
P
est continue sous nos hypothèses. Comme X̄ → µ (par Proposition 1.6) et h est continue, on
conclut, grâce au premier théorème de continuité, que
P
h(X̄) → h(µ) = g 0 (µ),
Mais
n → ∞.
(1.7)
√
√ g(X̄) − g(µ)
n
=
h(X̄)(X̄ − µ) = h(X̄)ηn ,
n
σ
σ
√
D
où ηn = σn (X̄ − µ). La proposition 1.7 implique que ηn → η ∼ N (0, 1) quand n → ∞. Utilisant
ce fait avec (1.7) et le résultat 3o de l’Exercice 1.4 on obtient le résultat.
1.6
Construction d’un échantillon aléatoire par simulation
Dans les applications on a souvent besoin de générer (construire) de façon artificielle (à l’aide
d’un ordinateur, par exemple) une suite X1 , ..., Xn de nombres aléatoires i.i.d. suivant la loi F
(on l’appelle un échantillon). Les méthodes de simulation permettent d’obtenir seulement une
valeur pseudo-aléatoire, au lieu d’une valeur aléatoire. Cela signifie que les nombres X1 , ..., Xn
simulés sont déterministes – ils sont obtenus par un algorithme déterministe – mais les propriétés de la suite X1 , ..., Xn sont “proches” de celles d’une suite aléatoire i.i.d. de même loi. Par
exemple, pour les nombres pseudo-aléatoires on a
sup |Fn (x) − F (x)| → 0,
n→∞
x
pour tout x ∈ R, ou Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn qui satisfont ξk < x. On
appelle Fn (x) fonction de répartition empirique calculée à partir de la suite X1 , ..., Xn . Ici
on considére la convergence dans le sens des suites déterministes, non-aléatoires (cf. Exercice
1.1.14). La loi forte des grands nombres, le théorème central limite sont assurés, etc.
1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION
1.6.1
17
Simulation des variables uniformément distribuées
Le programme-générateur est disponible dans les nombreux langages de programmation.
Quel est le principe de son fonctionnement ? La f.d.r. F (x) de la loi U [0, 1] satisfait
F (x) =


 0,
x,

 1,
x<0
x ∈ [0, 1]
x > 1.
Algorithme congruentiel. On se donne un nombre réel a > 1 et un nombre entier m (d’habitude a et m sont des “très grands” nombres). On commence par une valeur z0 fixe. Pour tout
1 ≤ i ≤ n on définit
zi =
le reste de division de azi−1 par m
azi−1
m,
= azi−1 −
m
où [·] est partie entière. Nous avons toujours 0 ≤ zi < m. On définit
zi
azi−1
azi−1
Ui =
=
−
,
m
m
m
alors 0 ≤ Ui < 1. La suite U1 , ..., Un est considérée comme un échantillon de la loi uniforme
U [0, 1]. Même si ce n’est pas une suite aléatoire, la f.d.r. empirique
FnU (x)
n
1X
=
I{Ui ≤ x}
n i=1
satisfait sup0≤x≤1 |Fn − x| ≤ (m), n → ∞, avec (m) qui converge très vite vers 0 quand
m → ∞.
Divers résultats mathématiques permettent de justifier les “bons” choix de z0 , a et de m.
Ils risquent de tomber en désuetitude du fait de l’apparition de nouveaux générateurs plus
performants. Les valeurs suivantes de paramètres sont très répandues et donnent en général
satisfaction :
a = 16807(75 ), m = 2147483647(231 − 1).
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
la f.d.r empirique en escalier/la f.d.r. théorique
18
1.6.2
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Simulation des variables d’une loi générale
Étant donné un échantillon i.i.d. U1 , ..., Un d’une loi uniforme, on peut obtenir un échantillon
d’une loi générale F (·) par la méthode d’inversion. Elle marche bien si on possède une
expression explicite pour F (·). Cette méthode est basée sur la proposition suivante :
Proposition 1.10 Soit F une f.d.r. continue et strictement monotone, et soit U une variable
aléatoire uniformément distribuée sur [0, 1]. Alors la v.a.
X = F −1 (U )
a F (·) comme f.d.r.
Preuve : On note que
F (x) = P (U ≤ F (x)) = P (F −1 (U ) ≤ x) = P (X ≤ x).
D’où l’algorithme de simulation suivant : si F (x) est continue est strictement croissante, on
prend
Xi = F −1 (Ui ),
où Ui sont des nombres pseudo-aléatoires uniformément distribués sur [0, 1], i = 1, ..., n. De cette
façon on obtient un échantillon simulé X1 , ..., Xn .
Si F n’est pas continue ou strictement monotone, il faut modifier la “définition” de F −1 . On
pose
∆
F −1 (y) = sup{t : F (t) < y}.
Alors,
P (Xi ≤ x) = P (sup{t : F (t) < Ui } ≤ x) = P (Ui ≤ F (x)) = F (x).
Exemple 1.4 Répartition exponentielle :
f (x) = e−x I{x > 0},
F (x) = (1 − e−x )I{x > 0}.
On calcule F −1 (y) = − ln(1 − y) pour y ∈ (0, 1). Xi = − ln(1 − Ui ), i = 1, ..., n où Ui ∼ U [0, 1].
Exemple 1.5 Loi de Bernoulli :
P (X = 0) = 1 − p, 0 < p < 1.
P (X = 1) = p,
On utilise la méthode modifiée :
(
F −1 (y) = sup{t : F (t) < y} =
0,
1,
y ∈ [0, 1 − p],
y ∈ (1 − p, 1].
Si Ui est une v.a. de loi uniforme, alors Xi = F −1 (Ui ) suit la loi de Bernoulli, on a
(
Xi =
0,
1,
Ui ∈ [0, 1 − p],
Ui ∈ (1 − p, 1].
1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION
19
Exercice 1.5
Une v.a. Y prend les valeurs 1, 3 et 4 avec les probabilités P (Y = 1) = 3/5, P (Y = 3) = 1/5 et
P (Y = 4) = 1/5. Décrivez comment vous allez obtenir Y à partir d’une v.a. U ∼ U (0, 1).
Exercice 1.6
Soit U ∼ U (0, 1).
1. Expliquez comment obtenir une simulation de dés à 6 faces à partir de U .
2. Soit Y = [6U + 1], où [a] est la partie entière de a. Quelles sont les valeurs possibles de
Y et leurs probabilités ?
Simulation des variables transformées Comment simuler un échantillon Y1 , ..., Yn de loi
F ((x − µ)/σ), étant donné l’échantillon X1 , ..., Xn de F (·) ? On suppose que σ > 0 et µ ∈ R). Il
faut prendre Yi = σXi + µ, i = 1, ..., n.
1.6.3
Simulation de la loi normale N (0, 1)
Dans le cas d’une loi normale la f.d.r. F est bien continue et monotone mais n’est pas connue
explicitement. Il est difficile d’appliquer la méthode d’inversion. Il existe néanmoins d’autres
méthodes de simulation très performantes du point de vue du coût de calcul.
Utilisation du Théorème central limite. Si U ∼ U [0, 1] nous avons E(U ) = 1/2 et
Var(U ) = 1/12. Ceci implique par le Théorème central limite que
U1 + ... + UN − N/2 D
p
→ N (0, 1),
N/12
N → ∞,
pour un échantillon i.i.d. U1 , ..., UN de loi uniforme sur [0, 1] (N = 12 est suffisant pour obtenir
une bonne approximation !). D’où la méthode de simulation suivante : soit U1 , U2 , ..., U nN une
suite de variables pseudo-aléatoires de loi U [0, 1], on prend
Xi =
U(i−1)N +1 + ... + UiN − N/2
p
Méthode de Box et Müller.
N/12
,
i = 1, ..., n.
Elle découle du résultat suivant :
Proposition 1.11 Soit ξ et η variables aléatoires indépendantes de loi U [0, 1]. Alors les v.a.
X=
p
−2 ln ξ cos(2πη) et Y =
p
−2 ln ξ sin(2πη)
sont normales et indépendantes avec E(X) = E(Y ) = 0, Var(X) = Var(Y ) = 1.
On démontre cette proposition dans le Chapitre 3.
Ce résultat nous donne une méthode efficace de simulation : soit U1 , ..., U2n variables aléatoires
i.i.d. de loi U [0, 1]. On pose
pour i = 1, ...n.
X2i =
p
X2i−1 =
p
−2 ln U2i cos(2πU2i−1 ),
−2 ln U2i sin(2πU2i−1 ),
20
1.7
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Exercices
Exercice 1.7
On jette deux dés équilibrés. Trouver la loi de probabilité conjointe de X et Y dans les cas
suivants :
1. X est la plus grande des deux valeurs obtenues et Y en est la somme ;
2. X est la valeur obtenue avec le premier dé et Y est la plus grande des deux valeurs ;
3. X et Y sont respectivement la plus petite et la plus grande des deux valeurs obtenues.
Exercice 1.8
Soit X et Y deux v.a. indépendantes de loi de Bernoulli B( 12 ). Soit U = X + Y et V = |X − Y |.
1. Donner la loi jointe et les lois marginales de U et V , la loi de U sachant V = 0 et V = 1.
2. U et V sont-ils indépendants ?
Exercice 1.9
Soit ξ1 , ..., ξn des variables aléatoires indépendantes et
ξmin = min(ξ1 , ..., ξn ),
ξmax = max(ξ1 , ..., ξn ).
1) Montrer que
P (ξmin ≥ x) =
n
Y
P (ξi ≥ x),
P (ξmax < x) =
n
Y
P (ξi < x).
i=1
i=1
2) Supposons, de plus, que ξ1 , ..., ξn sont identiquement distribuées avec la loi uniforme U [0, a].
Calculer E(ξmin ), E(ξmax ), Var(ξmin ) et Var(ξmax )
Exercice 1.10
Soit ξ1 , ..., ξn des v.a. indépendantes de loi de Bernoulli avec
P (ξ1 = 0) = 1 − λi ∆,
P (ξ1 = 1) = λi ∆
où λi > 0 et ∆ > 0 petit. Démontrer que
P
n
X
i=1
!
ξi = 1
=
n
X
!
2
λi ∆ + O(∆ ),
i=1
P
n
X
!
ξi > 1
= O(∆2 ).
i=1
Exercice 1.11
1) Montrer que inf −∞<a<∞ E((ξ − a)2 ) est atteint pour a = E(ξ) et donc
inf
−∞<a<∞
E((ξ − a)2 ) = Var(ξ).
2) Soit ξ une variable aléatoire non négative avec la f.d.r. F et d’espérance finie. Démontrer que
Z ∞
E(ξ) =
(1 − F (x))dx.
0
3) En utilisant le résultat 2) montrer que si M est la médiane de la f.d.r. F de ξ,
inf
−∞<a<∞
E(|ξ − a|) = E(|ξ − M |).
1.7. EXERCICES
21
Exercice 1.12
Soient X1 et X2 deux v.a. indépendantes de loi exponentielle E(λ). Montrer que min(X1 , X2 ) et
|X1 − X2 | sont des variables aléatoires de lois respectivement E(2λ) et E(λ).
Exercice 1.13
Soit X le nombre d’apparitions de “6” dans 12000 tirages√
d’un dé. En utilisant
√ le théorème central
limite estimer la probabilité que 1800 < X ≤ 2100 (Φ( 6) ≈ 0.9928, Φ(2 6) ≈ 0.999999518).
Utiliser l’inégalité de Tchebychev pour obtenir l’approximation.
Exercice 1.14
Soient les variables aléatoires ξ1 , ..., ξn indépendantes pour chaque n et équidistribuées avec la
f.d.r F (x). On définit pour chaque x ∈ R la v.a. Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn
qui satisfont ξk < x. Montrer que pour tout x
P
Fbn (x) → F (x)
(la fonction Fbn (x) s’appelle fonction de répartition empirique).
Exercice 1.15
[Méthode de Monté-Carlo] On cherche à calculer l’intégrale I =
aléatoire de loi U [0, 1], alors
R1
0
f (x)dx. Soit X la variable
Z 1
f (x)dx = I.
E(f (X)) =
0
Soit X1 , ..., Xn des v.a. i.i.d avec une distribution uniforme sur [0, 1]. Considérons
n
1X
f¯n =
f (Xi )
n i=1
P
et supposons que σ 2 = Var(f (X)) < ∞. Montrer que E(f¯n ) → I et f¯n → I quand n → ∞.
Estimer P (|f¯n − I| < ) à l’aide du théorème central limite.
Exercice 1.16
Dans la modélisation de durée de vie des composants mécaniques on utilise quelquefois des v.a.
de loi de Weibull. Un exemple de loi de cette famille est la loi dont la f.d.r est
(
F (x) =
1−
0, x < 0
x ≥ 0.
2
e−5x ,
Construire une variable Z avec cette loi à partir d’une v.a. de loi U (0, 1).
Exercice 1.17
Décrire l’algorithme de simulation d’une loi de Poisson par inversion.
Indication : il n’y a pas d’expression simple pour la fonction de répartition et l’ensemble des
valeurs possible est infini. Il faut donc calculer les valeurs Fk au fur et à mesure. On remarque
que si X suit la loi de Poisson,
P (X = k) = e−λ
λk
λ
= P (X = k − 1).
k!
k
22
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
Chapitre 2
Régression et corrélation
2.1
Couples des variables aléatoires. Lois jointes et marginales
Soit (X, Y ) un couple de variables aléatoires. La f.d.r. jointe du couple (X, Y ) est
FX,Y (x, y) = P (X ≤ x, Y ≤ y),
x, y ∈ R.
Les f.d.r. marginales sont données par
FX (x) = FX,Y (x, ∞) = P (X ≤ x);
FY (y) = FX,Y (∞, y) = P (Y ≤ y).
Dans le cas continu on suppose que FX,Y admet une densité fX,Y par rapport à la mesure
de Lebesgue dans R2 , et la dérivée
∂ 2 FX,Y (x, y)
= fX,Y (x, y)
∂x∂y
(2.1)
existe presque partout. La fonction fX,Y (x, y) est la densité de FX,Y (x, y).
Les densités marginales sont définies par
Z ∞
Z ∞
fX (x) =
−∞
fX,Y (x, y)dy, fY (y) =
−∞
fX,Y (x, y)dx.
Dans le cas discret X et Y prennent au maximum un nombre dénombrable de valeurs. La
loi jointe du couple X, Y est définie par les probabilités {P (X = k, Y = m)}k,m . Les lois
marginales sont définies par les probabilités
P (X = k) =
X
P (X = k, Y = m),
m
P (Y = m) =
X
P (X = k, Y = m).
k
Si X et Y sont indépendantes, alors
FX,Y = FX (x)FY (y) pour tout (x, y) ∈ R2 .
23
24
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
La réciproque est aussi vraie. Dans le cas continu ça se traduit par la décomposition
fX,Y (x, y) = fX (x)fY (y), pour tout (x, y) ∈ R2 ,
et dans le cas discret par
P (X = k, Y = m) = P (X = k)P (Y = m).
2.2
Conditionnement (cas discret)
Soit A et B deux événement aléatoires (A, B ∈ F) tels que P (B) 6= 0. La probabilité
conditionnelle P (A|B) de A sachant B est définie par
P (A|B) =
P (AB)
.
P (B)
Soit X et Y deux v.a. discrètes. Selon cette définition
P (Y = k|X = m) =
P (Y = k, X = m)
,
P (X = m)
pour tout k, m tels que P (X = m) 6= 0. On suppose que P (X = m) 6= 0 pour tout m admissible.
Alors on a
P
X
P (Y = k, X = m)
P (Y = k|X = m) = k
= 1.
P (X = m)
k
Donc les probabilités {P (Y = k|X = m)}k définissent une loi discrète de probabilité. Si X et Y
sont indépendantes,
P (Y = k|X = m) =
P (Y = k)P (X = m)
= P (Y = k).
P (X = m)
(2.2)
Espérance conditionnelle de Y sachant que X = m est la valeur numérique
E(Y |X = m) =
X
kP (Y = k|X = m).
k
La variance conditionnelle est donneée par
Var(Y |X = m) = E(Y 2 |X = m) − [E(Y |X = m)]2 .
De façon analogue on définit les moments conditionnels, les quantiles conditionnels et autres
caractéristiques d’une loi conditionnelle.
Définition 2.1 L’espérance conditionnelle E(Y |X) de Y sachant X où X et Y sont des variables aléatoires discrètes, E(|Y |) < ∞, est une variable aléatoire discrète qui ne dépend que
de X et qui prend les valeurs
{E(Y |X = m)}m
avec les probabilités P (X = m).
2.2. CONDITIONNEMENT (CAS DISCRET)
25
Il est important de ne pas confondre la variable aléatoire E(Y |X) et la fonction numérique
(déterministe) E(Y |X = m) (fonction de m).
On note que la condition E(|Y |) < ∞ garantit l’existence de l’espérance conditionnelle
E(Y |X).
2.2.1
1o .
Propriétés des espérances conditionnelles (cas discret)
(Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors, pour tout a ∈ R, b ∈ R,
E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.)
2o .
Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.) (vu (2.2)).
3o .
E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h.
4o .
(Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors
E(h(Y, X)|X = m) = E(h(Y, m)|X = m).
Preuve : On pose Y 0 = h(Y, X), c’est une v.a. discrète qui prend les valeurs h(k, m). Donc, la
loi conditionnelle de Y 0 sachant X est donnée par les probabilités
P (Y 0 = a|X = m) = P (h(Y, X) = a|X = m) =
=
P (h(Y, X) = a, X = m)
P (X = m)
P (h(Y, m) = a, X = m)
= P (h(Y, m) = a|X = m).
P (X = m)
D’où pour tout m fixé
E(Y 0 |X = m) =
X
aP (Y 0 = a|X = m) =
a
X
aP (h(Y, m) = a|X = m) = E(h(Y, m)|X = m).
a
Par conséquent, si h(x, y) = h1 (y)h2 (x), nous avons
E(h1 (Y )h2 (X)|X = m) = h2 (m)E(h1 (Y )|X = m),
et
E(h1 (Y )h2 (X)|X) = h2 (X)E(h1 (Y )|X) (p.s.) .
5o . (Théorème de l’espérance double) Soit E(|Y |) < ∞, alors E(E(Y |X)) = E(Y ).
Preuve : On décompose
E(E(Y |X)) =
X
E(Y |X = m)P (X = m) =
m
=
X
m,k
XX
m
kP (Y = k, X = m) =
X X
k
k
m
kP (Y = k|X = m)P (X = m)
k
P (Y = k, X = m) =
X
k
kP (Y = k) = E(Y ).
26
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Exemple 2.1 Soit ξ et η deux variables aléatoires indépendantes de même loi de Bernoulli,
qui prennent les valeurs 1 et 0 avec probabilités p et 1 − p. Quelle est l’espérance conditionnelle
E(ξ + η|η) ? E(η|ξ + η) ?
En utilisant les propriétés 2o et 3o nous avons
E(ξ + η|η) = Eξ + η = p + η.
On utilise la définition : pour k = 0, 1, 2,
E(η|ξ + η = k) = 1 · P (η = 1|ξ + η = k) =
Donc E(η|ξ + η) =
2.3
ξ+η
2


 0,
1/2,

 1,
k = 0,
k = 1,
k = 2.
(p.s.).
Conditionnement comme une projection
Considèrons l’ensemble des toutes les variables aléatoires ξ sur (Ω, F, P ) telles que E(ξ 2 ) <
∞. On dit que ξ ∼ ξ 0 si ξ = ξ 0 (p.s.). par rapport à la mesure P . Ceci définit l’ensemble des
classes d’équivalence sur les variables aléatoires telles que E(ξ 2 ) < ∞.
Définition 2.2 On note L2 (P ) l’espace des (classes d’équivalence de) variables aléatoires ξ de
carré intégrables (E(ξ 2 ) < ∞).
L’espace L2 (P ) qu’on vient de définir est un espace de Hilbert muni du produit scalaire
hX, Y i = E(XY ),
X, Y ∈ L2 (P ),
et de la norme respective kXk = [E(X 2 )]1/2 , X ∈ L2 (P ).
En effet, h·, ·i vérifie les axiomes du produit scalaire : pour tous X, ξ, η ∈ L2 (P ) et a, b ∈ R
haξ + bη, Xi = E([aξ + bη]X) = aE(ξX) + bE(ηX) = ahξ, Xi + bhη, Xi,
et hX, Xi ≥ 0 ; hX, Xi = 0 implique X = 0 (p.s.).
2.3.1
Meilleure prévision
Si les variables X et Y sont indépendantes la connaissance de la valeur prise par X n’ajoute
aucune information sur celle de Y . Mais si X et Y sont dépendantes et si on connaı̂t la réalisation
de X, ça nous apporte une information sur Y . On pose le problème de meilleure prévision
de Y étant donnée X de façon suivante :
Soit Y ∈ L2 (P ) et soit X une v.a. sur (Ω, F, P ). Trouver une fonction mesurable (borélienne)
g(·) telle que
kY − g(X)k = min kY − h(X)k,
h(·)
(2.3)
où le minimum est récherché entre toutes les fonction mesurables (boréliennes) h(·) et k · k est
la norme de L2 (P ). La variable aléatoire Yb = g(X) est dite la meilleure prévision de Y étant
donné X.
2.3. CONDITIONNEMENT COMME UNE PROJECTION
27
On utilise le vocabulaire (statistique ou para-statistique) : X est dite variable explicative ou
prédicteur, Y est dite variable expliquée.
On peut écrire (2.3) sous la forme équivalente :
E((Y − g(X))2 ) = min E((Y − h(X))2 ) =
h(·)
min
h(X)∈LX
2 (P )
E((Y − h(X))2 ).
Il suffit de considérer le cas h(X) ∈ L2 (P ), car la solution g(·) de (2.3) est automatiquement
dans L2 (P ).
On peut considérer (2.3) comme le problème de projection orthogonale de Y sur le sousespace linéaire LX
2 (P ) de L2 (P ) défini par
2
LX
2 (P ) = {ξ = h(X) : E(h (X)) < ∞}.
Par les propriétés de projection orthogonale, g(X) ∈ LX
2 (P ) est la solution de (2.3) si et
seulement si
hY − g(X), h(X)i = 0 pour tout h(X) ∈ LX
2 (P ),
Y
g(X)
LX(P)
2
et la projection orthogonale g(X) est unique (p.s.). En passant à la notation avec les espérances,
on écrit la précedente formule comme
E((Y − g(X))h(X)) = 0 pour tout h(X) ∈ LX
2 (P ),
ou bien,
E(Y h(X)) = E(g(X)h(X)) pour tout h(X) ∈ LX
2 (P ).
(2.4)
E(Y I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tout A ∈ B (borélien).
(2.5)
En particulier,
Remarque. En effet, (2.5) implique (2.4), et donc (2.4) et (2.5) sont équivalents – on se
P
rappelle que toute fonction de L2 peut être approximée par des sommes de type i ci I{x ∈ Ai }
(fonction-escalier).
On va montrer maintenant que dans le cas discret la seule variable aléatoire g(X) qui
vérifie (2.4) (et (2.5)), et donc résout le problème de meilleure prévision (2.3), est l’espérance
conditionnelle de Y sachant X.
28
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Proposition 2.1 Soit X et Y v.a. discrètes, Y ∈ L2 (P ). Alors la meilleure prévision Yb de Y
étant donnée X est unique (p.s.) et définie par
Yb = g(X) = E(Y |X).
Preuve :
E (E(Y |X)h(X)) =
X
E(Y |X = k)h(k)P (X = k)
k
=
"
X X
k
=
X
#
mP (Y = m|X = k) h(k)P (X = k)
m
m h(k)P (Y = m, X = k) = E(Y h(X)).
k,m
Donc (2.4) est vérifié avec g(X) = E(Y |X). Comme la projection orthogonale est unique (p.s.),
la meilleure prévision est unique (p.s.) aussi.
2.4
Probabilité et espérance conditionnelle (Cas général)
On peut étendre la définition de l’espérance conditionnelle E(Y |X) au cas de 2 variables
aléatoires X et Y générales. On utilise la définition suivante :
Définition 2.3 Soient Y et X deux variables aléatoires telles que E(|Y |) < ∞. L’espérance
conditionnelle g(X) = E(Y |X) est une variable aléatoire mesurable par rapport à X qui vérifie
E(Y I{X ∈ A}) = E(g(X)I{X ∈ A})
(2.6)
pour tout ensemble borélien A.
Remarque : ici on passe de l’hypothèse Y ∈ L2 (P ) (≡ E(Y 2 ) < ∞) à l’hypothèse plus faible
E(|Y |) < ∞. On peut démontrer (voir le cours de probabilités) que la fonction g(X) qui vérifie
(2.6) existe et elle est unique (p.s.) (conséquence du Théorème de Radon-Nikodym).
Si Y ∈ L2 (P ), l’existence et l’unicité p.s. de la fonction g(X) vérifiant (2.6) est une
conséquence des propriétés de projection orthogonale dans L2 comme on a déjà vu.
Théorème 2.1 (de meilleure prévision) Soient X et Y v.a., Y ∈ L2 (P ). Alors la meilleure
prévision de Y étant donné X est unique (p.s.) et elle est égale à
Yb = g(X) = E(Y |X).
2.4. PROBABILITÉ ET ESPÉRANCE CONDITIONNELLE (CAS GÉNÉRAL)
2.4.1
29
Probabilité conditionnelle
Considérons le cas particulier suivant : on remplace Y par Y 0 = I{Y ∈ B}. Notons que la
variable Y 0 est bornée (|Y 0 | ≤ 1) et donc E(|Y 0 |2 ) < ∞. On peut définir l’espérance conditionnelle
g(X) = E(Y 0 |X) par la relation (cf. (2.6))
E (I{Y ∈ B}I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tous A, B ∈ B.
Définition 2.4 La probabilité conditionnelle P (Y ∈ B|X) est la variable aléatoire qui vérifie
P (Y ∈ B, X ∈ A) = E [P (Y ∈ B|X)I{X ∈ A}] pour tout A ∈ B
Comme dans le cas discret on définit également la fonction numérique :
Définition 2.5 La fonction de deux variables P (Y ∈ B|X = x), B ∈ B (un ensemble borélien)
et x ∈ R est dite probabilité conditionnelle de Y sachant que X = x si
(i) pour tout B fixé P (Y ∈ B|X = x) vérifie
P (Y ∈ B, X ∈ A) =
Z
P (Y ∈ B|X = x)dFX (x);
(2.7)
A
(ii) pour tout x fixé P (Y ∈ B|X = x) est une loi de probabilités comme fonction de B.
Remarque :
on sait déjà que pour tout B ∈ B il existe une fonction
gB (x) = P (Y ∈ B|X = x)
t.q. (i) est vérifié. Mais cette fonction est définie modulo les valeurs sur un ensemble NB de
mesure nulle. Il est important que, généralement, cet ensemble dépend de B. Donc il est possible
S
que N = B∈B NB soit de mesure > 0. Les dégâts pourraient être considérables : par exemple,
l’additivité de la mesure de probabilités pourrait être violée, etc. Heureusement, dans notre cas
(v.a. réelles et tribu borélienne) il existe le théorème (de Kolmogorov) qui dit qu’on peut choisir
une version de la fonction gB (·) telle que P (Y ∈ B|X = x) soit une mesure de probabilités
pour tout x ∈ R fixé. Dans la suite on suppose que cette version est choisie dans chaque cas
particulier.
On peut définir également la fonction réelle de x :
E(Y |X = x) =
Z
yP (dy|X = x).
telle que
E(Y I{X ∈ A}) =
Z
E(Y |X = x)dFX (x), pour tout A ∈ B.
A
2.4.2
1o .
Propriétés de l’espérance conditionnelle (cas général)
(Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors
E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.)
30
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
2o . Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.)
Preuve : Vu la définition (2.6) il suffit de montrer que
E(Y I{X ∈ A}) = E (E(Y )I{X ∈ A}) , pour tout A ∈ B.
(2.8)
Mais
E (E(Y )I{X ∈ A}) = E(Y )P (X ∈ A),
et donc (2.8) est une conséquence de l’indépendance de X et Y .
3o .
E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h.
4o .
(Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors
E(h(Y, X)|X = x) = E(h(Y, x)|X = x).
5o .
(Théorème de l’espérance double)
E(E(Y |X)) = E(Y ).
Preuve : On pose A = R dans la définition (2.6), alors I(X ∈ A) = 1, et on obtient le résultat
désiré.
2.5
Conditionnement : cas continu
On suppose maintenant qu’il existe une densité jointe fX,Y (x, y) du couple (X, Y ). Posons
( f (x,y)
X,Y
fY |X (y|x) =
fX (x)
,
si fX (x) > 0,
si fX (x) = 0.
0,
Proposition 2.2 Si la densité jointe de (X, Y ) existe, alors
P (Y ∈ B|X = x) =
Z
B
fY |X (y|x)dy pour tout B ∈ B.
Preuve : Il suffit de montrer (cf. (2.7)) que pour tous A, B ∈ B
P (Y ∈ B, X ∈ A) =
Z Z
A
B
fY |X (y|x)dy dFX (x).
Comme X possède une densité, dFX (x) = fX (x)dx. Par le Théorème de Fubuni
Z Z
A B
Z Z
fY |X (y|x)dyfX (x)dx =
B
A
fY |X (y|x)fX (x) dxdy
Mais fY |X (y|x)fX (x) = fX,Y (x, y) presque partout (si fX (x) = 0, alors fX,Y (x, y) = 0 a fortiori).
Donc la dernière somme est égale à
Z Z
B
A
fX,Y (x, y)dxdy = P (X ∈ A, Y ∈ B).
2.5. CONDITIONNEMENT : CAS CONTINU
31
Le résultat de Proposition 2.2 nous permet de calculer directement l’espérance conditionnelle :
Corollaire 2.1
2.
R∞
1. E(Y |X = x) =
−∞ fY |X (y|x)dy
R
yfY |X (y|x)dy,
= 1,
3. Y ⊥⊥X ⇒ fY |X (y|x) = fY (y).
On peut définir, comme dans le cas discret, la fonction de variance conditionnelle :
V ar(Y |X = x) = E(Y 2 |X = x) − (E(Y |X = x))2
Z ∞
=
−∞
2
Z ∞
2
y fY |X (y|x)dy −
−∞
yfY |X (y|x)dy
.
Exemple 2.2 Soit X et Y des variables indépendantes i.i.d. de loi exponentielle. Calculons la
densité conditionnelle f (x|z) = fX|X+Y (x|z) et E(X|X + Y ).
Soit f (u) = λe−λu I{u > 0} la densité de X et Y . Si z < x
Z z−u
Z z
f (v)dudv,
f (u)
P (X + Y < z, X < x) = P (X + Y < z, X < z) =
0
0
et si z ≥ x,
Z z−u
Z x
f (v)dudv.
f (u)
P (X + Y < z, X < x) =
0
0
Par conséquence, pour z ≥ x la densité jointe de couple (X + Y, X) est (cf. (2.1))
f (z, x) =
∂ 2 P (X + Y < z, X < x)
= f (z − x)f (x) = λ2 e−λz .
∂x∂z
Par ailleurs, la densité de X + Y est la convolution de deux densités exponentielles, i.e.
fX+Y (z) = λ2 ze−λz .
On obtient
fX|X+Y (x|z) =
1
f (z, x)
= .
fX+Y (z)
z
pour 0 ≤ x ≤ z et fX|X+Y (x|z) = 0 pour x > z. Alors, la densité conditionnelle est la densité
d’une loi uniforme sur [0, z]. On obtient donc E(X|Z) = (X + Y )/2 (p.s.).
Cet exemple est lié au modèle du flux de demandes arrivant vers un système de service. Soit
X l’instant où la 1ère demande arrive (l’instant t = 0 est marqué par l’arrivée de la demande
numéro zéro), Y l’intervalle de temps entre les arrivées de la 1ère et la 2ème demande. Alors
on cherche la densité de probabilité de l’instant de la 1ère demande sachant que la seconde est
arrivée à l’instant z.
32
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
2.6
Covariance et corrélation
Soient X et Y v.a. de carré intégrables, i.e. E(X 2 ) < ∞ et E(Y 2 ) < ∞. Dans la suite on
note
2
σX
= Var(X),
σY2 = Var(Y ).
Définition 2.6 La covariance entre X et Y est la valeur
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ).
Si Cov(X, Y ) = 0 on dit que X et Y sont orthogonales (on note X ⊥ Y ).
2 > 0 et σ 2 > 0. La corrélation entre X et Y est la valeur
Définition 2.7 Soit σX
Y
Corr(X, Y ) = ρXY =
2.6.1
1.
2.
3.
4.
5.
Cov(X, Y )
.
σX σY
Propriétés de covariance et de corrélation
Les rélations ci-dessous sont des conséquences immédiates de la Définition 2.6.
Cov(X, X) = Var(X).
Cov(aX, bY ) = abCov(X, Y ), a, b ∈ R.
Cov(X + a, Y ) = Cov(X, Y ), a ∈ R.
Cov(X, Y ) = Cov(Y, X).
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(Y, X).
En effet,
Var(X + Y ) = E((X + Y )2 ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E 2 (X) − E 2 (Y ) − 2E(X)E(Y ).
6. Si X et Y sont indépendantes, Cov(X, Y ) = 0.
Important :
la réciproque n’est pas vraie, par exemple, si X ∼ N (0, 1) et Y = X 2 , alors
Cov(X, Y ) = E(X 3 ) − E(X)E(X 2 ) = E(X 3 ) = 0.
(N (0, 1) est symétrique par rapport à 0).
Passons au propriétés de corrélation :
1. −1 ≤ ρXY ≤ 1 (l’inégalité de Cauchy-Schwarz)
|Cov(X, Y )| = E ((X − E(X))(Y − E(Y )))
≤
q
q
E((X − E(X))2 ) E((Y − E(Y ))2 ) = σX σY
2. Si X et Y sont indépendantes, ρXY = 0.
3. |ρXY | = 1, si et seulement si il existe un lien linéaire déterministe entre X et Y : il existent
a 6= 0, b ∈ R tels que Y = aX + b.
2.7. RÉGRESSION
33
Preuve : On remarque que |ρXY | = 1, ssi l’égalité est atteinte dans l’inégalité de CauchySchwarz. D’après la Proposition 1.4, ce n’est possible que s’il existent α, β ∈ R tels que
α(X − E(X)) + β(Y − E(Y )) = 0 (p.s.),
et soit α 6= 0 ou β 6= 0. Ceci est équivalent à l’existence de α, β et γ ∈ R tels que
αX + βY + γ = 0 (p.s.),
avec α 6= 0 ou β 6= 0. Si α 6= 0 et β 6= 0 on a
γ
α
Y =− X− ,
β
β
β
γ
X=− Y − ,
α
α
La situation quand α = 0 ou β = 0 est impossible, car cela veut dire qu’une de variables Y ou
X est constante (p.s.). Mais nous avons supposé que σX et σY sont positives.
On remarque que si Y = aX + b, a, b ∈ R, a 6= 0,
2
σY2 = E((Y − E(Y ))2 ) = a2 E((X − E(X))2 ) = a2 σX
.
Et la covariance,
2
Cov(X, Y ) = E ((X − E(X))a(X − E(X))) = aσX
,
aσ 2
a
X
= |a|
. On dit que la corrélation est positive entre X et Y si ρXY > 0 et
d’où ρXY = σX |a|σ
X
négative si ρXY < 0. La corrélation ci-dessus est donc positive (= 1) si a > 0 et négative (= −1)
si a < 0.
Interprétation géométrique de la corrélation Soit h·, ·i le produit scalaire et k·k la norme
de L2 (P ). Alors,
Cov(X, Y ) = hX − E(X), Y − E(Y )i
et
ρXY =
hX − E(X), Y − E(Y )i
.
kX − E(X)k kY − E(Y )k
Autrement dit, ρXY est le “cosinus de l’angle” entre X − E(X) et Y − E(Y ). Donc, ρXY = ±1
veut dire que X − E(X) et Y − E(Y ) sont collinéaires : Y − E(Y ) = a(X − E(X)) pour a 6= 0.
2.7
Régression
Définition 2.8 Soit X et Y deux variables aléatoires t.q. E(|Y |) < ∞. La fonction g : R → R
définie par
g(x) = E(Y |X = x)
s’appelle la fonction de régression de Y sur X (de Y en X).
On parle également d’une régression simple (le mot simple signifie que X et Y sont univariées).
Si X ou Y sont multi-dimensionnels, on parle d’une régression multiple.
34
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Interprétation géometrique. On rappelle la construction du paragraphe 2.3. Supposons que
Y est un élement de l’espace de Hilbert L2 (P ) (c’est-à-dire E(Y 2 ) < ∞) et soit, comme avant,
LX
2 (P ) le sous-espace linéaire de l’espace L2 (P ) constitué de toutes fonctions h(X) mesurables
par rapport à X et telles que E(h2 (X)) < ∞. Alors g(X) est la projection orthogonale de Y sur
LX
2 (P ).
Y

E(Y|X)
LX(P)
2
On peut introduire la variable aléatoire ξ = Y − g(X) dite l’erreur stochastique (ou le résidu).
Alors
Y = g(X) + ξ.
(2.9)
Par définition de l’espérance conditionnelle E(ξ|X) = 0 (p.s.), et donc E(ξ) = 0.
Exemple 2.3 Soit la densité jointe de X et Y
f (x, y) = (x + y)I{0 < x < 1, 0 < y < 1}.
Quelle est la fonction de régression g(x) = E(Y |X = x) ?
On utilise le Corollaire 2.1 :
fY |X (y|x) =
f (x, y)
; où fX (x) =
fX (x)
Z 1
f (x, y)dy = (x + 1/2)I{0 < x < 1}.
0
D’où
fY |X (y|x) =
x+y
I{0 < x < 1, 0 < y < 1},
x + 1/2
et
g(x) = E(Y |X = x) =
Z 1
0
yfY |X (y|x)dy =
Z 1
y(x + y)
0
x+
pour 0 < x < 1.
On observe que g(x) est une fonction non-linéaire de x.
1
2
dy =
1
2x
+ 13
x + 21
2.7. RÉGRESSION
2.7.1
35
Variance résiduelle
L’erreur quadratique de l’approximation de Y par g(X) est la valeur suivante :
∆ = E((Y − g(X))2 ) = E (Y − E(Y |X))2 = E(ξ 2 ) = Var(ξ).
On appelle ∆ la variance résiduelle. La variance résiduelle est plus petite que la variance de
Y . En effet, supposons que h(X) = E(Y ) = const. D’après le théorème de meilleure prévision,
∆ = E (Y − g(X))2 ≤ E (Y − h(X))2 = E((Y − E(Y ))2 ) = Var(Y ).
Comme E(Y ) est un élement de LX
2 (P ), géométriquement, cela signifie que la longueur d’une
cathète est plus petite que celle de l’hypothénuse :
Y
X
L2 (P)
E(Y|X)
E(Y)
L
Notons que l’espace de toutes les v.a. constantes L est aussi un sous-espace de linéaire de L2 (P ).
En plus, c’est une intersection de tous les sous-espaces LX
2 (P ) pour tout X. Mais on sait déjà
que E(Y ) est la projection de Y sur L : en effet, pour toute constante a
E((Y − a)2 ) ≥ E((Y − E(Y ))2 )
(voir Exercice 1.11).
Le Théorème de Pythagore donne
kY − E(Y )k2 = kE(Y |X) − E(Y )k2 + kY − E(Y |X)k2 ,
ou bien
Var(Y ) = E((Y − E(Y ))2 ) = E (E(Y |X) − E(Y ))2 + E (Y − E(Y |X))2
= Var (E(Y |X)) + E (Var(Y |X))
= “variance expliquée par X” + “variance résiduelle”
= Var(g(X)) + Var(ξ)
= Var(g(X)) + ∆.
Définition 2.9 Soit Var(Y ) > 0. On appelle rapport de corrélation de Y à X la valeur
positive η 2 = ηY2 |X donnée par
ηY2 |X
Var(g(X))
E E(Y ) − E(Y |X))2
=
.
Var(Y )
Var(Y )
=
36
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Notons que, par le Théorème de Pythagore,
ηY2 |X
E (Y − g(X))2
=1−
.
Var(Y )
Interprétation gómetrique. Le rapport de corrélation ηY2 |X est le cosinus carré de l’angle θ
entre Y − E(Y ) et E(Y |X) − E(Y ), donc 0 ≤ ηY2 |X ≤ 1.
Remarques.
2
1. De façon générale, ηX|Y
6= ηY2 |X (manque de symétrie).
2. η 2 = 0 et η 2 = 1 correspondent à des valeurs remarquables : η 2 = 1 implique que
E((Y −E(Y |X))2 ) = 0, donc Y = g(X) (p.s.), autrement dit, Y est liée fonctionnellement
à X.
Sinon, η 2 = 0 signifie que E((E(Y ) − E(Y |X))2 ) = 0 et E(Y |X) = E(Y ) (p.s.), donc la
régression est constante.
Il est utile de noter que g(X) = const implique l’orthogonalité de X et Y (c’est-à-dire, Cov(X, Y ) =
0).
2 > 0, σ 2 > 0. Alors,
Proposition 2.3 Soit E(X 2 ) < ∞, E(Y 2 ) < ∞ et σX
Y
ηY2 |X ≥ ρ2XY .
Preuve : Vu la définition de ηY2 |X , il suffit de montrer que
E (E(Y ) − E(Y |X))2 Var(X) ≥ [E((X − E(X))(Y − E(Y )))]2 .
Par le Théorème de l’espérance double :
E((X−E(X))(Y −E(Y ))) = E ((X − E(X))E((Y − E(Y )|X)) = E ((X − E(X))(E(Y |X) − E(Y ))) .
Maintenant, en appliquant l’inégalité de Cauchy-Schwarz on obtient
[E((X − E(X))(Y − E(Y )))]2 ≤ E((X − E(X))2 )E (E(Y |X) − E(Y ))2
= Var(X)E (E(Y |X) − E(Y ))2
(2.10)
Remarques.
— ηY2 |X = 0 implique que ρXY = 0.
— La variance résiduelle peut être exprimée en termes du rapport de corrélation :
∆ = (1 − ηY2 |X )Var(Y ).
(2.11)
2.8. RÉGRESSION LINÉAIRE
2.8
37
Régression linéaire
Le cas particulier E(Y |X = x) = a + bx s’appelle régression linéaire. En utilisant (2.9),
on écrit
Y = a + bX + ξ
où ξ est le résidu, E(ξ|X) = 0 (p.s.) (⇒ E(ξ) = 0).
Soit ρ = ρXY et σX > 0, σY > 0 le coefficient de corrélation entre X et Y et les écart-types
de X et Y . On peut exprimer les coefficients de la régression linéaire a et b en termes de ρ, σX
et σY .En effet,
Y − E(Y ) = b(X − E(X)) + ξ.
En multipliant cette équation par X − E(X) et en prenant l’espérance, on obtient
2
Cov(X, Y ) = bVar(X) = bσX
,
d’òu
b=
σY
Cov(X, Y )
=ρ
.
2
σX
σX
Alors,
Y =a+ρ
σY
X + ξ.
σX
Mais
E(Y ) = a + ρ
et donc
a = E(Y ) − ρ
σY
E(X)
σX
σY
E(X).
σX
Finalement,
Y = E(Y ) + ρ
σY
(X − E(X)) + ξ.
σX
(2.12)
2 > 0, Var(Y ) = σ 2 > 0 et la
Proposition 2.4 Si E(X 2 ) < ∞ et E(Y 2 ) < ∞, Var(X) = σX
Y
fonction de régression g(x) = E(Y |X = x) est linéaire, alors elle s’écrit sous la forme
E(Y |X = x) = E(Y ) + ρ
σY
(x − E(X))
σX
(2.13)
et la variance résiduelle est
∆ = (1 − ρ2 )σY2 ,
(2.14)
où ρ est le coefficient de corrélation entre X et Y .
Preuve : L’égalité (2.13) est une conséquence immédiate de (2.12) et du fait que E(ξ|X =
x) = 0. Montrons (2.14). On écrit (2.12) sous la forme
ξ = (Y − E(Y )) − ρ
σY
(X − E(X)).
σX
38
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
En prenant le carré des deux côtés et ensuite l’espérance, on obtient
"
σY
σY
(X − E(X))(Y − E(Y )) + ρ
∆ = E(ξ ) = E (Y − E(Y )) − 2ρ
σX
σX
2
2
= ρ2
2
#
2
(X − E(X))
σY2
σY
Cov(X, Y ) + Var(Y ) = (1 − ρ2 )σY2 .
Var(X) − 2ρ
2
σX
σX
Corollaire 2.2 Si la régression de Y en X est linéaire, sous les hypothèses de Proposition 2.4
on a
ηY2 |X = ρ2XY .
Autrement dit, pour la régression linéaire le rapport de corrélation est égal à la corrélation entre
2
X et Y . (En particulier, ceci implique ρXY = 0 ⇔ ηY2 |X = 0 et ηY2 |X = ηX|Y
=.)
2
2
La réciproque est aussi vraie : en effet, si ρXY = ηY |X , alors la régression est linéaire.
Preuve : Nous avons, grâce à (2.11) : ∆ = (1 − ηY2 |X )Var(Y ), mais dans le cas linéaire, de
plus, ∆ = (1 − ρ2 )Var(Y ), d’après (2.14). Pour démontrer la réciproque, on note que si l’égalité
est atteinte dans l’inégalité de Cauchy-Schwarz (2.10), alors il existe α 6= 0 tel que
α(X − E(X)) = E(Y |X) − E(Y ),
et donc
E(Y |X) = E(Y ) + α(X − E(X)).
Remarque : le fait que la régression de Y sur X est linéaire n’implique pas (en cas général)
que celle de X sur Y soit linéaire, elle aussi.
Exercice 2.1
Nous avons X et Z, deux v.a. indépendantes de loi exponentielle, X ∼ E(λ), Z ∼ E(1). Soit
Y = X + Z. Calculer la fonction de régression g(y) = E(X|Y = y).
2.9. EXERCICES
2.9
39
Exercices
Exercice 2.2
Soit la distribution jointe de X et Y donnée par
(
F (x, y) =
1 − e−2x − e−y + e−(2x+y) si x > 0, y > 0,
0 sinon.
1. Déterminer la distribution marginale de X et Y .
2. Calculer la densité conjointe de X et Y .
3. Calculer les densités marginales de X et Y , la densité conditionnelle de X sachant Y = y.
4. X et Y sont-ils indépendants ?
Exercice 2.3
Considérons la fonction de densité conjointe de X et Y donnée par :
6
xy
f (x, y) = (x2 +
), 0 ≤ x ≤ 1, 0 ≤ y ≤ 2.
7
2
1. Vérifier qu’il s’agit bien d’une fonction de densité conjointe.
2. Déterminer la fonction de densité de X, la densité conditionnelle fY |X (y|x).
3. Trouver P Y > 12 |X <
1
2
.
Exercice 2.4
La fonction de densité de X et Y est donnée par :
f (x, y) = e−(x+y) , 0 ≤ x < ∞, 0 ≤ y < ∞
Trouver :
1. P (X < Y ) ;
2. P (X < a).
Exercice 2.5
Deux points sont choisis sur un segment de longueur L, de manière à ce qu’ils soient de part
et d’autre du milieu du segment. En d’autres termes, les deux points X et Y sont des variables
aléatoires indépendantes telles que X soit uniformément distribué sur [0, L/2[ et Y soit uniformément distribué sur [L/2, L]. Trouver la probabilité que la distance entre les deux points
soit plus grande que L/3.
Exercice 2.6
Soit U1 et U2 deux v.a. indépendantes, toutes deux distribuées uniformément sur [0, a]. Soit
V = min{U1 , U2 } et Z = max{U1 , U2 }. Montrer que la f.d.r. conjointe F de V et Z est donnée
par
t2 − (t − s)2
F (s, t) = P (V ≤ s, Z ≤ t) =
pour 0 ≤ s ≤ t ≤ a.
a2
Indication : notez que V ≤ s et Z ≤ t arrive exactement quand U1 ≤ t et U2 ≤ t toutes les deux,
mais pas quand s < U1 ≤ t et s < U2 ≤ t toutes les deux.
40
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Exercice 2.7
Si X1 et X2 sont des variables aléatoires exponentielles indépendantes avec paramètres respectifs
λl et λ2 , trouver la distribution de Z = X1 /X2 . Calculer aussi P (X1 < X2 ).
Exercice 2.8
Soit X et Y des variables aléatoires indépendantes de même loi. Utiliser la définition pour
démotrer que que E(X|X +Y ) = E(Y |X +Y ) (p.s.), et donc E(X|X +Y ) = E(Y |X +Y ) = X+Y
2
(p.s.).
Exercice 2.9
Soient X, Y1 et Y2 les variables aléatoires indépendantes, Y1 et Y2 sont normales N (0, 1), et
Y1 + XY2
.
Z= √
1 + X2
Utiliser la loi conditionnelle P (Z < u|X = x) pour montrer que Z ∼ N (0, 1).
Exercice 2.10
Soient X et Y deux variables aléatoires sur (Ω, F, P ) et de carré intégrable. Montrer que
Var(Y ) = E(Var(Y |X)) + Var(E(Y |X)).
Exercice 2.11
Soient X1 , ..., Xn des v.a. indépendantes de lois respectives P(λi ) (loi de Poisson de paramètre
λk
λi , i.e. P (Xi = k) = e−λi k!i ).
P
1o . Déterminer la loi de X = ni=1 Xi .
2o . Montrer que la loi de (X1 , ..., Xn ) conditionnellement à X = r est une loi multinômiale
M(r, p1 , ..., pn ) dont on déterminera les paramètres.
Rappel : Les variables (X1 , ..., Xk ) à valeurs entières entre 0 et r suivent la loi multinômiale
M(r, p1 , ..., pk ) si
r!
P (X1 = n1 , ..., Xk = nk ) =
pn1 ...pnk k ,
n1 !...nk ! 1
avec
Pk
i=1 ni
= r. Cette loi décrit les variables (X1 , ..., Xk ),
Xi = “nombre de Y s qui valent i”
dans n expériences indépendantes Y1 , ..., Yr de loi P (Y1 = i) = pi , i = 1, ..., k. Notons que si
k = 2,
P (X1 = n1 , X2 = r − n1 ) = P (X1 = n1 ),
et la loi est noté M(r, p).
3o . Calculer E(X1 |X1 + X2 ).
4o . Montrer que si Xn suit une loi binômiale B(n, λ/n), alors, pour tout entier k, P (Xn = k)
k
tend vers e−λ λk! quand n → ∞.
2.9. EXERCICES
41
Rappel : la loi binômiale décrit la distribution de nombre de succès X dans n tirages indépendantes
d’une loi de Bernouilli :
P (X = k) = Cnk pk (1 − p)n−k .
Exercice 2.12
Démontrer
1. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z),
2. Cov
P
n
i=1 Xi ,
Pn
j=1 Yj =
Pn
i=1
Pn
j=1 Cov(Xi , Yj ).
3. Montrer que si Var(Xi ) = σ 2 et Cov(Xi , Xj ) = γ pour tous 1 ≤ i, j ≤ n, alors
Var(X1 + ... + Xn ) = nσ 2 + n(n − 1)γ.
4. Soit ξ1 et ξ2 les variables aléatoires i.i.d. avec 0 < Var(ξ1 ) < ∞. Montrer que les v.a.
η1 = ξ1 − ξ2 et η2 = ξ1 + ξ2 sont non-corrélées.
Exercice 2.13
Soit X le nombre de 1 et Y le nombre de 2 apparaissant lors de n jets d’un dé équilibré. Calculer
Cov(X, Y ).
Avant de faire le calcul, sauriez-vous dire si Cov(X, Y ) ≥ 0 ou Cov(X, Y ) ≤ 0.
Indication : Utiliser pour cela la relation 2) de l’exercice 2.12.
Exercice 2.14
1o . Soit ξ et η des variables aléatoires avec E(ξ) = E(η) = 0, Var(ξ) = Var(η) = 1 et le coefficient
de corrélation ρ. Montrer que
E(max(ξ 2 , η 2 )) ≤ 1 +
q
1 − ρ2 .
Indication : on remarque que
max(ξ 2 , η 2 ) =
|ξ 2 + η 2 | + |ξ 2 − η 2 |
.
2
2o . Soit ρ le coefficient de corrélation de η et ξ. Démontrer l’inégalité suivante :
q
q
P |ξ − E(ξ)| ≥ Var(ξ) ou |η − E(η)| ≥ Var(η) ≤
1+
p
1 − ρ2
.
2
Exercice 2.15
Soit (X, Y ) un vecteur aléatoire de dimension 2. On suppose que Y suit la loi N (m, τ 2 ) et que
la loi de X sachant Y = y est la loi N (y, σ 2 ).
1o . Quelle est la loi de Y sachant X = x ?
2o . Quelle est la loi de X ?
3o . Quelle est la loi de E(Y |X) ?
Exercice 2.16
42
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
Soient X et N deux variables aléatoires telles que N prend ses valeurs dans {1, 2, . . .} et E(|X|) <
∞, E(N ) < ∞ . On considère la suite X1 , X2 , . . . des variables indépendantes de même loi que
X. Montrer l’identité de Wald : si N est indépendante des Xi , alors
N
X
E(
Xi ) = E(N )E(X).
i=1
Exercice 2.17
Le salaire désiré d’un individu s’écrit Y ∗ = Xb + σε, où σ > 0, b ∈ R, X une variable aléatoire
admettant des moments d’ordre 2 mesurant la capacité de l’individu, ε est indépendante de X
et de loi N (0, 1). Si Y ∗ est plus grand que le SMIC S, alors le salaire reçu Y est Y ∗ , et S sinon.
Calculer E(Y |X). Cette espérance est-elle linéaire ?
Exercice 2.18
Montrer que si φ est une fonction caractéristique d’une v.a. réelle, alors φ∗ , |φ|2 et Re(φ), sont
aussi des fonction caractéristiques.
Indication : pour Re(φ) on pourra considérer deux variables X et Y indépendantes, où Y
prend les valeurs −1 et 1 avec la même probabilité 1/2, et X a φ comme fonction caractéristique,
et on calculera la fonction caractéristique de XY .
Chapitre 3
Vecteurs aléatoires. Loi normale
multivariée
3.1
Vecteurs aléatoires (rappel)
Soit X = (ξ1 , ..., ξp )T un vecteur aléatoire 1 , où ξ1 , ..., ξp sont des variables aléatoires univariées. De la même façon on forme des matrices aléatoires :


ξ11 , ... ξ1q


...
Ξ=
,
ξp1 , ... ξpq
où ξ11 , ..., ξqp sont des v.a. univariées. La fonction de répartition de vecteur aléatoire X est
F (t) = P (ξ1 ≤ t1 , ..., ξp ≤ tp ),
t = (t1 , ..., tp )T ∈ Rp .
Si F (t) est dérivable par rapport a t, la densité de X (la densité jointe de ξ1 , ..., ξp ) existe et est
égale à la dérivée mixte
∂ p F (t)
.
f (t) = f (t1 , ..., tp ) =
∂t1 , ..., ∂tp
Dans ce cas
Z t1
Z tp
F (t) =
...
−∞
3.1.1
−∞
f (u1 , ..., up )du1 ...dup .
Propriétés de densité d’une distribution multivariée
∞
∞
Nous avons : f (t) ≥ 0, −∞
... −∞
f (t1 , ..., tp )dt1 ...dtp = 1. La densité marginale de
ξ1 , ..., ξk , k < p est (on adopte le symbole f (·) comme notation générique pour les densités)
R
R
Z ∞
f (t1 , ..., tk ) =
Attention :
nales.
Z ∞
...
−∞
−∞
f (t1 , ..., tp )dtk+1 ...dtp .
deux vecteurs aléatoires différents peuvent avoir les mêmes distributions margi-
1. Par convention, le vecteur X ∈ Rp×1 est un vecteur colonne.
43
44
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Exemple 3.1 On considère les densités
f1 (t1 , t2 ) = 1, et f2 (t1 , t2 ) = 1 + (2t1 − 1)(2t2 − 1), 0 < t1 , t2 < 1.
Dans les deux cas, f (t1 ) =
R1
0
f (t1 , t2 )dt2 = 1.
Comme dans le cas p = 2, la densité conditionnelle de ξ1 , ..., ξk sachant ξk+1 , ..., ξp est
f (t1 , ..., tk |tk+1 , ..., tp ) =
f (t1 , ..., tp )
.
f (tk+1 , ..., tp )
Si X1 et X2 sont deux vecteurs aléatoires, alors
fX2 |X1 (x2 |x1 ) =
f (x1 , x2 )
.
f (x1 )
Indépendance. Supposons que deux vecteurs aléatoires X1 et X2 ont une densité conjointe
f (x1 , x2 ). Ils sont indépendants ssi
f (x1 , x2 ) = f1 (x1 )f2 (x2 ),
où f1 et f2 sont des densités de probabilité. Autrement dit, la densité conditionnelle fX2 |X1 (x2 |x1 )
ne dépend pas de x1 . Comme dans le cas de deux variables aléatoires, l’indépendance est preservée par des transformations mesurables des vecteurs X1 et X2 .
3.1.2
Moments des vecteurs aléatoires
Le vecteur µ = (µ1 , ..., µp )T ∈ Rp est la moyenne du vecteur aléatoire X = (ξ1 , ..., ξp )T si
Z
µj = E(ξj ) =
Z
...
tj f (t1 , ..., tp )dt1 ...dtp , j = 1, ..., p
(on suppose, bien évidemment, que les intégrales ci-dessus existent), on écrit alors µ = E(X). De
la même façon on définit l’espérance d’une matrice aléatoire. Comme dans le cas réel, l’espérance
est une fonctionnelle linéaire : pour toute matrice A ∈ Rq×p et b ∈ Rq ,
E(AX + b) = AE(X) + b = Aµ + b.
Cette propriété reste valide pour des matrices aléatoires : si Ξ est une matrice p × q aléatoire,
A ∈ Rq×p , alors E(AΞ) = AE(Ξ).
Matrice Σ de covariance du vecteur aléatoire X est donnée par
∆
Σ = V (X) = E((X − µ)(X − µ)T ) = (σij )
(on note que dans ce cas σij n’est pas forcement positive), une matrice p × p, où
σij = E((ξi − µi )(ξj − µj )) =
Z
Z
...
(ti − µi )(tj − µj )f (t1 , ..., tp )dt1 ...dtp .
Comme σij = σji , Σ est une matrice symétrique. On peut définir également la matrice de
covariance des vecteurs aléatoires X (p × 1) et Y (q × 1) :
C(X, Y ) = E((X − E(X))(Y − E(Y ))T ), C ∈ Rp×q .
3.1. VECTEURS ALÉATOIRES (RAPPEL)
45
La matrice de covariance possède les propriétés suivantes :
1o . Σ = E(XX T ) − µµT , où µ = E(X).
2o . Pour tout a ∈ Rp , Var(aT X) = aT V (X)a.
Preuve : Notons que par linéarité de l’espérance,
Var(aT X) = E((aT X − E(aT X))2 ) = E (aT (X − E(X))2 = E aT (X − µ)(X − µ)T a
= aT E (X − µ)(X − µ)T a = aT V (X)a.
Comme Var(aT X) ≥ 0, ceci implique que la matrice V (X) est définie-positive. Donc nous
avons
3o . Σ ≥ 0.
4o . Soit A une matrice p × q. Alors V (AX + b) = AV (X)AT .
Preuve : Désignons Y = AX + b, alors par linéarité de l’espérance,
ν = E(Y ) = E(AX + b) = Aµ + b et Y − E(Y ) = A(X − µ).
Maintenant, nous avons :
V (Y ) = E(A(X − µ)(X − µ)T A) = AV (X)AT (linéarité de nouveau).
5o .
6o .
7o .
8o .
C(X, X) = V (X). Dans ce cas C = C T ≥ 0 (matrice positive).
C(X, Y ) = C(Y, X)T .
C(X1 + X2 , Y ) = C(X1 , Y ) + C(X2 , Y ).
Si X et Y sont deux p-vecteurs aléatoires,
V (X + Y ) = V (X) + C(X, Y ) + C(Y, X) + V (Y ) = V (X) + C(X, Y ) + C(X, Y )T + V (Y ).
9o . Si X⊥⊥Y , alors C(X, Y ) = 0 (matrice nulle) (l’implication inverse n’est pas vraie). Ceci se
démontre comme dans le cas de covariance des v.a. univariées.
La matrice de corrélation
P de X est donnée par P = (ρij ), 1 ≤ i, j ≤ p avec
ρij = √
σij
√
σii σjj
.
On remarque que les éléments diagonaux ρii = 1, i = 1, ..., p.
√
Si ∆ est une matrice diagonale avec ∆ii = σii , alors P = ∆−1 Σ∆−1 , et la positivité de Σ
implique la positivité de P , i.e. P ≥ 0.
3.1.3
Fonction caractéristique d’un vecteur aléatoire
Définition 3.1 Soit X ∈ Rp un vecteur aléatoire. Sa fonction caractéristique pour tout t ∈ Rp
est donnée par
φX (t) = E exp(itT X) .
46
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Exercice 3.1
p
q
On montre que les deux vecteurs aléatoires X ∈
! R et Y ∈ R sont indépendants ssi la fonction
!
X
a
caractéristique φZ (u) du vecteur Z =
peut être réprésentée pour tout u =
,
Y
b
a ∈ Rp et b ∈ Rq , comme
φZ (u) = φX (a)φY (b).
Vérifier cette caractérisation dans le cas continu.
3.1.4
Transformations des vecteurs aléatoires
Soit h = (h1 , ..., hp )T une transformation, c.-à.-d. une fonction de Rp vers Rp ,
h(t1 , ..., tp ) = (h1 (t1 , ..., tp ), ..., hp (t1 , ..., tp ))T , t = (t1 , ..., tp )T ∈ Rp .
Le Jacobien de la transformation est défini par
!
∂hi
(t)
Jh (t) = Det
∂tj
.
i,j
Proposition 3.1 (Rappel d’analyse) Supposons que
(i) les dérivées partielles de hi (·) sont continues sur Rp , i = 1, ..., p,
(ii) h est une bijection,
(iii) Jh (t) 6= 0 pour tout t ∈ Rp .
Alors, pour toute fonction f (t) telle que
Z
|f (t)|dt < ∞
Rp
et tout ensemble borélien K ⊆ Rp on a
Z
Z
f (t)dt =
K
h−1 (K)
f (h(u))|Jh (u)|du.
Remarque : par le théorème de fonction inverse on peut affirmer que sous les conditions de
la Proposition 3.1 la fonction inverse g(·) = h−1 (·) existe partout dans Rp et
Jh−1 (h(u)) =
1
,
Jh (u)
ou bien,
Jh−1 (t) =
1
Jh
(h−1 (t))
.
Donc h satisfait les conditions (i) − (iii) de Proposition 3.1 ssi g = h−1 satisfait les mêmes
conditions.
Nous avons le corollaire suivant de Proposition 3.1 :
3.1. VECTEURS ALÉATOIRES (RAPPEL)
47
Proposition 3.2 Soit Y un vecteur aléatoire avec la densité fY (t), t ∈ Rp . Soit g : Rp → Rp
une transformation qui satisfait les hypothèses de Proposition 3.1. Alors, la densité du vecteur
aléatoire X = g(Y ) existe et est donnée par
fX (u) = fY (h(u))|Jh (u)|, pour tout u ∈ Rp ,
où h = g −1 .
Preuve : Soit X = (ξ1 , ..., ξp )T , v = (v1 , ..., vp )T , et Av = {t ∈ Rp : gi (t) ≤ vi , i = 1, ..., p}.
Alors, par la Proposition 3.1 avec h = g −1 et f = fY , la f.d.r. de X est
FX (v) = P (ξi ≤ vi , i = 1, ..., p) = P (gi (Y ) ≤ vi , i = 1, ..., p)
Z
=
Z
fY (t)dt =
Av
g(Av )
fY (h(u))|Jh (u)|du.
Mais
g(Av ) = {u = g(t) ∈ Rp : t ∈ Av } = {u = g(t) ∈ Rp : gi (t) ≤ vi , i = 1, ..., p}
= {u = (u1 , ..., up )T ∈ Rp : ui ≤ vi , i = 1, ..., p}.
D’où
Z vp
Z v1
FX (v) =
...
−∞
−∞
fY (h(u))|Jh (u)|du
pour tout v = (v1 , ..., vp )T ∈ Rp . Ceci implique que la densité de X est fY (h(u))|Jh (u)|.
Corollaire 3.1 Si X = AY + b où Y est un vecteur aléatoire sur Rp avec la densité fY et A
est une matrice p × p inversible, alors
fX (u) = fY (A−1 (u − b)) Det(A−1 ) =
fY (A−1 (u − b))
.
| Det(A)|
Pour vérifier ce résultat il suffit d’utiliser la Proposition 3.2 avec u = g(t) = At + b et donc
t = g −1 (u) = h(u) = A−1 (u − b).
3.1.5
Rappel des propriétes des matrices symétriques
La matrice A p × p, A = (aij ), i, j = 1, ..., p est symétrique si aij = aji , i, j = 1, ..., p.
La matrice Γ p × p est dite orthogonale si
Γ−1 = ΓT (ou bien ΓΓT = ΓT Γ = I)
(où I est une matrice identité p × p). C.-à.-d. que les colonnes γ·j de Γ sont des vecteur orthogonaux de longueur 1 ; de même pour les lignes γi· de Γ. Bien évidemment, | Det(Γ)| = 1. Nous
avons le théorème de décomposition spectrale (de Jordan) :
Soit A ∈ Rp×p une matrice symétrique. Alors il existe une matrice orthogonale Γ et la
matrice diagonale


λ1 0 ... 0


... ...
Λ = Diag(λi ) = 
,
0 ... 0 λp
48
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
telles que
A = ΓΛΓT =
p
X
λi γ·i γ·iT ,
(3.1)
i=1
où γ·i sont les vecteurs propres orthonormés de A : 2
γ·iT γ·j = δij i, j = 1, ..., p,
Γ = (γ·1 , ..., γ·p ).
Remarques.
1) Même si les valeurs propres d’une matrice symétrique peuvent être multiples, tous les vecteurs
propres d’une telle matrice sont différents.
2) On suppose dans la suite que les valeurs propres λi , i = 1, ..., p sont ordonnées :
λ1 ≥ λ2 ≥ ... ≥ λp .
On dit que γ·1 est le premier vecteur propre de A, c.-à.-d. le vecteur propre correspondant
à la valeur propre maximale ; γ·2 est le deuxième vecteur propre, et ainsi de suite.
Si toutes les valeurs propres λi , i = 1, ..., p sont non-negatives, on appelle la matrice A
semi-définie positive (et définie positive si λi > 0).
Autres propriétés utiles de matrices carrées
Q
P
1o . Det(A) = pi=1 λi , Tr(A) = pi=1 λi .
2o . Det(AB) = Det(A) Det(B), Det(AT ) = Det(A).
3o . Pour les matrices symétriques le calcul des fonctions matricielles est simplifié : par exemple,
la puissance As , s ∈ N+ d’une matrice symétrique positive As = ΓΛs ΓT (si la matrice A est
positive définie ça marche pour tout s réel).
4o . Det(A−1 ) = Det(A)−1 pour toute matrice A non-dégénerée.
5o . Pour tout s ∈ R et toute matrice A = AT > 0, Det(As ) = Det(A)s (la simple conséquence
du fait | det Γ| = 1 pour toute matrice Γ–orthonormée).
Projecteurs. Matrice P symétrique telle que
P 2 = P (matrice idempotente)
s’appelle matrice de projection (ou projecteur, tout simplement).
Toutes les valeurs propres de P sont 0 ou 1. Rang(P ) est le nombre de valeurs propres = 1.
Autrement dit, il existe une matrice Γ orthogonale telle que
ΓT P Γ =
I 0
0 0
!
,
où I est une matrice identité Rang(P ) × Rang(P ).
En effet, soit v un vecteur propre de P , alors P v = λv, où λ est une valeur propre de P .
Comme P 2 = P ,
(λ2 − λ)v = (λP − P )v = (P 2 − P )v = 0.
Ceci équivaut à dire que λ = 1 si P v 6= 0.
2. ici δij est l’indice de Kronecker : δij = 1 si i = j, sinon δij = 0.
3.2. ESPÉRANCE CONDITIONNELLE D’UN VECTEUR ALÉATOIRE
3.2
49
Espérance conditionnelle d’un vecteur aléatoire
Soit X = (ξ1 , ..., ξp )T et Y = (η1 , ..., ηq )T deux vecteurs aléatoires. On ne s’adresse qu’au
cas continu, c.-à.-d. qu’on suppose que la densité conjointe fX,Y (x, y) = fX,Y (t1 , ..., tp , s1 , ..., sq )
existe.
Alors, l’espérance conditionnelle E(Y |X) est le q-vecteur aléatoire dont les composantes sont
E(η1 |X), ..., E(ηq |X);
ici E(ηj |X) = gj (X) (une fonction mesurable de X), et
gj (t) = E(ηj |X = t) =
Z
sj fηj |X=t (sj |t)dsj =
Z
sj fηj |ξ1 =t1 ,...,ξp =tp (sj |t1 , ..., tp )dsj .
On peut vérifier que cette dernière quantité est bien définie si, par exemple, E(|ηj |) < ∞,
j = 1, ..., q. Nous pouvons vérifier que toutes les propriétés d’espérance conditionnelle, établies
dans le Chapitre 2 restent vraies dans le cas des vecteurs aléatoires (y compris le Théorème de
double espérance).
De façon analogue, comme dans le cas univarié nous pouvons introduire la matrice de
covariance conditionnelle :
V (Y |X) = E(Y Y T |X) − E(Y |X)E(Y |X)T .
3.2.1
Théorème de meilleure prévision
Soit |a| =
q
a21 + ... + a2p la norme Euclidienne de Rp .
Définition 3.2 Soit X ∈ Rp et Y ∈ Rq deux vecteurs aléatoires, et G une fonction de Rp vers
Rq . On dit que Ḡ(X) est la meilleure prévision de Y sachant X (dans le sens de la moyenne
quadratique) si
E (Y − G(X))(Y − G(X))T ≤ E (Y − H(X))(Y − H(X))T
(3.2)
(on dit que A ≤ B si la différence B − A est positive définie) pour toutes fonctions mesurables
H de Rp vers Rq .
Bien évidement, (3.2) implique (pourquoi ?)
E(|Y − G(X)|2 ) = inf E(|Y − H(X)|2 ).
H(·)
où le minimum est pris sur toutes fonctions H(·) mesurables de Rp vers Rq .
Comme dans le cas p = q = 1 nous avons
Théorème 3.1 Si E(|Y |2 ) < ∞, alors la meilleure prévision de Y sachant X est unique presque
sûrement et elle est égale à
G(X) = E(Y |X) (p.s.).
50
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Preuve : Il suffit de chercher le minimum parmi les fonctions H(·) telles que E(|H(X)|2 ) < ∞.
Pour toute fonction H(X)
E (H(X) − Y )(H(X) − Y )T )
= E [(H(X) − G(X)) + (G(X) − Y )][(H(X) − G(X)) + (G(X) − Y )]T
= E (H(X) − G(X)(H(X) − G(X))T + E (H(X) − G(X))(G(X) − Y )T
+E (G(X) − Y )(H(X) − G(X))T + E (G(X) − Y )(G(X) − Y )T .
Mais en utilisant les propriétés d’espérance conditionnelle, nous obtenons :
E (H(X) − G(X))(G(X) − Y )T
h
= E E (H(X) − G(X))(G(X) − Y )T |X
h
= E (H(X) − G(X))E (G(X) − Y )T |X
i
i
= 0.
D’où découle le résultat du théorème.
3.3
Loi normale multivariée
Loi normale sur R :
on rappele que la loi normale sur R N (µ, σ 2 ) est la loi de densité
f (x) = √
1
(x − µ)2
exp(−
).
2σ 2
2πσ
Ici µ est la moyenne et σ 2 est la variance. La fonction caractéristique de la loi normale N (µ, σ 2 )
est
σ 2 t2
),
φ(t) = exp(iµt −
2
2 /2
en particulier, pour N (0, 1) on a φ(t) = e−t
3.3.1
.
La loi Np (0, I)
La loi Np (0, I) est la loi du vecteur aléatoire X = (ξ1 , ..., ξp )T où ξi , i = 1, ..., p sont des
variables aléatoires i.i.d. de loi N (0, 1).
Propriétés de Np (0, I) :
1o . La moyenne et la matrice de covariance de X sont : E(X) = 0, V (X) = I.
2o . La loi Np (0, I) est absolument continue de densité
1
f (u) = (2π)−p/2 exp(− uT u)
2
p
p
Y
Y
1
= (2π)−p/2
exp(− u2i ) =
f0 (ui ),
2
i=1
i=1
3.3. LOI NORMALE MULTIVARIÉE
51
2
où u = (u1 , ..., up )T et f0 (t) = √12π e−t /2 est la densité de N (0, 1).
3o . La fonction caractéristique de Np (0, I) est, par définition,

TX
φX (a) = E eia
=E

p
Y
eiaj ξj 
j=1
p
Y
=
E eiaj ξj =
j=1
p
Y
−a2j /2
e
j=1
1
= exp(− aT a),
2
où a = (a1 , ..., ap )T ∈ Rp .
3.3.2
Loi normale sur Rp
Définition 3.3 Le vecteur aléatoire X suit une loi normale sur Rp si et seulement s’il existe
une matrice p × p A et un vecteur µ ∈ Rp tels que
X = AY + µ, où Y ∼ Np (0, I).
Propriétés :
1o . E(X) = µ car E(Y ) = 0.
2o . V (X) = AV (Y )AT = AAT . On désigne Σ = AAT .
3o . La fonction caractéristique
TX
φX (a) = E eia
Tµ
= eia
E eib
T µ− 1 bT b
2
= eia
= E eia
TY
T (AY
+µ)
(avec b = AT a)
T µ− 1 aT Σa
2
= eia
.
(3.3)
Nous avons la caractérisation suivante :
Théorème 3.2 Soit φ : Rp → C une fonction à valeurs complexes. Alors, φ est la fonction
caractéristique d’une loi normale si et seulement si il existe µ ∈ Rp et une matrice symétrique
positive Σ ∈ Rp×p tels que
T µ− 1 aT Σa
2
φ(a) = eia
,
a ∈ Rp .
(3.4)
Remarque : dans ce cas µ est la moyenne et Σ est la matrice de covariance de la loi normale
en question.
Preuve : La necessité est démontrée ci-dessus. Pour montrer la suffisance de (3.4) il faut montrer qu’il existe un vecteur aléatoire normal X ∈ Rp tel que φ(·) soit sa fonction caractéristique.
52
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
1er pas : par le Théorème de décomposition spectrale, il existe une matrice orthogonale Γ
telle que ΓT ΣΓ = Λ, où Λ est une matrice diagonale de rang k ≤ p avec les valeurs propres λj ,
1 ≤ j ≤ k strictement positives. Alors (cf. (3.1)),
Σ=
p
X
λj γ·j γ·jT =
j=1
p
X
a·j aT·j ,
j=1
p
où γ·j sont les colonnes de Γ, et a·j = λj γ·j . Notons que a·j ⊥ a·l pour l 6= j (rappelons nous
que γ·j sont des vecteurs orthonormés).
2ème pas : Soit Y ∼ N (0, I). Notons ηj les composantes de Y (Y = (η1 , ..., ηp )T ). On considère
le vecteur aléatoire
X = η1 a·1 + ... + ηk a·k + µ,
alors X = AY + µ, où A est une matrice p × p avec les colonnes aj , j = 1, ..., k : A =
(a·1 , ..., a·k , 0, ..., 0). Donc X est un vecteur normal p-varié. Quelle est sa fonction caractéristique ?
On va utiliser la propriété 3o ci-dessus (formule (3.3)), il nous suffit de calculer E(X) et V (X).
Mais E(X) = µ et
V (X) = E (η1 a·1 + ... + ηk a·k )(η1 a·1 + ... + ηk a·k )T =
k
X
a·j aT·k = Σ,
j=1
car E(ηl ηj ) = δjl où δjl est le symbole de Kronecker ; et donc par (3.3) la fonction caratéristique
de X coı̈ncide avec φ(u) dans (3.4).
Le résultat du Théorème 3.2 entraı̂ne la conséquence suivante : toute loi normale dans Rp
est entièrement définie par sa moyenne et sa matrice de covariance. Ceci explique la notation :
X ∼ N (µ, Σ)
pour le vecteur aléatoire X de loi normale avec la moyenne µ et la matrice de covariance Σ =
ΣT ≥ 0.
On va distinguer deux types principaux des lois normales p-variées : loi normale nondégénérée et la loi normale dégénérée.
3.3.3
Loi normale non-dégénérée
C’est une loi normale dans Rp telle que la matrice de covariance Σ est strictement positive,
i.e. Σ > 0 (⇔ Det(Σ) > 0). De plus, comme Σ est symétrique et Σ > 0, il existe une matrice
symétrique A1 = Σ1/2 (racine carré de Σ) telle que Σ = A21 = AT1 A1 = A1 AT1 . Comme Det(Σ) =
[Det(A1 )2 ] > 0, alors Det(A1 ) > 0 et A1 est inversible. Par (3.3), si X ∼ N (µ, Σ), sa fonction
caractéristique est
1 T
T
φX (a) = eia µ− 2 a Σa
pour tout a ∈ Rp , et comme Σ = A1 AT1 , on a
T µ− 1 aT Σa
2
φX (a) = eia
T (A
= E eia
1Y
+µ)
= φA1 Y +µ (a),
3.3. LOI NORMALE MULTIVARIÉE
53
où Y ∼ Np (0, I). Donc
X = A1 Y + µ
et, comme A1 est inversible,
Y = A−1
1 (X − µ).
Le Jacobien de cette transformation linéaire est Det(A−1
1 ), et donc la densité de X, par le
p
Corollaire 3.1, pour tout u ∈ R ,
−1
fX (u) = Det(A−1
1 )fY (A1 (u − µ)) =
1
=
(2π)p/2
p
1
fY (A−1
1 (u − µ))
Det(A1 )
1
exp − (u − µ)T Σ−1 (u − µ) .
2
Det(Σ)
Définition 3.4 On dit que X suit une loi normale non-dégénérée Np (µ, Σ) (avec une matrice
de covariance Σ strictement positive) ssi X est un vecteur aléatoire de densité
1
f (t) =
3.3.4
(2π)p/2
1
exp − (t − µ)T Σ−1 (t − µ)
2
Det(Σ)
p
Loi normale dégénérée
C’est une loi normale dans Rp telle que sa matrice de covariance Σ est dégénérée : Det(Σ) = 0
(autrement dit, Rang(Σ) = k < p). Par exemple, on peut considérer Σ = 0, alors la fonction
T
caractéristique de X ∼ N (µ, 0) est φX (a) = eia µ (par Propriété 3o ) et la loi de X est la fonction
de Dirac en µ.
Plus généralement, si Rang(Σ) = k ≥ 1, on obtient (cf. la preuve du Théorème 3.2) que tout
vecteur X ∼ Np (µ, Σ) peut être réprésenté comme
X = AY + µ,
où Y ∼ N (0, I), A = (a·1 , ..., a·k , 0, ..., 0) et AAT = Σ, avec Rang(A) = k. Toute composante de
X est donc distribuée selon une loi normale univariée (non-dégénérée) ou bien selon une “loi de
Dirac”. C’est la conséquence de la proposition suivante :
Proposition 3.3 Soit X ∼ Np (µ, Σ) et Rang(Σ) = k < p. Alors, il existe un sous-espace
linéaire H ⊂ Rp de dimension p − k tel que la projection aT X de X sur tout vecteur a ∈ H suit
une loi de Dirac univariée.
Preuve : On a X = AY + µ où AAT = Σ, Rang(A) = k, Soit H = Ker(AT ) de dimension
dim (H) = p − k. Si a ∈ H, alors on obtient AT a = 0 et Σa = 0.
Maintenant, soit a ∈ H, la fonction caractéristique de la v.a. aT X est
T X)u
φ(u) = E ei(a
TX
= E ei(ua)
T µ− 1 (ua)T Σ(ua)
2
= ei(ua)
= ei(ua)
Tµ
.
Donc, la loi de aT X est une fonction (univariée) de Dirac en aT µ.
Théorème 3.3 (Définition équivalente de la loi normale multivariée) Un vecteur aléatoire X ∈
Rp suit la loi normale multivariée ssi toutes ses projections univariées aT X pour tout a ∈ Rp
sont des variables normales univariées.
54
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Remarque : on inclut la loi de Dirac univariée comme un cas particulier dans la famille des
lois normales univariées (elle correspond à la valeur σ 2 = 0).
Preuve : On observe, tout d’abord, que pour tout a ∈ Rp et tout u ∈ Rp la fonction caractéristique φaT X (u) de variable aT X est liée avec celle de vecteur X :
T Xu
φaT X (u) = E eia
= φX (ua).
(3.5)
Nécessité : soit X un vecteur normale dans Rp . On va montrer que aT X est une variable
aléatoire normale pour tout a ∈ Rp . On utilise (3.5) pour obtenir pour tout u ∈ R
T µ− 1 u2 aT Σa
2
φaT X (u) = eiua
,
où µ et Σ sont la moyenne et la matrice de covariance de X. D’où
1
2 σ2
0
φaT X (u) = eiµ0 u− 2 u
avec µ0 = aT µ et σ02 = aT Σa. Par conséquence,
aT X ∼ N (µ0 , σ02 ) = N (aT µ, aT Σa).
Suffisance : Réciproquement, on va montrer que si aT X est une variable normale pour tout
a ∈ Rp , alors X est un vecteur normal p-varié. Pour ça on remarque que si aT X est une variable
normale pour tout a ∈ Rp , alors E(|X|2 ) < ∞ (pour le voir il suffit de prendre successivement
comme a les vecteurs d’une base orthonormée de Rp ). Donc, la moyenne µ = E(X) et la matrice
de covariance Σ = V (X) sont bien définis.
On fixe maintenant a ∈ Rp . Par hypothèse, il existe m ∈ R et s2 ≥ 0 tels que aT X ∼
N (m, s2 ). Mais, forcement,
m = E(aT X) = aT µ,
s2 = Var(aT X) = aT Σa.
En plus, la fonction caractéristique de aT X est
1 2 2
u
φaT X (u) = eimu− 2 s
T µ− 1 u2 aT Σa
2
= eiua
.
En utilisant (3.5) on obtient
T µ− 1 aT Σa
2
φX (a) = φaT X (1) = eia
.
Comme a ∈ Rp est arbitraire ici, on en déduit (par Théorème 3.2) que X est un vecteur aléatoire
normale dans Rp de moyenne µ et matrice de covariance Σ.
3.3.5
Propriétés de la loi normale multivariée
On considère ici X ∼ Np (µ, Σ), où µ ∈ Rp et Σ ∈ Rp×p est une matrice symétrique, Σ ≥ 0.
Les propriétés suivantes sont des conséquences des résultats de la section précédente :
(N1) Soit Σ > 0, alors le vecteur aléatoire Y = Σ−1/2 (X − µ) satisfait
Y ∼ Np (0, I).
3.3. LOI NORMALE MULTIVARIÉE
55
(N2) Les projections aT X de X pour tout a ∈ Rp sont des variables aléatoires normales
univariées :
aT X ∼ N (aT µ, aT Σa).
En particulier, les densités marginales de la loi Np (µ, Σ) sont normales univariées. Le
réciproque n’est pas vrai !
Exercice 3.2
Soit la densité jointe des v.a. X et Y
f (x, y) =
1 − x2 − y 2
e 2 e 2 [1 + xyI{−1 ≤ x, y ≤ 1}],
2π
Quelle est la loi de X, de Y ?
(N3) Toute transformation linéaire d’un vecteur normal est un vecteur normal : si Y =
AX + c où A ∈ Rq×p et c ∈ Rq sont une matrice et un vecteur fixes (non-aléatoires),
alors
Y ∼ Nq (Aµ + c, AΣAT ).
Exercice 3.3
Vérifier ceci.
(N4) Soit σ 2 > 0. La loi de X ∼ Np (0, σ 2 I) est invariante par rapport aux transformations
orthogonales : si Γ est une matrice orthogonale, alors ΓX ∼ Np (0, σ 2 I). (La preuve est
évidente : il suffit d’utiliser (N3) avec A = Γ.)
(N5) Tout sous-ensemble de composantes d’un vecteur normal p-varié est un vecteur normal : soit X = (X1T , X2T )T , ou X1 ∈ Rk et X2 ∈ Rp−k , alors X1 et X2 sont des vecteurs
normaux (k- et p − k-varié respectivement).
Preuve : On utilise (N3) avec c = 0 et A ∈ Rk×p , A = (Ik , 0) ou Ik est une matrice k ×k
identité. On en déduit que X1 est normal. Pour X2 on prend A ∈ R(p−k)×p = (0, Ip−k ).
(N6) Deux vecteur normaux en couple sont indépendants si et seulement s’ils sont noncorrélés.
!
X
Preuve : La suffisance : soit Z =
, où X ∈ Rp et Y ∈ Rq , Z un vecteur normal
Y
dans Rq+p et C(X, Y ) = 0 (la matrice de covariance entre X et Y ). Pour montrer que X et
Y sont indépendants
! il suffit de montrer (cf. Exercice 3.1) que la fonction caractéristique
a
φZ (u), u =
, a ∈ Rp et b ∈ Rq , peut être décomposée comme
b
φZ (u) = φX (a)φY (b).
Vérifirons ceci. Nous avons
E(Z) =
E(X)
E(Y )
!
,
V (Z) =
V (X) C(X, Y )
C(Y, X)
V (Y )
!
=
V (X)
0
0
V (Y )
!
,
56
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
où V (X) ∈ Rp×p et V (Y ) ∈ Rq×q sont des matrices de covariance de X et de Y . La
fonction caractéristique φZ (u) de Z est donc
"
!#
1
a
φZ (u) = φZ (a, b) = exp i(a E(X) + b E(Y )) − (aT , bT )V (Z)
b
2
1
1
= exp iaT E(X) − aT V (X)a exp ibT E(Y ) − bT V (Y )b = φX (a)φY (b).
2
2
T
pour tout u =
3.3.6
a
b
T
!
.
Géometrie de la distribution normale multivariée
Soit Σ > 0. La densité de Np (µ, Σ) est constante sur les surfaces
EC = {x : (x − µ)T Σ−1 (x − µ) = C 2 },
On appelle ces ensembles les “contours” de la distribution (lignes/surfaces de niveau). Dans
notre cas particulier, EC sont des ellipsoı̈des qu’on appelle les ellipsoı̈des de concentration.
3
2
3


2
1
1
1
0
−1
2
−2
−3
−3
 =0.75
−2
−1
0
1
2
3
Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X, Σ =
3.4
3.4.1
1 3/4
3/4 1
Lois dérivées de la loi normale
Loi χ2 de Pearson
C’est la loi de la somme
Y = η12 + ... + ηp2 ,
où η1 , ..., ηp sont des variables aléatoires i.i.d. de loi N (0, 1). On écrit alors Y ∼ χ2p et on dit que
Y suit la loi chi-deux à p dégrès de liberté. La densité de la loi χ2p est
fχ2p (y) = C(p)y p/2−1 e−y/2 I{0 < y < ∞},
(3.6)
!
3.4. LOIS DÉRIVÉES DE LA LOI NORMALE
57
où
−1
C(p) = 2p/2 Γ(p/2)
,
et Γ(·) est la fonction gamma :
Z ∞
Γ(x) =
ux−1 e−u/2 du,
x > 0.
0
On a E(Y ) = p, Var(Y ) = 2p si Y ∼ χ2p .
p=1
p=2
p=3
p=6
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
Densité de loi de chi-deux pour les différentes valeurs de p
Exercice 3.4
Obtenir l’expression (3.6) pour la densité de loi χ2p .
3.4.2
Loi de Fisher-Snedecor
Soit U ∼ χ2p , V ∼ χ2q , deux v.a. indépendantes. La loi de Fisher-Snedecor à dégrès de
liberté p et q est la loi de
U/p
.
Y =
V /q
On écrit donc Y ∼ Fp,q . La densité de Fp,q est
fFp,q (y) = C(p, q)
y p/2−1
(q + py)
p+q
2
I{0 < y < ∞},
où
C(p, q) =
pp/2 q q/2
,
B(p/2, q/2)
avec B(p, q) =
Γ(p)Γ(q)
.
Γ(p + q)
(3.7)
58
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
On peut montrer que cette densité approche la densité fχ2p dans la limite quand q → ∞.
1
F(10,4)
F(10,10)
F(10,100)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
10
Densité de loi de Fisher-Snedecor
Exercice 3.5
Vérifier l’expression (3.7) pour la loi de Fisher-Snedecor.
3.4.3
Loi t de Student (W. Gosset)
Soit η ∼ N (0, 1), ξ ∼ χ2q deux v.a. indépendantes. La loi de Student à q dégrès de liberté
est celle de variable aléatoire
η
Y =q .
ξ
q
On écrit donc Y ∼ tq . La densité de tq est
ftq (y) = C(q)(1 + y 2 /q)−(q+1)/2 ,
y ∈ R,
(3.8)
où
C(q) = √
1
.
qB(1/2, q/2)
On note que t1 est la loi de Cauchy et tq tend vers N (0, 1) quand q → ∞. On remarque que la
loi tq est symétrique. Les queues de tq sont plus lourdes que celles de loi normale standardisée.
Exercice 3.6
3.5. THÉORÈME DE COCHRAN
59
Vérifier l’expression (3.8) pour la loi de Student.
0.4
N(0,1)
t4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
Densité de loi de Student
3.5
Théorème de Cochran
Théorème 3.4 Soit X ∼ Np (0, I) et soit A1 , ..., AJ , J < p, matrices p × p telles que
(1) A2j = Aj ,
(2) Aj est symétrique, Rang(Aj ) = nj ,
(3) Aj Ak = 0 pour j 6= k et
PJ
j=1 nj
≤ p. 3) .
Alors,
(i) les vecteurs Aj X sont indépendants de loi Np (0, Aj ), j = 1, ..., J, respectivement ;
(ii) Les variables aléatoires |Aj X|2 , j = 1, ..., J sont indépendantes de loi χ2nj , j = 1, ..., J.
Preuve :
(i)
Notons que E(Aj X) = 0 et
V (Aj X) = Aj V (X)ATj = Aj ATj = A2j = Aj .
Puis, Ak X et Aj X sont de loi jointe normale. Mais
C(Ak X, Aj X) = E(Ak XX T ATj ) = Ak V (X)ATj = Ak ATj = Ak Aj = 0
pour j 6= k. Par la propriété (N6) de la loi normale, ceci implique que Ak X et Aj X sont
indépendants pour k 6= j.
3.
)
Certaines versions de ce résultat supposent aussi que A1 + ... + AJ = I.
60
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
(ii)
Comme Aj est un projecteur, il existe une matrice Γ orthogonale telle que
ΓAj Γ =
Ij
0
0
0
!
,
la matrice diagonale de valeurs propres de Aj . Comme Aj est de rang nj , on a Rang(Ij ) = nj ,
et donc
|Aj X|2 = X T ATj Aj X = X T Aj X = (X T ΓT )Λ(ΓX) = Y T ΛY =
nj
X
ηi2 ,
i=1
ou Y = (η1 , ..., ηp )T est un vecteur normal, Y = ΓX ∼ Np (0, I) (par la propriété (N4) de
la loi normale). D’où on conclut |Aj X|2 ∼ χ2nj . Par la conservation de l’indépendance par
transformations mesurables, |Aj X|2 et |Ak X|2 sont indépendantes pour j 6= k.
3.6
Théorème de corrélation normale et filtre de Kalman-Bucy
Les considérations de la Section 3.3.5 nous permettent d’établir le résultat suivant
Théorème 3.5 Soit X T = (ξ T , θT ), ξ ∈ Rk , θ ∈ Rl , p = k + l, un vecteur normal, X ∼
Np (µ, Σ), où
!
Σξξ Σξθ
T
T
T
µ = (µξ , µθ ), Σ =
,
Σθξ Σθθ
Σξξ ∈ Rk×k , Σθθ ∈ Rl×l , ΣTθξ = Σξθ ∈ Rk×l . On suppose que Σξξ > 0.
Alors
∆
m = E(θ|ξ) = µθ + Σθξ Σ−1
ξξ (ξ − µξ ), (p.s.)
∆
γ = V (θ|ξ)
= Σθθ − Σθξ Σ−1
ξξ Σξθ (p.s.),
(3.9)
et la distribution conditionnelle de θ étant donné ξ est normale : pour tout s ∈ Rl , P (θ ≤ s|ξ)
est (p.s.) la f.d.r. d’une loi normale l-variée avec le vecteur de moyennes m et la matrice de
covariances γ (on écrit a ≤ b pour deux vecteurs a, b ∈ Rl pour noter le système d’inégalités
a1 ≤ b1 , ..., ap ≤ bl ).
En outre, les vecteur aléatoires ξ et
η = θ − Σθξ Σ−1
ξξ ξ
sont indépendants.
Remarques :
1. Le théorème donne l’expression pour la fonction de régression multivariée m = E(θ|ξ)
(régression de θ sur ξ) et la matrice de covariance conditionnelle
γ = V (θ|ξ) = E (θ − m)(θ − m)T .
On note que cette régression est linéaire dans le cas d’un couple (ξ, θ) gaussien.
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
61
2. Si de plus on suppose que la matrice Σ > 0, alors la matrice γ est > 0. En effet, soit
a ∈ Rk , b ∈ Rl , alors
(aT bT )Σ
a
b
!
= (aT bT )
Σξξ Σξθ
Σθξ Σθθ
!
a
b
!
> 0,
ou bien
aT Σξξ a + aT Σξθ b + bT Σθξ a + bT Σθθ b > 0.
(3.10)
Si on choisit
a = −Σ−1
ξξ Σξθ b,
alors (3.10) s’écrit comme
T
−bT Σθξ Σ−1
ξξ Σξθ b + b Σθθ b > 0,
pour tout b ∈ Rl , d’où
Σθθ − Σθξ Σ−1
ξξ Σξθ > 0.
3. On peut donner au Théorème de corrélation normale l’interprétation géometrique
suivante : soit Lξ2 (P ) le sous-espace des vecteurs aléatoires mesurables par rapport à
ξ, de matrice de covariance finie. Alors Σθξ Σ−1
ξξ ξ est la projection orthogonale de θ sur
−1
2
Lξ (P ), et le vecteur η = θ − Σθξ Σξξ ξ est orthogonal à L2ξ (P ).
4. Il est utile de noter que l’on peut obtenir une version “conditionnelle” du Théorème 3.5
en supposant que la distribution conditionnelle du couple (ξ, θ) (sachant une autre v.a.,
disons, Z) est normale (p.s.). En effet, soit X = (ξ, θ)T = ((ξ1 , ..., ξk ), (θ1 , ..., θl ))T un
vecteur aléatoire et Z un autre vecteur aléatoire défini sur le même espace de probabilité
(Ω, F, P ). Supposons que la distribution conditionnelle de X sachant Z est normale (p.s.)
avec le vecteur de moyennes
E(X|Z)T = (E(ξ|Z)T , E(θ|Z)T ) = (µTξ|Z , µTθ|Z ),
et la matrice de covariance
ΣX|Z =
V (ξ|Z) C(ξ, θ|Z)
C(θ, ξ|Z) V (θ|Z)
!
∆
=
Σξξ|Z
Σθ,ξ|Z
Σξ,θ|Z
Σθθ|Z
!
.
Alors le vecteur d’espérances conditionnelles m = E(θ|ξ, Z) et la matrice de covariance
conditionnelle γ = V (θ|ξ, Z) sont donnés par
m = µθ|Z + Σθξ|Z Σ−1
ξξ|Z (ξ − µξ|Z ),
γ = Σθθ|Z − Σθξ|Z Σ−1
ξξ|Z Σξθ|Z
(3.11)
et la distribution conditionnelle de θ étant donné ξ et Z est normale : pour tout s ∈ Rl ,
pour tout s ∈ Rl , P (θ ≤ s|ξ, Z) est (p.s.) la f.d.r. d’une loi normale l-variée avec le
vecteur de moyennes m et la matrice de covariances γ. En outre, les vecteurs aléatoires
ξ et
η = θ − Σθξ|Z Σ−1
ξξ|Z ξ
sont (conditionnellement) indépendants sachant Z.
Ce résultat peut être démontré de la même façon que le Théorème 3.5 et sera utilisé dans
la suite.
62
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Preuve du Théorème de corrélation normale.
Etape 1.
Calculons d’abord E(η) et V (η) :
−1
E(η) = E(θ − Σθξ Σ−1
ξξ ξ) = µθ − Σθξ Σξξ µξ ,
et
−1
T
V (η) = E [(θ − µθ ) − Σθξ Σ−1
ξξ (ξ − µξ )][(θ − µθ ) − Σθξ Σξξ (ξ − µξ )]
T
= Σθθ − Σ−1
ξξ Σξθ E (ξ − µξ )(θ − µθ )
−1
−1 T
T
−E (θ − µθ )(ξ − µξ )T Σ−1
ξξ Σθξ + Σθξ Σξξ E(ξ − µξ )(ξ − µξ ) )Σξξ Σθξ
= Σθθ − Σθξ Σ−1
ξξ Σξθ .
Etape 2.
Montrons que η est orthogonal à ξ :
−1
C(η, ξ) = C(θ, ξ) − Σθξ Σ−1
ξξ C(ξ, ξ) = Σθξ − Σθξ Σξξ Σξξ = 0,
et donc η ⊥ ξ.
Etape 3.
On démontre que le couple (ξ, η) est normal. Nous avons
ξ
η
!
= AX = A
ξ
θ
!
,
où
A=
Ik
0
−Σθξ Σ−1
I
l
ξξ
!
,
avec !
les matrices identité Ik ∈ Rk×k et Il ∈ Rl×l . Par la propriété (N3) de la Section 3.3.5
ξ
est donc un vecteur normal.
η
Sa matrice de covariance,
V
ξ
η
!!
=
V (ξ) C(ξ, η)
C(η, ξ) V (η)
!
=
Σξξ
0
0 Σθθ − Σθξ Σ−1
ξξ Σξθ
!
Comme Σξξ > 0 et Σθθ − Σθξ Σ−1
ξξ Σξθ ≥ 0 (par l’inégalité de Cauchy-Schwarz), nous avons
V
ξ
η
!!
≥ 0. Par ailleurs,
V
ξ
η
!!
= AV (X)AT ≥ 0.
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
63
Etape 4. Maintenant la propriété (N6) implique que η et ξ sont indépendants. Mais le résultat
de l’Etape 3 avec (N5) nous permet de conclure que η est un vecteur normal. En utilisant les
expressions pour E(η) et V (η) ci-dessus nous avons
−1
η ∼ Nl µθ − Σθξ Σ−1
ξξ µξ , Σθθ − Σθξ Σξξ Σξθ .
Maintenant il suffit de remarquer que
θ = η + Σθξ Σ−1
ξξ ξ,
où η est indépendant de ξ. Donc la distribution conditionnelle de θ sachant ξ est la distribution
de η, translatée par Σθξ Σ−1
ξξ ξ et
E(θ|ξ) = E(η) + Σθξ Σ−1
ξξ ξ,
V (θ|ξ) = V (η).
La linéarité de la meilleure prédiction m = E(θ|ξ) du vecteur θ sachant ξ est une propriété
toute particuliére de la distribution normale du couple (ξ, θ), qui permet un calcul simple de m. Il
est intéressant de savoir quelle est la meilleure prédiction linéaire dans le cas où la distribution
jointe de couple ξ et θ n’est pas normale. Autrement dit, comment calculer la matrice A∗ ∈ Rl×k
et le vecteur b∗ ∈ Rl tels que θb = b∗ + A∗ ξ satisfasse
b
bT =
E (θ − θ)(θ
− θ)
inf
A∈Rl×k ,b∈Rl
E (θ − Aξ − b)(θ − Aξ − b)T .
La réponse est donnée par le lemme suivant qui expose l’importance du cas gaussien dans la
recherche des meilleures prédictions linéaires :
Lemme 3.1 Supposons que (X, Y ) est un vecteur aléatoire, X ∈ Rk , Y ∈ Rl , tel que E(|X|2 +
|Y |2 ) < ∞, V (X) > 0 et (ξ, θ) un vecteur normal avec les mêmes moyennes et matrices de
covariances, c.-à.-d.
E(ξ) = E(X), E(θ) = E(Y ),
V (ξ) = V (X), V (θ) = V (Y ), C(X, Y ) = C(ξ, θ).
Soit λ(b) : Rk → Rl une fonction linéaire telle que
λ(b) = E(θ|ξ = b).
Alors λ(X) est une meilleure prédiction linéaire de Y sachant X. De plus, E(λ(X)) = E(Y ).
Preuve : On note tout d’abord que l’existence d’une fonction linéaire λ(b) qui coı̈ncide avec
E(θ|ξ = b) découle du Théorème de corrélation normale. Soit η(b) une autre estimation linéaire
de θ sachant ξ, alors
E (θ − λ(ξ)(θ − λ(ξ))T ≤ E (θ − η(ξ)(θ − η(ξ))T ,
et par linéarité des prédictions λ(·) et η(·), dans les condition du lemme, on a
E (Y − λ(X))(Y − λ(X))T
= E (θ − λ(ξ))(θ − λ(ξ))T
≤ E (θ − η(ξ))(θ − η(ξ))T = E (Y − η(X))(Y − η(X))T ,
64
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
ce qui démontre l’optimalité de λ(X). Enfin,
E(λ(X)) = E(λ(ξ)) = E (E(θ|ξ)) = E(θ) = E(Y ).
Considérons l’exemple suivant (cf. Exercice 2.15) :
Exemple 3.2 Soit X et Y les v.a. telles que le couple (X, Y ) suit la loi normale bivariée avec
2 = V ar(X) > 0, σ 2 = V ar(Y ) > 0 et
les moyennes µX = E(X), µY = E(Y ), les variances σX
Y
la corrélation ρ = ρXY < 1.
X
Y
Si on pose Σ = Var
!!
, alors
2
σX
ρσX σY
Σ=
ρσX σY
σY2
!
2 σ 2 (1 − ρ2 ) > 0. Notons que si dans le Théorème 3.5 ξ = X et θ = Y , alors
et Det(Σ) = σX
Y
Σθξ = Σξθ = ρσX σY
Σθξ Σ−1
ξξ = ρ
σY
.
σX
Nous avons alors la fonction de régression
m(x) = E(Y |X = x) = µY + ρ
σY
(x − µX ),
σX
γ = γ(x) = V (Y |X = x) = σY2 (1 − ρ2 ),
et la densité conditionnelle de Y sachant X est
!
1
(y − m(x))2
fY |X (y|x) = √
exp −
.
2πγ
2γ
C’est la densité de loi N (m(x), γ 2 (x)) et la régression est linéaire !
Considérons le cas particulier de µX = µY = 0 et σX = σY = 1. Alors
Σ=
1
ρ·1
ρ·1
1
!
, Σ
−1
1 −ρ
−ρ 1
2 −1
= (1 − ρ )
!
.
Les vecteurs propres de Σ (et de Σ−1 ) sont
(1, 1)T et (−1, 1)T ,
qui correspondent aux valeurs propres, respectivement,
λ1 = 1 + ρ et λ2 = 1 − ρ.
Les vecteurs propres orthonormés sont γ1 = 2−1/2 (1, 1)T et γ2 = 2−1/2 (−1, 1)T . Si on pose
Γ = (γ1 , γ2 ), alors nous avons la décomposition spectrale :
T
Σ = ΓΛΓ = Γ
1+ρ
0
0
1−ρ
!
ΓT .
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
65
On peut considérer les ellipses de concentration de densité jointe de (X, Y ). Soit pour C > 0
EC = {x ∈ R2 : xT Σ−1 x ≤ C 2 } = {x ∈ R2 : |y|2 ≤ C 2 },
où y = Σ−1/2 x. Si on pose
y1
y2
y=
alors
!
x1
x2
, x=
1
y1 = p
(x1 + x2 ),
2(1 + ρ)
!
,
1
y2 = p
(x1 − x2 ).
2(1 − ρ)
Et l’ellipse de concentration devient
!2
−1
T
EC = {x Σ
1
x≤C }={ p
(x1 + x2 )
2(1 + ρ)
2
3
2
!2
1
p
(x1 − x2 )
2(1 − ρ)
+
≤ C 2 .}
3
3


2
1
2


2
1
1
1
1
0
0
−1
−1
2
−2
−3
−3
−2
 =0.75
−2
−1
0
1
2
3
−3
−3
 =−0.5
−2
−1
0
1
2
3
Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X.
3.6.1
Filtre de Kalman-Bucy
Supposons que la suite de (couples de) vecteurs aléatoires (θ, ξ) = ((θn ), (ξn )), n = 0, 1, 2, ...,
θn = (θ1 (n), ..., θl (n))T ∈ Rl et ξn = (ξ1 (n), ..., ξk (n))T ∈ Rk , est gérée par les équations
récursives
(0)
θn+1 = an+1 θn + bn+1 n+1 ,
(1)
ξn+1 = An+1 θn + Bn+1 n+1 ,
(3.12)
avec des conditions initiales (θ0 , ξ0 ).
(0)
(1)
Ici n = ((01) , ..., (0l) )T et n = ((11) , ..., (0k) )T sont des vecteurs normaux indépendants
(0)
(1)
et équidistribués, 1 ∼ Nl (0, I), 1 ∼ Nk (0, I) ; les matrices an , bn , An et Bn sont des matrices
déterministes de tailles, respectivement, l × l, l × l, k × k et k × k. On suppose que les matrices
(0)
Bn sont de rang plein, et que les conditions initiales (θ0 , ξ0 ) ne dépendent pas des suites (n )
(1)
et (n ).
Dans la suite on utilisera la notation ξ0n le vecteur aléatoire “long” ξ0n = (ξ0T , ..., ξnT )T .
On remarque d’abord que si E(|θ0 |2 +|ξ0 |2 ) < ∞, alors pour tout n ≥ 0, E(|θn |2 +|ξn |2 ) < ∞.
Si on suppose, en plus, que le couple (θ0 , ξ0 ) est un vecteur normal, alors on vérifie facilement
66
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
(0)
(1)
(tous les θn et ξn sont des fonctions linéaires de vecteurs gaussiens (θ0 , ξ0 ), (i ) et (i ),
i = 1, ..., n) que pour chaque n ≥ 0 le “long” vecteur Z T = (θ0T , ξ0T , ..., θnT , ξnT ) est normal. On
pourrait donc utiliser le Théorème de corrélation normale pour obtenir le meilleur prédicteur de
la suite (θi ), 0 ≤ i ≤ n sachant (ξi ), 0 ≤ i ≤ n.
Si on veut construire le prédicteur pour n assez grand, ce calcul risque de devenir bien coûteux
en mémoire et en temps de calcul. Cette observation n’est plus toute à fait valide aujourd’hui,
mais dans les années 50-60, le coût algorithmique était un facteur important, surtout pour des
calculateurs embarqués. C’est ce qui a motivé les recherches sur des méthodes de calcul de
prédicteurs moins coûteuses, qui ont abouti en 1960 à la découverte de filtre de Kalman-Bucy
qui calcule la meilleure prédiction de façon récursive. L’objectif des exercices qui suivent est
d’obtenir les équations récursives pour
mn = E(θn |ξ0n ),
γn = V (θn |ξ0n ).
Ce problème, bien complexe dans le cas général, admet une solution simple si on suppose que
la distribution conditionnelle P (θ0 < a|ξ0 ) du vecteur θ0 sachant ξ0 est normale (p.s.), ce qu’on
supposera dans la suite. Notre premier objectif est de montrer que dans les conditions ci-dessus
la suite (θ, ξ) est conditionnellement gaussienne, autrement dit, les fonctions de répartition
conditionnelles
P (ξn+1 ≤ x, θn+1 ≤ a|ξ0n )
sont (p.s.) les f.d.r. d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de
covariance qui dépendent de ξ0n .
Exercice 3.7
Soit ζn = (ξnT , θnT )T , t ∈ Rk+l . Vérifier que la f.d.r. conditionnelle
P (ζn+1 ≤ t|ξ0n , θn+1 = u)
est (p.s.) normale avec le vecteur de moyenne M u, où M est une matrice (k + l) × l, et la matrice
de covariance Σ (k + l) × (k + l) à déterminer.
Supposons maintenant que pour n ≥ 0 la f.d.r. conditionnelle
P (ζn ≤ t|ξ0n−1 )
est (p.s.) celle d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de covariance
qui dépendent de ξ0n−1 .
Exercice 3.8
Utiliser la version conditionnelle du Théorème de corrélation normale (avec la Remarque 4 et
l’expression (3.11)) pour montrer que les f.d.r. conditionnelles
P (ζn+1 ≤ t|ξ0n ),
n≥0
sont (p.s.) normales avec
E(ζn+1 |ξ0n )
=
An+1 mn
an+1 mn
!
,
V
(ζn+1 |ξ0n )
où mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ).
=
T
Bn+1 Bn+1
+ An+1 γn ATn+1
An+1 γn aTn+1
an+1 γn ATn+1
bn+1 bTn+1 + an+1 γn aTn+1
!
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
67
Indication : calculer la fonction caractéristique conditionnelle
E exp(itT ζn+1 )|ξ0n , θn ,
t ∈ Rl+k ,
puis utiliser le fait que dans les conditions d’exercice la distribution de θn , étant donnés ξ0n−1 et
ξn , est normale conditionnelle avec les paramètres mn et γn .
Exercice 3.9
Utiliser le Théorème de corrélation normale (conditionnel) pour obtenir les équation récursives :
T
mn+1 = an+1 mn + an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn ),
(3.13)
T
T
γn+1 = an+1 γn an+1 + bn+1 bn+1 − an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 An+1 γn aTn+1
T
(comme la matrice Bn+1 est de rang plein, la matrice Bn+1 Bn+1
+ An+1 γn ATn+1 l’est aussi et
donc est inversible).
Montrer que le vecteur ξn+1 et
T
η = θn+1 − an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn )
sont indépendants sachant ξ0n .
Exemple 3.3 Soit X = (Xn ) et ξ = (ξn ) deux suites des variables aléatoires, telles que
(0)
(1)
Xn+1 = cXn + bn+1 , Yn+1 = Xn + Bn+1 ,
(3.14)
où c, b et B sont des réels, (0) et (1) sont deux suite des v.a.i.i.d., mutuellement indépendantes,
de loi N (0, 1). Notre objectif est de calculer la prévision mn = E(Xn |Y0n ).
((1)
On peut interpréter θ comme signal utile et Bn+1 comme bruit d’observation, et nous voulons
prédire Xn sachant les observations Y0 , ..., Yn . Les équations (3.13) nous permettent d’obtenir
facilement les expressions de la prévision :
cγn−1
(Yn − cmn−1 )
+ γn−1
c2 γ 2
= c2 γn−1 + b2 − 2 n−1 .
B + γn−1
mn = cmn−1 +
γn
B2
Exercice 3.10
Montrer que si b 6= 0, B 6= 0 et |c| < 1, alors “l’erreur limite de filtrage” γ = limn→∞ γn existe
et est la racine positive de l’équation (de Riccati) :
γ 2 + (B 2 (1 − c2 ) − b2 )γ − b2 B 2 = 0.
Exemple 3.4 Soit θ ∈ Rl un vecteur normal avec E(θ) = 0 et V (θ) = γ (on suppose que γ
est connue). On cherche la meilleure prédiction de θ à partir d’observation de la suite k-variée
(ξ) = (ξn )
(1)
ξn+1 = An+1 θ + Bn+1 n+1 , ξ0 = 0,
(1)
où An+1 , Bn+1 et n+1 satisfont les même hypothèses que dans (3.12).
68
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
On obtient de (3.13)
T
mn+1 = mn + γn An+1 [Bn+1 Bn+1
+ An+1 γn ATn+1 ]−1 (ξn+1 − An+1 mn ),
T
γn+1 = γn − γn An+1 [Bn+1 Bn+1
+ An+1 γn ATn+1 ]−1 ATn+1 γn .
(3.15)
Alors les solutions du (3.15) sont données par
h
mn+1 = I + γ
h
γn+1 = I + γ
Pn
T
T
−1 T
m=0 Am+1 (Bm+1 Bm+1 ) Am+1
Pn
T
T
−1 T
m=0 Am+1 (Bm+1 Bm+1 ) Am+1
où I est une matrice k × k identité.
Exercice 3.11
Démontrer la formule (3.16).
i−1
i−1
γ
γ,
Pn
T
T
−1
m=0 Am+1 (Bn+1 Bn+1 ) ξm+1 ,
(3.16)
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
3.6.2
Solutions d’exercices de la section 3.6.1
Exercice 3.7
On vérifie facilement que (p.s.)
E(θn+1 |ξ0n , θn = u)
V
69
(θn+1 |ξ0n , θn
= an+1 u,
E(ξn+1 |ξ0n , θn = u)
= An+1 u,
T
V (ξn+1 |ξ0n , θn = u) = Bn+1 Bn+1
et C(θn+1 , ξn+1 |ξ0n , θn = u) = 0,
= u) = bn+1 bTn+1 ,
donc ζn+1 a une distribution conditionnelle (p.s.) normale avec
E(ζn+1 |ξ0n , θn = u) =
Au
au
!
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
V (ζn+1 |ξ0n , θn = u) =
,
!
Exercice 3.8 Dans les suppositions d’exercice, par Théorème de corrélation normale, la distribution de θn sachant ξ0n est normale avec les paramètres mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ) qui
ne dépendent que de ξ0n . On remarque que (p.s.)
E exp(it
T
ζk+1 )|ξ0n , θn
"
= exp it
An+1 θn
an+1 θn
T
!
1
− tT
2
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
! #
t ,
et comme
"
E
An+1 θn
an+1 θn
exp itT
!# !
"
n
ξo = exp itT
An+1 mn
an+1 mn
"
!
!
1
− tT
2
An+1 γn ATn+1 An+1 γn aTn+1
an+1 γn ATn+1 an+1 γn aTn+1
on en obtient
E exp(it
T
ζk+1 )|ξ0n
T
= exp it
1
− tT
2
Exercice 3.9
An+1 mn
an+1 mn
1
− tT
2
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
An+1 γn ATn+1 An+1 γn aTn+1
an+1 γn ATn+1 an+1 γn aTn+1
! #
t
Résultat immédiat d’application du Théorème de corrélation normale.
!
t
! #
t ,
70
3.7
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Exercices
Exercice 3.12
Soit Q une matrice q × p avec q > p de rang p.
1o . Montrer que la matrice P = Q(QT Q)−1 QT est un projecteur.
2o . Quel est le sous-espace L sur lequel projette P ?
Exercice 3.13
Soit (X, Y ) un vecteur aléatoire de densité
f (x, y) = C exp(−x2 + xy − y 2 /2).
1o . Montrer que (X, Y ) est un vecteur aléatoire gaussien. Calculer l’espérance, la matrice de
covariance et la fonction caractéristique de (X, Y ). Déterminer le coefficient ρXY de corrélation
de X et Y .
2o . Déterminer la loi de X, de Y , de 2X − Y .
3o . Monter que X et Y − X sont des variables aléatoires indépendantes et de même loi.
Exercice 3.14
Soit X une v.a. de loi N (0, 1) et Z une v.a. prenant les valeurs −1 ou 1 avec la probabilité 12 .
On suppose X et Z indépendantes. On pose Y = ZX.
1o . Montrer que Y suit la loi N (0, 1).
2o . Calculer la covariance et la corrélation de X et Y .
3o . Calculer P (X + Y = 0).
4o . Le vecteur (X, Y ) est-il un vecteur aléatoire normal ?
Exercice 3.15
Soit ξ et η v.a. indépendantes de loi U [0, 1]. Alors les v.a.
X=
p
−2 ln ξ cos(2πη),
Y =
p
−2 ln ξ sin(2πη)
sont telle que Z = (X, Y )T ∼ N2 (0, I).
Indication : soit (X, Y ) ∼ N2 (0, I). Passer en coordonnées polaires.
Exercice 3.16
Soit Z = (Z1 , Z2 , Z3 )T un vecteur aléatoire normal, admettant une densité f telle que :
6z12 + 6z22 + 8z32 + 4z1 z2
1
−
f (z1 , z2 , z3 ) =
exp
32
4(2π)3/2
!
.
1o . Déterminer la loi de (Z2 , Z3 ) sachant Z1 = z1 .
Soient X et Y les vecteurs aléatoires définis par :



X=

2
0
0
1
2 2
2 5
4 10
2 4



Z

et Y =
1 1 1
1 0 0
!
Z.
2o . Le vecteur (X, Y ) de dimension 6, est-il gaussien ? Le vecteur X a-t-il une densité ? Le vecteur
Y a-t-il une densité ?
3o . Les vecteurs X et Y sont-ils indépendants ?
4o . Déterminer les lois des composantes de Z.
3.7. EXERCICES
71
Exercice 3.17
Soit (X, Y, Z)T un vecteur aléatoire gaussien de
est

2

Σ= 1
1
moyenne nulle et dont la matrice de covariance

1 1

2 1 .
1 2
1o . On pose U = −X + Y + Z, V = X − Y + Z, W = X + Y − Z. Déterminer la loi du vecteur
aléatoire (U, V, W )T .
2o . Déterminer la densité de la variable T = U 2 + V 2 + W 2 .
Exercice 3.18
Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance :
µ=
0
2
!
, Σ=
4 1
1 8
!
.
1o . Donner la loi de X + 4Y .
2o . Donner la loi jointe des variables Y − 2X et X + 4Y .
Exercice 3.19
Soit X un vecteur aléatoire normal de dimension n, centré, de matrice de covariance Σ. Quelle
est la loi de la v.a. X T Σ−1 X ?
Exercice 3.20
La taille H des hommes dans un population P est modélisée par une loi de Gauss N (172, 49)
(unité : le cm). Dans ce modèle :
1o . Quelle est la probabilité pour qu’un homme ait une taille inférieure à 160cm ?
2o . On admet qu’il y a environ 15 millions d’hommes dans P ; donner une estimation du nombre
d’hommes de plus de 200cm.
3o . Quelle est la probabilité pour que 10 hommes rencontrés au hasard aient tous leur taille dans
l’intervalle [168,188]cm ?
La taille H 0 des femmes de P est modélisée par une loi de Gauss N (162, 49) (unité : le cm).
4o . Quelle est la probabilité pour qu’un homme choisi au hasard soit plus grand qu’une femme
choisie au hasard ?
On modélise la taille des éléments d’un couple (H, H 0 ) par un vecteur normal où le coefficient
de corrélation ρ entre la taille de la femme et la taille de l’homme est 0.4 (respectivement −0.4).
5o . Calculer la probabilité p (respectivement, p0 ) que dans un couple l’homme soit plus grand
que la femme (avant de faire le calcul, pouvez-vous dire dans quel ordre seront rangés p et p0 ?).
Exercice 3.21
Soit Y = (η1 , ..., ηn )T un vecteur normal, Y ∼ Nn (µ, σ 2 I), Hn−J un sous-espace de Rn de
dimension n−J, J > 0, et soit Hn−J−M un sous-espace de Hn−J de dimension n−J −M, M > 0.
On pose
dJ = min |Y − y| et dJ+M =
min |Y − y|.
y∈Hn−J
Verifier que
y∈Hn−J−M
72
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
1. si µ ∈ Hn−J alors la loi de d2J /σ 2 est celle de χ2J (à J degrés de liberté) ;
2. si µ ∈ Hn−J−M , alors
J d2J+M − d2J
∼ FM,J
M
d2J
(la loi de Fisher à (M, J) degrés de liberté).
3.8. AUTRES EXERCICES
3.8
73
Autres Exercices
Exercice 3.22
Soit m ∈ R, et {Xi }i=1,...,n des variables aléatoires indépendantes. On pose
X̄ =
n
1X
Xi .
n i=1
1o . On suppose que les Xi − m suivent la loi de Cauchy, de densité
f (x) =
1
.
π(1 + x2 )
Donner la loi de X̄. Cette variable admet-elle des moments d’ordre 2 ? D’ordre 1 ? Comparer
les queues de la loi de Cauchy et celles de la loi N (0, 1) (on calculera par exemple P (X > 3) et
P (N (0, 1) > 3)).
2o . Si X1 , . . . , Xn sont n variables aléatoires indépendantes de même loi E(θ) (loi exponentielle
de paramètre θ), donner la loi de X̄.
3o . Soit Xi , i = 1, . . . , n, variables aléatoires i. i. d. de loi de Poisson de paramètre λ. Calculer
la loi de nX̄ (cf. Exercice 2.11), et trouver deux suites an et bn telles que an X̄ + bn converge en
loi vers une variable de loi non dégénérée.
Exercice 3.23
Soit X, ε deux variables aléatoires indépendantes, ayant des moments d’ordre 2 finis, avec
E(X) = E(ε) = 0.
1o . On pose Y = X 2 + ε, et on suppose que E(|X|3 ) < ∞ et que la loi de X est symétrique.
Montrer que E(Y |X) = X 2 , mais que Cov(X, Y ) = 0.
2o . On suppose que Y = X 3 + σε, où X et ε sont deux variables aléatoires indépendantes de loi
N (0, 1) et σ > 0. Comparer le rapport de corrélation η et le coefficient de corrélation ρ pour ce
modèle.
Exercice 3.24
Parmi les matrices suivantes, lesquelles peuvent être la matrice de covariance d’un vecteur
aléatoire X ∈ R ?
1 2
2 1
!
,
−1 −1/2
−1/2 −1
!
,
1 1/2
1/2 1
!
,
1 1/2
1/3 1
!
?
Dans la suite, on notera Σ les matrices répondant à la question, et on supposera que X est de
loi N2 (0, Σ).
1o . Calculer, pour chaque matrice Σ, les valeurs propres (λ1 , λ2 ) et les vecteurs propres associés
(v1 , v2 ).
2o . Donner la loi jointe de v1T X et v2T X.
Exercice 3.25
74
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Soit X une variable aléatoire gaussienne standard. Pour tout c > 0, on pose
Xc = X (I{|X| < c} − I{|X| ≥ c}) .
1o . Déterminer la loi de Xc .
2o . Calculer Cov(X, Xc ) et montrer qu’il existe c0 tel que Cov(X, Xc0 ) = 0.
3o . Montrer que X et Xc0 ne sont pas indépendantes. Le vecteur (X, Xc0 ) est-il gaussien ?
Exercice 3.26
Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance :
µ=
0
2
!
, Σ=
4 1
1 8
!
.
1o . Donner la loi de X + 4Y .
2o . Donner la loi jointe des variables Y − 2X et X + 4Y .
Exercice 3.27
Soit (εY , εZ , X) un vecteur aléatoire gaussien tel que εY , εZ , X sont indépendantes de lois
N (0, 1), N (0, 1), et N (0, 2). On pose :
Z = 2Y − 3X + εZ ,
Y = X + εY .
Déterminer la loi du triplet (X, Y, Z).