Table des mati`eres

Transcription

Table des mati`eres

Table des matières
1 Quelques rappels de probabilités
1.1 Caractérisation des variables aléatoires . . . . . . . . . . . . . . . .
1.1.1 Moments des variables aléatoires . . . . . . . . . . . . . . .
1.1.2 Quantiles des lois de probabilités . . . . . . . . . . . . . . .
1.1.3 Autres caractéristiques . . . . . . . . . . . . . . . . . . . . .
1.2 Rappel de quelques inégalités . . . . . . . . . . . . . . . . . . . . .
1.3 Suites de variables aléatoires . . . . . . . . . . . . . . . . . . . . .
1.4 Indépendance et théorèmes limites . . . . . . . . . . . . . . . . . .
1.4.1 Sommes de variables indépendantes . . . . . . . . . . . . .
1.4.2 Approximation des distributions par des lois asymptotiques
1.5 Théorèmes de continuité . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Construction d’un échantillon aléatoire par simulation . . . . . . .
1.6.1 Simulation des variables uniformément distribuées . . . . .
1.6.2 Simulation des variables d’une loi générale . . . . . . . . . .
1.6.3 Simulation de la loi normale N (0, 1) . . . . . . . . . . . . .
1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Régression et corrélation
2.1 Couples des variables aléatoires. Lois jointes et marginales . .
2.2 Conditionnement (cas discret) . . . . . . . . . . . . . . . . . .
2.2.1 Propriétés des espérances conditionnelles (cas discret)
2.3 Conditionnement comme une projection . . . . . . . . . . . .
2.3.1 Meilleure prévision . . . . . . . . . . . . . . . . . . . .
2.4 Probabilité et espérance conditionnelle (Cas général) . . . . .
2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . .
2.4.2 Propriétés de l’espérance conditionnelle (cas général) .
2.5 Conditionnement : cas continu . . . . . . . . . . . . . . . . .
2.6 Covariance et corrélation . . . . . . . . . . . . . . . . . . . . .
2.6.1 Propriétés de covariance et de corrélation . . . . . . .
2.7 Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 Variance résiduelle . . . . . . . . . . . . . . . . . . . .
2.8 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
7
10
12
13
14
15
15
16
17
18
19
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
25
26
26
28
29
29
30
32
32
33
35
37
39
2
3 Vecteurs aléatoires. Loi normale multivariée
3.1 Vecteurs aléatoires (rappel) . . . . . . . . . . . . . . . . . .
3.1.1 Propriétés de densité d’une distribution multivariée .
3.1.2 Moments des vecteurs aléatoires . . . . . . . . . . .
3.1.3 Fonction caractéristique d’un vecteur aléatoire . . .
3.1.4 Transformations des vecteurs aléatoires . . . . . . .
3.1.5 Rappel des propriétes des matrices symétriques . . .
3.2 Espérance conditionnelle d’un vecteur aléatoire . . . . . . .
3.2.1 Théorème de meilleure prévision . . . . . . . . . . .
3.3 Loi normale multivariée . . . . . . . . . . . . . . . . . . . .
3.3.1 La loi Np (0, I) . . . . . . . . . . . . . . . . . . . . .
3.3.2 Loi normale sur Rp . . . . . . . . . . . . . . . . . . .
3.3.3 Loi normale non-dégénérée . . . . . . . . . . . . . .
3.3.4 Loi normale dégénérée . . . . . . . . . . . . . . . . .
3.3.5 Propriétés de la loi normale multivariée . . . . . . .
3.3.6 Géometrie de la distribution normale multivariée . .
3.4 Lois dérivées de la loi normale . . . . . . . . . . . . . . . . .
3.4.1 Loi χ2 de Pearson . . . . . . . . . . . . . . . . . . .
3.4.2 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . .
3.4.3 Loi t de Student (W. Gosset) . . . . . . . . . . . . .
3.5 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . .
3.6 Théorème de corrélation normale et filtre de Kalman-Bucy .
3.6.1 Filtre de Kalman-Bucy . . . . . . . . . . . . . . . .
3.6.2 Solutions d’exercices de la section 3.6.1 . . . . . . .
3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Autres Exercices . . . . . . . . . . . . . . . . . . . . . . . .
TABLE DES MATIÈRES
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
44
45
46
47
49
49
50
50
51
52
53
54
56
56
56
57
58
59
60
65
69
70
73
Chapitre 1
Quelques rappels de probabilités
1.1
Caractérisation des variables aléatoires
Soit (Ω, F, P ) un espace de probabilité où Ω est un ensemble de nature générale, F est
une tribu et P est une mesure de probabilité sur F. Une variable aléatoire X est une fonction
mesurable X : (Ω, F) → (R, B) où B est la tribu borélienne. Quelquefois on la désigne par X(ω)
pour souligner le fait que c’est une fonction de ω ∈ Ω.
La fonction de répartition
(f.d.r.) d’une variable aléatoire X
est la fonction F : R → [0, 1]
F (x) = P (X ≤ x) = P (ω : X(ω) ≤ x).
C’est une fonction monotone croissante, continue à droite telle que F (−∞) = 0 et F (∞) = 1.
On appelle aussi F la loi (ou la distribution) de X. On distingue 2 types de variables aléatoires :
les variables discrètes et les variables continues.
Variable discrète X est une variable dont les valeurs sont dans un ensemble fini ou dénombrable.
La variable de Poisson 1 est un exemple de variable discrète où l’ensemble de ses valeurs est
dénombrable : pour λ > 0 la loi de X satisfait
Pλ (X = k) =
λk −λ
e ,
k!
k = 0, 1, 2, ...
1. On verra dans la suite l’importance de cette loi et son lien avec la notion de processus ponctuel de Poisson.
3
4
CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS
On dit que X suit la loi P(λ). La fonction de répartition de X (dans la suite f.d.r.) est
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−1
0
1
2
3
4
5
6
La f.d.r. d’une variable aléatoire discrète est une “fonction-échelle”.
Variable continue X est une variable continue si sa loi admet une densité par rapport à la
mesure de Lebesgue sur R. Dans ce cas la f.d.r. F de X est dérivable presque partout sur R et
sa dérivée
f (x) = F 0 (x)
s’appelle la densité de probabilité de X. On remarque que f (x) ≥ 0 pour tout x ∈ R et
Z ∞
f (x)dx = 1.
−∞
Exemple 1.1
a) Loi normale N (µ, σ 2 ) de densité
f (x) = √
(x−µ)2
1
e− 2σ2 ,
2πσ
x ∈ R,
où µ ∈ R et σ > 0. Si µ = 0, σ 2 = 1, la loi N (0, 1) est dite loi normale standard.
b) Loi uniforme U [0, θ] de densité
1
f (x) = I{x ∈ [0, θ]},
θ
x ∈ R,
où θ > 0 et I{·} désigne la fonction indicatrice : pour un ensemble A
(
I{x ∈ A} =
1
0
si x ∈ A,
sinon.
c) Loi exponentielle E(λ) de densité
f (x) = λe−λx , pour x ≥ 0 et f (x) = 0 pour x < 0,
1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES
5
où λ > 0. La fonction de répartition de E(λ) est
F (x) = (1 − e−λx ) pour x ≥ 0 et F (x) = 0 pour x < 0.
Les lois des variables discrètes sont entièrement définies par les probabilités de type {P (X =
k)}k , les lois des variables continues par leur densités f (·). Certaines caractéristiques scalaires
de la fonction de répartition (ses fonctionnelles) sont importantes pour la description du comportement des variables aléatoires. Exemples de fonctionnelles sont les moments et les quantiles
des variables aléatoires.
1.1.1
Moments des variables aléatoires
Moyenne
(espérance) d’une variable aléatoire X :
Z ∞
µ = E(X) =
−∞
Moment d’ordre k
( P
iP (X = i)
xdF (x) = R i
xf (x)dx
dans le cas discrèt,
dans le cas continu.
(k = 1, 2, ...) :
k
µk = E(X ) =
Z ∞
xk dF (x),
−∞
ainsi que moment centré d’ordre k :
µ0k = E((X − µ)k ) =
Z ∞
(x − µ)k dF (x).
−∞
Un cas particulier est la variance σ 2 (= µ02 – le moment centré d’ordre 2) :
σ 2 = Var(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
La racine carrée de la variance s’appelle l’écart-type de X : σ =
Moment absolu µ̄k d’ordre k
µ̄k = E(|X|k )
p
Var(X).
ainsi que moment absolu centré d’ordre k :
µ̄0k = E(|X − µ|k ).
Bien évidemment ces définitions supposent l’existence des intégrales respectives, et toutes les
lois ne possèdent pas de moments.
Exemple 1.2
Non-existence de tous les moments. Soit X variable aléatoire de densité de probabilité
f (x) =
où la constante c > 0 est telle que
R
c
,
1 + |x| log2 |x|
x ∈ R,
f = 1. Alors E(|X|a ) = ∞ pour tout a > 0.
La moyenne est utilisée pour caractériser la localisation (position) d’une loi de probabilités.
La variance caractérise la dispersion (l’échelle) d’une loi.
6
Loi normale N (µ, σ 2 ) avec la moyenne µ et la variance σ 2 :
0.4

0.35
0.3
0.25
0.2
0.15
0.1

0.05
0
−10

−8
−6
−4
−2
0
2
4
6
8
10
σ “grand” (beaucoup de dispersion), σ “petit” (peu de dispersion)
Soit F f.d.r. de la variable aléatoire X dont la moyenne et la variance sont µ et σ. Par
transformation affine on obtient la variable X0 = (X − µ)/σ, telle que E(X0 ) = 0, E(X02 ) = 1
(la variable standardisée). Si F0 est la f.d.r. de X0 , alors F (x) = F0 ( x−µ
σ ). Dans le cas continu
la densité de X s’écrit
1
x−µ
f (x) = f0 (
),
σ
σ
où f0 est la densité de X0 . En général, pour définir la loi standardisée F0 et d’avoir la réprésentation
F (x) = F0 ( x−µ
σ ), il n’est pas nécessaire que la moyenne et la variance existent. Ceci est fait
uniquement pour souligner que F dépend des paramètres de localisation (ou de position)
µ et d’échelle σ. Par exemple, pour la famille des densités de Cauchy dépendant de µ, σ :
1
1
f (x) = πσ(1+[(x−µ)/σ]
2 ) , la densité standardisée est f0 (x) = π(1+x2 ) . Pourtant, l’espérance et la
variance de la loi de Cauchy n’éxistent pas.
Un problème d’analyse très intéressant est lié à la notion des moments µk : soit F une f.d.r.
dont tous les moments sont finis. Étant donnée la suite {µk }, k = 1, 2, ... de moments de F ,
est-il possible de reconstituer F ? La réponse est généralement négative. Il existe néanmoins des
cas pour lesquels la reconstitution est possible, notamment sous l’hypothése très forte que
1/k
µ̄k
k→∞ k
lim sup
<∞
(µ̄k étant le k-ème moment absolu). Cette hypothèse est vérifiée, par exemple, pour une densité
à support borné. La condition nécessaire et suffisante pour la solution du problème de moments
reste inconnue.
1.1.2
Quantiles des lois de probabilités
Soit X une variable aléatoire de f.d.r. F continue et strictement croissante. Le quantile
d’ordre p, 0 < p < 1, de la loi F est la solution qp de l’équation
F (qp ) = p.
7
On remarque que si F est strictement croissante et continue, la solution existe et elle est unique,
donc le quantile qp est bien défini. Si F admet des parties plates ou n’est pas continue, alors on
peut modifier la définition :
Définition 1.1 Soit F une f.d.r. Le quantile qp d’ordre p de F est la valeur
qp = inf{q : F (q) ≥ p}.
La médiane M de la f.d.r. F est le quantile d’ordre 1/2, autrement dit,
M = q1/2 .
Notons que si F est continue, F (M ) = 1/2.
Les quartiles
sont les quantiles q1/4 et q3/4 d’ordre 1/4 et 3/4.
Les pourcentiles
de l%, de la loi F sont les quantiles qp d’ordre p = l/100, 0 < l < 100.
On note que la médiane caractérise la position (localisation) d’une loi de probabilités, tandis
que la différence q3/4 − q1/4 (dite intervalle interquartile) peut être interprétée comme une
caractéristique de l’échelle. Ces quantités sont analogues à la moyenne µ et à l’écart-type σ
respectivement. Mais à la différence de ceux-ci, la médiane et l’intervalle interquartile sont
définis pour toutes les lois de probabilités.
1.1.3
Autres caractéristiques
Mode d’une loi. Dans le cas discret on appelle la valeur k ∗ telle que
P (X = k ∗ ) = max P (X = k)
k
le mode de la loi F . Dans le cas continu le mode est la valeur x∗ telle que
f (x∗ ) = max f (x).
x
Une densité f est dite unimodale si x∗ est l’unique maximum local de f (le point ”le plus à la
mode”). De façon analogue on parle de densités bimodales et multimodales. Cette caractéristique
est assez imprécise, car même si le maximum global de la densité f est unique (il y a un seul mode
dans le sens propre) on l’appellera densité multimodale si il y a d’autres maximums locaux. Le
8
mode est une caractéristique de position. Elle peut se révéler intéressante dans le cas unimodal.
0.25
Mode
0.2
Mediane
Moyenne
0.15
0.1
0.05
0
0
2
4
6
8
10
12
14
16
18
20
Le mode, la médiane et la moyenne d’une loi
Caractéristiques d’asymétrie et d’aplatissement
Définition 1.2 La loi de X (la f.d.r. F ) est dite symétrique par rapport à zéro (ou tout simplement symétrique) si pour tout x ∈ Rm, F (x) = 1 − F (−x) (f (x) = f (−x) dans le cas continu).
Définition 1.3 La loi de X (la f.d.r. F ) est dite symétrique par rapport à µ ∈ R si
F (x + µ) = 1 − F (µ − x)
(f (x + µ) = f (µ − x) dans le cas continu).
Autrement dit, la f.d.r F (· − µ) est symétrique (par rapport à zéro).
Exercice 1.1
a) Montrer que si F est symétrique par rapport à µ, et E(|X|) < ∞, alors sa moyenne vérife
E(X) = µ. Si, en outre, F admet une densité unimodale, alors moyenne = médiane = mode.
b) Si F est symétrique et tous les moments µ̄k existent, alors les moments µk = 0 pour tout k
impair. Si F est symétrique par rapport à µ et tous les moments µ̄k existent, alors µ0k = 0 pour
tout k impair (par exemple, µ03 = 0).
On peut qualifier les distributions asymétriques comme étant “proches” de symétrie et “loins”
de symétrie. Dans ce but on introduit (pour tout loi de probabilité avec E(|X|3 ) < ∞) le
coefficient d’asymétrie (“skewness”)
α=
µ03
.
σ3
On remarque que α = 0 pour une f.d.r. symétrique avec E(|X|3 ) < ∞. Notons que la réciproque
n’est pas vraie : la condition α = 0 n’implique pas la symétrie de loi.
9
Exercice 1.2
Donner un exemple de densité non-symétrique avec α = 0.
Notons le
rôle de σ dans laRdéfinition de α : supposons parRexemple, que la densité f0 (x) de
R
X satisfait xf0 (x)dx = 0 et x2 f0 (x)dx = 1 et α0 = µ030 = x3 f0 (x)dx. Pour σ > 0, µ ∈ R,
la fonction
1
x−µ
f (x) = f0 (
),
σ
σ
est la densité de la variable σX +µ, et donc Var(σX +µ) = σ 2 et µ03 = (x−µ)3 f (x)dx = σ 3 µ030 .
µ0
En calculant α = σ33 on observe que α = α0 . Donc, le coefficient d’asymétrie α est invariant par
rapport aux transformations affines (d’échelle et de position).
R
Le coefficient α est une mesure controversée : on ne peut pas toujours affirmer que α > 0 si
la loi est “asymétrique vers la droite” et α < 0 si la loi est ”asymétrique vers la gauche”. Les
notions d’asymétrie “vers la droite” ou “vers la gauche” ne sont pas définies rigoureusement.
Coefficient d’aplatissement(“kurtosis”) β est définie de façon suivante : si le 4ème moment centré µ04 de la variable aléatoire X existe, alors
β=
µ04
− 3.
σ4
Exercice 1.3
Montrer que pour la loi normale N (µ, σ 2 ) on a : µ04 /σ 4 = 3 et donc β = 0.
On note que, comme le coefficient α d’asymétrie, le kurtosis β est invariant par rapport aux
transformations affines (changement de position et d’échelle).
Le coefficient β est le plus souvent calculé pour avoir une idée intuitive sur les “queues” de
la loi de X. On utilise le vocabulaire suivant : on dit que la loi F a des “queues lourdes” si
Z
Z
f (x)dx dans le cas continu)
dF (x) (=
Q(b) =
|x|≥b
|x|≥b
décroı̂t lentement quand b → ∞, par exemple, de façon polynômiale (comme 1/br où r > 0).
Sinon, on dit que “les queues sont légères” si Q(b) décroı̂t rapidement (exemple : décroissance
exponentielle).
On utilise l’heuristique suivante : si β > 0 on peut considérer que les queues de la loi en
2
question sont plus lourdes que celles de la loi normale (Q(b) = O(e−b /2 ) pour la loi normale
N (0, 1)). Si β < 0 (on dit dans ce cas que la loi est leptokurtique) on peut supposer que les
queues sont plus légères que celles de la loi normale (pour la loi normale β = 0).
Notons également que, pour toute loi de probabilité, β ≥ −2 (voir le paragraphe suivant).
Exemple 1.3
a) Le kurtosis β de la loi uniforme U [0, 1] est égal à −1.2 (queues ultra-légères).
b) Si f (x) ∼ |x|−5 quand |x| tend vers ∞, σ 2 est fini mais µ04 = ∞, ce qui implique β = ∞
(queues lourdes).
10
1.2
Rappel de quelques inégalités
Proposition 1.1 (Inégalité de Markov) Soit h(·) une fonction non négative croissante et
E(h(X)) < ∞. Alors pour tout a > 0 tel que h(a) > 0,
P (X ≥ a) ≤
E(h(X))
.
h(a)
(1.1)
Preuve : Soit a > 0 tel que h(a) > 0. Comme h(·) est une fonction croissante,
P (X ≥ a) ≤ P (h(X) ≥ h(a)) =
Z
I{h(x) ≥ h(a)}dF (x)
= E(I{h(X) ≥ h(a)}) ≤ E
h(X)
E(h(X))
I{h(X) ≥ h(a)} ≤
.
h(a)
h(a)
Corollaire 1.1 (Inégalité de Tchebychev) Soit X une variable aléatoire telle que E(X 2 ) <
∞. Alors pour tout a > 0
P (|X| ≥ a) ≤
P (|X − E(X)| ≥ a) ≤
E(X 2 )
a2
Var(X)
a2
Preuve : Pour montrer la première inégalité il suffit de poser dans (1.1) h(t) = t2 et Y = |X|
(ou Y = |X − E(X)| pour la deuxième).
Proposition 1.2 (Inégalité de Hölder) Soit r > 1, 1/r + 1/s = 1. Soit ξ et η deux variables
aléatoires telles que E(|ξ|r ) < ∞ et E(|η|s ) < ∞. Alors E(|ξη|) < ∞ et
E(|ξη|) ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s .
Preuve : On note d’abord que pour tout a > 0, b > 0, par concavité de la fonction log t,
(1/r) log a + (1/s) log b ≤ log(a/r + b/s),
ce qui est équivalent à :
a1/r b1/s ≤ a/r + b/s.
Posons ici a = |ξ|r /E(|ξ|r ), b = |η|s /E(|η|s ) (on suppose pour l’instant que E(|ξ|r ) 6= 0, E(|η|s ) 6=
0), ce qui donne
|ξη| ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s (|ξ|r /rE(|ξ|r ) + |η|s /sE(|η|s )) .
On conclut en prenant l’espérance. Si E(|ξ|r ) = 0 ou E(|η|s ) = 0, alors ξ = 0 (p.s) ou η = 0
(p.s.), et l’inégalité est triviale.
1.2. RAPPEL DE QUELQUES INÉGALITÉS
11
Corollaire 1.2 (Inégalité de Lyapunov) Soit 0 < v < t et X une variable aléatoire t.q.
E(|X|t ) < ∞. Alors E(|X|v ) < ∞ et
[E(|X|v )]1/v ≤ [E(|X|t )]1/t .
(1.2)
Pour démontrer ce corollaire il suffit d’appliquer l’inégalité de Hölder avec ξ = X v , η = 1,
r = t/v.
µ04
σ4
En utilisant l’inégalité (1.2) avec v = 2, t = 4 et |X − E(X)| au lieu de |X| on obtient
≥ 1. Donc, le coefficient d’aplatissement β vérifie l’inégalité β ≥ −2.
L’inégalité de Lyapunov implique la chaı̂ne des inégalités entre les moments absolus :
E(|X|) ≤ [E(|X|2 )]1/2 ≤ . . . ≤ [E(|X|k )]1/k .
Corollaire 1.3 (Inégalité de Cauchy-Schwarz) Soit ξ et η deux variables aléatoires telles
que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors E(|ξη|) < ∞ et
E(|ξη|)2 ≤ E(ξ 2 )E(η 2 ).
(Cas particulier de l’inegalité de Hölder pour r = s = 2.)
Proposition 1.3 (Inégalité de Jensen) Soit g(·) une fonction convexe, X une variable aléatoire
telle que E(|X|) < ∞. Alors
g(E(X)) ≤ E(g(X)).
Preuve : Par convexité de g, il existe une fonction g 1 (·) t.q. pour tout x, x0 ∈ R
g(x) ≥ g(x0 ) + (x − x0 )g 1 (x0 ).
On pose x0 = E(X). Alors
g(X) ≥ g(E(X)) + (X − E(X))g 1 (E(X)).
En prenant l’espérance on obtient E(g(X)) ≥ g(E(X)).
Un exemple d’application de l’inégalité de Jensen est le suivant :
|E(X)| ≤ E(|X|).
(1.3)
Proposition 1.4 (Inégalité de Cauchy-Schwarz - une modification) Soit ξ et η deux variables aléatoires telles que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors
(E(ξη))2 ≤ E(ξ 2 )E(η 2 ).
(1.4)
L’égalité est atteinte si et seulement si il existent a1 , a2 ∈ R tels que a1 6= 0 ou a2 6= 0 et
a1 ξ + a2 η = 0
presque sûrement.
(1.5)
12
Preuve : L’inégalité (1.4) est une conséquence du Corollaire 1.3 et de (1.3). Si (1.5) est vraie,
il est évident que l’égalité
(E(ξη))2 − E(ξ 2 )E(η 2 ) = 0
(1.6)
est atteinte. Réciproquement, si on a (1.6) et E(η 2 ) 6= 0, alors E((ξ − aη)2 ) = 0 avec a =
E(ξη)/E(η 2 ), ce qui implique ξ = aη presque sûrement. Le cas E(η 2 ) = 0 est trivial.
1.3
Suites de variables aléatoires
Soient ξ1 , ξ2 ..., et ξ variables aléatoires (v.a.) sur (Ω, F, P ).
P
Définition 1.4 La suite (ξn ) converge vers une variable aléatoire ξ en probabilité (noté ξn → ξ)
quand n → ∞ si
lim P {|ξn − ξ| ≥ } = 0
n→∞
pour tout > 0.
Définition 1.5 La suite (ξn ) converge en moyenne quadratique vers ξ si E(ξ 2 ) < ∞ et
lim E(|ξn − ξ|2 ) = 0.
n→∞
Définition 1.6 La suite (ξn ) converge presque sûrement vers ξ (noté ξn → ξ (p.s.), n → ∞) si
P {ω : ξn→
/ ξ} = 0
Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la
suivante : pour tout > 0
lim P {sup |ξk − ξ| ≥ } = 0.
n→∞
k≥n
D
Définition 1.7 La suite (ξn ) converge vers une variable aléatoire ξ en loi (on note ξn → ξ,
n → ∞) si
P {ξn ≤ t} → P {ξ ≤ t} lorsque n → ∞
dans chaque point de continuité de la f.d.r. F (t) = P {ξ ≤ t}.
Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la
convergence
E(f (ξn )) → E(f (ξ)) quand n → ∞
pour toute fonction f continue et bornée.
1.4. INDÉPENDANCE ET THÉORÈMES LIMITES
13
Liens entre les différents types de convergence :
convergence en moyenne quadratique =⇒ convergence en probabilité =⇒ | convergence en loi
convergence p.s.
=⇒ Exercice 1.4
Soit (ξn ) et (ηn ) deux suites de v.a.. Démontrer les résultats suivants :
1o . Si a ∈ R est une constante, alors
D
ξn → a
⇔
P
ξn → a,
lorsque n → ∞.
D
D
2o . (Théorème de Slutsky) Si ξn → a et ηn → η lorsque n → ∞ et a ∈ R est une constante,
alors
D
ξn + ηn → a + η,
lorsque n → ∞. Montrer que si a est une v.a. générale, ces deux relations ne sont pas vérifiées
(donner un contre-exemple).
P
D
3o . Si ξn → a et ηn → η lorsque n → ∞, où a ∈ R est une constante et η est une variable
aléatoire, alors
D
ξn ηn → aη,
lorsque n → ∞. Ce résultat reste-t-il vrai si on suppose que a est une variable aléatoire générale ?
1.4
Indépendance et théorèmes limites
Définition 1.8 Soit X et Y deux variables aléatoires. La variable X est dite indépendante de
Y si
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B)
pour tout A ∈ B et B ∈ B (A et B boréliens). Dans ce cas on note X⊥⊥Y .
Si E(|X|) < ∞, E(|Y |) < ∞, alors l’indépendence implique
E(XY ) = E(X)E(Y )
(la réciproque n’est pas vraie !).
Définition 1.9 Soient X1 , ..., Xn des variables aléatoires, on dit que X1 , ..., Xn sont (mutuellement) indépendantes si pour tous A1 , ..., An ∈ B
P (X1 ∈ A1 , ..., Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).
Remarque. Le fait que Xi , i = 1, ..., n soient indépendantes deux à deux, c’est-à-dire Xi ⊥⊥Yj ,
n’implique pas que X1 , .., Xn soient mutuellement indépendantes. Par contre, l’indépendance
mutuelle implique l’indépendance deux à deux. En particulier, si X1 , ..., Xn sont indépendantes
et E(|Xi |) < ∞, i = 1, ..., n, alors
E(Xi Xj ) = E(Xi )E(Xj ),
i 6= j.
14
1.4.1
Sommes de variables indépendantes
Considérons la somme ni=1 Xi , où X1 , ..., Xn sont indépendantes. Si E(Xi2 ) < ∞, i = 1, ..., n
(par l’inégalité de Lyapunov cela implique E(|Xi |) < ∞), alors
P
E
n
X
i=1
!
Xi
=
n
X
E(Xi ) (vrai sans hypothèse d’indépendance)
i=1
et, de plus,
Var
n
X
!
Xi
i=1
=
n
X
Var(Xi ).
i=1
Définition 1.10 On dit que les variables X1 , ..., Xn sont i.i.d. (indépendantes et équidistribuées)
si elles sont mutuellement indépendantes et Xi est de même loi que Xj pour tous 1 ≤ i, j ≤ n.
Proposition 1.5 Soit X1 , ..., Xn v.a. i.i.d. telles que E(X1 ) = µ et Var(X1 ) = σ 2 < ∞. Alors
la moyenne arithmétique
n
1X
X̄ =
Xi
n i=1
satisfait
E(X̄) = µ et Var(X̄) =
σ2
1
Var(X1 ) =
.
n
n
Proposition 1.6 (Loi forte de grands nombres de Kolmogorov) Soient X1 , ..., Xn v.a. i.i.d.
telles que E(|X1 |) < ∞, et µ = E(X1 ). On a
X̄ → µ (p.s.) lorsque n → ∞.
Contre-exemple. Soient Xi variables i.i.d de loi de Cauchy. La densité de X1 est
f (x) =
1
, x ∈ R.
π(1 + x2 )
Alors E(|X1 |) = ∞, E(X1 ) n’est pas définie et la moyenne arithmétique X̄ n’est pas convergente
(on remarque que les queues de la loi de Cauchy sont “lourdes”).
Proposition 1.7 (Théorème central limite ) Soient X1 , ..., Xn v.a. i.i.d. telles que E(X12 ) <
∞ et σ 2 = Var(X1 ) > 0. Alors,
√
X̄ − µ
n
σ
où µ = E(X1 ), et η ∼ N (0, 1).
!
D
→ η, lorsque n → ∞,
1.5. THÉORÈMES DE CONTINUITÉ
1.4.2
15
Approximation des distributions par des lois asymptotiques
Le théorème central limite (Proposition 1.7) s’écrit sous la forme équivalente :
P
√
X̄ − µ
n
σ
!
!
≤t
→ P (η ≤ t), lorsque n → ∞,
pour tout t ∈ R, où η ∼ N (0, 1). Notons
Φ(t) = P (η ≤ t)
la f.d.r. normale standard. Alors
√
P (X̄ ≤ x) = P
X̄ − µ
n
σ
!
≤
√
x−µ
n
σ
!
√
≈Φ
x−µ
n
σ
quand n → ∞. Autrement dit, P (X̄ ≤ x), la f.d.r. de X̄, peut être approximée par la loi normale :
√
P (X̄ ≤ x) ≈ Φ
x−µ
n
σ
pour n assez grand.
1.5
Théorèmes de continuité
Proposition 1.8 (Premier théorème de continuité) Soit g(·) une fonction continue et ξ1 , ξ2 , ...
et ξ variables aléatoires sur (Ω, F, P ). Alors
(i) ξn → ξ (p.s.) ⇒ g(ξn ) → g(ξ) (p.s.)
P
⇒ g(ξn ) → g(ξ)
D
⇒ g(ξn ) → g(ξ)
(ii)
ξn → ξ
(iii)
ξn → ξ
P
D
Preuve : (i) est évident. On va démontrer (ii) dans le cas particulier ξ = a (a fixe déterministe).
En effet, ce cas seulement présente un intérêt dans la suite de ce cours. La continuité de g implique
que pour tout > 0 il existe δ > 0 tel que
|ξn − a| ≤ δ
⇒ |g(ξn ) − g(a)| < .
P
Comme ξn → a, n → ∞, on a
lim P (|ξn − a| < δ) = 1 pour tout δ > 0.
n→∞
D’où
lim P (|g(ξn ) − g(a)| < ) = 1 pour tout > 0.
n→∞
(iii) Il suffit de démontrer (voir la remarque après la Définition 1.7) que pour toute fonction
continue bornée h(x)
E(h(g(ξn ))) → E(h(g(ξ))), n → ∞.
16
D
Comme g est continue, f = h ◦ g est aussi continue et bornée. Ceci démontre (iii), car ξn → ξ
signifie que
E(f (ξn )) → E(f (ξ)), n → ∞,
pour toute fonction f continue bornée.
Proposition 1.9 (Deuxième théorème de continuité) Soit g(·) continue et continûment
différentiable et X1 , ..., Xn variables aléatoires i.i.d. telles que E(X12 ) < ∞ et σ 2 = Var(X1 ) > 0.
Alors
!
√
g(X̄) − g(µ) D
n
→ ηg 0 (µ), n → ∞,
σ
où X̄ =
1
n
Pn
i=1 Xi ,
µ = E(X1 ) et η ∼ N (0, 1).
Preuve : La fonction
(
h(x) =
g(x)−g(µ)
,
x−µ
0
g (µ),
si x 6= µ
si x = µ
P
est continue sous nos hypothèses. Comme X̄ → µ (par Proposition 1.6) et h est continue, on
conclut, grâce au premier théorème de continuité, que
P
h(X̄) → h(µ) = g 0 (µ),
Mais
n → ∞.
(1.7)
√
√ g(X̄) − g(µ)
n
=
h(X̄)(X̄ − µ) = h(X̄)ηn ,
n
σ
σ
√
D
où ηn = σn (X̄ − µ). La proposition 1.7 implique que ηn → η ∼ N (0, 1) quand n → ∞. Utilisant
ce fait avec (1.7) et le résultat 3o de l’Exercice 1.4 on obtient le résultat.
1.6
Construction d’un échantillon aléatoire par simulation
Dans les applications on a souvent besoin de générer (construire) de façon artificielle (à l’aide
d’un ordinateur, par exemple) une suite X1 , ..., Xn de nombres aléatoires i.i.d. suivant la loi F
(on l’appelle un échantillon). Les méthodes de simulation permettent d’obtenir seulement une
valeur pseudo-aléatoire, au lieu d’une valeur aléatoire. Cela signifie que les nombres X1 , ..., Xn
simulés sont déterministes – ils sont obtenus par un algorithme déterministe – mais les propriétés de la suite X1 , ..., Xn sont “proches” de celles d’une suite aléatoire i.i.d. de même loi. Par
exemple, pour les nombres pseudo-aléatoires on a
sup |Fn (x) − F (x)| → 0,
n→∞
x
pour tout x ∈ R, ou Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn qui satisfont ξk < x. On
appelle Fn (x) fonction de répartition empirique calculée à partir de la suite X1 , ..., Xn . Ici
on considére la convergence dans le sens des suites déterministes, non-aléatoires (cf. Exercice
1.1.14). La loi forte des grands nombres, le théorème central limite sont assurés, etc.
1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION
1.6.1
17
Simulation des variables uniformément distribuées
Le programme-générateur est disponible dans les nombreux langages de programmation.
Quel est le principe de son fonctionnement ? La f.d.r. F (x) de la loi U [0, 1] satisfait
F (x) =


 0,
x,

 1,
x<0
x ∈ [0, 1]
x > 1.
Algorithme congruentiel. On se donne un nombre réel a > 1 et un nombre entier m (d’habitude a et m sont des “très grands” nombres). On commence par une valeur z0 fixe. Pour tout
1 ≤ i ≤ n on définit
zi =
le reste de division de azi−1 par m
azi−1
m,
= azi−1 −
m
où [·] est partie entière. Nous avons toujours 0 ≤ zi < m. On définit
zi
azi−1
azi−1
Ui =
=
−
,
m
m
m
alors 0 ≤ Ui < 1. La suite U1 , ..., Un est considérée comme un échantillon de la loi uniforme
U [0, 1]. Même si ce n’est pas une suite aléatoire, la f.d.r. empirique
FnU (x)
n
1X
=
I{Ui ≤ x}
n i=1
satisfait sup0≤x≤1 |Fn − x| ≤ (m), n → ∞, avec (m) qui converge très vite vers 0 quand
m → ∞.
Divers résultats mathématiques permettent de justifier les “bons” choix de z0 , a et de m.
Ils risquent de tomber en désuetitude du fait de l’apparition de nouveaux générateurs plus
performants. Les valeurs suivantes de paramètres sont très répandues et donnent en général
satisfaction :
a = 16807(75 ), m = 2147483647(231 − 1).
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
la f.d.r empirique en escalier/la f.d.r. théorique
18
1.6.2
Simulation des variables d’une loi générale
Étant donné un échantillon i.i.d. U1 , ..., Un d’une loi uniforme, on peut obtenir un échantillon
d’une loi générale F (·) par la méthode d’inversion. Elle marche bien si on possède une
expression explicite pour F (·). Cette méthode est basée sur la proposition suivante :
Proposition 1.10 Soit F une f.d.r. continue et strictement monotone, et soit U une variable
aléatoire uniformément distribuée sur [0, 1]. Alors la v.a.
X = F −1 (U )
a F (·) comme f.d.r.
Preuve : On note que
F (x) = P (U ≤ F (x)) = P (F −1 (U ) ≤ x) = P (X ≤ x).
D’où l’algorithme de simulation suivant : si F (x) est continue est strictement croissante, on
prend
Xi = F −1 (Ui ),
où Ui sont des nombres pseudo-aléatoires uniformément distribués sur [0, 1], i = 1, ..., n. De cette
façon on obtient un échantillon simulé X1 , ..., Xn .
Si F n’est pas continue ou strictement monotone, il faut modifier la “définition” de F −1 . On
pose
∆
F −1 (y) = sup{t : F (t) < y}.
Alors,
P (Xi ≤ x) = P (sup{t : F (t) < Ui } ≤ x) = P (Ui ≤ F (x)) = F (x).
Exemple 1.4 Répartition exponentielle :
f (x) = e−x I{x > 0},
F (x) = (1 − e−x )I{x > 0}.
On calcule F −1 (y) = − ln(1 − y) pour y ∈ (0, 1). Xi = − ln(1 − Ui ), i = 1, ..., n où Ui ∼ U [0, 1].
Exemple 1.5 Loi de Bernoulli :
P (X = 0) = 1 − p, 0 < p < 1.
P (X = 1) = p,
On utilise la méthode modifiée :
(
F −1 (y) = sup{t : F (t) < y} =
0,
1,
y ∈ [0, 1 − p],
y ∈ (1 − p, 1].
Si Ui est une v.a. de loi uniforme, alors Xi = F −1 (Ui ) suit la loi de Bernoulli, on a
(
Xi =
0,
1,
Ui ∈ [0, 1 − p],
Ui ∈ (1 − p, 1].
1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION
19
Exercice 1.5
Une v.a. Y prend les valeurs 1, 3 et 4 avec les probabilités P (Y = 1) = 3/5, P (Y = 3) = 1/5 et
P (Y = 4) = 1/5. Décrivez comment vous allez obtenir Y à partir d’une v.a. U ∼ U (0, 1).
Exercice 1.6
Soit U ∼ U (0, 1).
1. Expliquez comment obtenir une simulation de dés à 6 faces à partir de U .
2. Soit Y = [6U + 1], où [a] est la partie entière de a. Quelles sont les valeurs possibles de
Y et leurs probabilités ?
Simulation des variables transformées Comment simuler un échantillon Y1 , ..., Yn de loi
F ((x − µ)/σ), étant donné l’échantillon X1 , ..., Xn de F (·) ? On suppose que σ > 0 et µ ∈ R). Il
faut prendre Yi = σXi + µ, i = 1, ..., n.
1.6.3
Simulation de la loi normale N (0, 1)
Dans le cas d’une loi normale la f.d.r. F est bien continue et monotone mais n’est pas connue
explicitement. Il est difficile d’appliquer la méthode d’inversion. Il existe néanmoins d’autres
méthodes de simulation très performantes du point de vue du coût de calcul.
Utilisation du Théorème central limite. Si U ∼ U [0, 1] nous avons E(U ) = 1/2 et
Var(U ) = 1/12. Ceci implique par le Théorème central limite que
U1 + ... + UN − N/2 D
p
→ N (0, 1),
N/12
N → ∞,
pour un échantillon i.i.d. U1 , ..., UN de loi uniforme sur [0, 1] (N = 12 est suffisant pour obtenir
une bonne approximation !). D’où la méthode de simulation suivante : soit U1 , U2 , ..., U nN une
suite de variables pseudo-aléatoires de loi U [0, 1], on prend
Xi =
U(i−1)N +1 + ... + UiN − N/2
p
Méthode de Box et Müller.
N/12
,
i = 1, ..., n.
Elle découle du résultat suivant :
Proposition 1.11 Soit ξ et η variables aléatoires indépendantes de loi U [0, 1]. Alors les v.a.
X=
p
−2 ln ξ cos(2πη) et Y =
p
−2 ln ξ sin(2πη)
sont normales et indépendantes avec E(X) = E(Y ) = 0, Var(X) = Var(Y ) = 1.
On démontre cette proposition dans le Chapitre 3.
Ce résultat nous donne une méthode efficace de simulation : soit U1 , ..., U2n variables aléatoires
i.i.d. de loi U [0, 1]. On pose
pour i = 1, ...n.
X2i =
p
X2i−1 =
p
−2 ln U2i cos(2πU2i−1 ),
−2 ln U2i sin(2πU2i−1 ),
20
1.7
Exercices
Exercice 1.7
On jette deux dés équilibrés. Trouver la loi de probabilité conjointe de X et Y dans les cas
suivants :
1. X est la plus grande des deux valeurs obtenues et Y en est la somme ;
2. X est la valeur obtenue avec le premier dé et Y est la plus grande des deux valeurs ;
3. X et Y sont respectivement la plus petite et la plus grande des deux valeurs obtenues.
Exercice 1.8
Soit X et Y deux v.a. indépendantes de loi de Bernoulli B( 12 ). Soit U = X + Y et V = |X − Y |.
1. Donner la loi jointe et les lois marginales de U et V , la loi de U sachant V = 0 et V = 1.
2. U et V sont-ils indépendants ?
Exercice 1.9
Soit ξ1 , ..., ξn des variables aléatoires indépendantes et
ξmin = min(ξ1 , ..., ξn ),
ξmax = max(ξ1 , ..., ξn ).
1) Montrer que
P (ξmin ≥ x) =
n
Y
P (ξi ≥ x),
P (ξmax < x) =
n
Y
P (ξi < x).
i=1
i=1
2) Supposons, de plus, que ξ1 , ..., ξn sont identiquement distribuées avec la loi uniforme U [0, a].
Calculer E(ξmin ), E(ξmax ), Var(ξmin ) et Var(ξmax )
Exercice 1.10
Soit ξ1 , ..., ξn des v.a. indépendantes de loi de Bernoulli avec
P (ξ1 = 0) = 1 − λi ∆,
P (ξ1 = 1) = λi ∆
où λi > 0 et ∆ > 0 petit. Démontrer que
P
n
X
i=1
!
ξi = 1
=
n
X
!
2
λi ∆ + O(∆ ),
i=1
P
n
X
!
ξi > 1
= O(∆2 ).
i=1
Exercice 1.11
1) Montrer que inf −∞<a<∞ E((ξ − a)2 ) est atteint pour a = E(ξ) et donc
inf
−∞<a<∞
E((ξ − a)2 ) = Var(ξ).
2) Soit ξ une variable aléatoire non négative avec la f.d.r. F et d’espérance finie. Démontrer que
Z ∞
E(ξ) =
(1 − F (x))dx.
0
3) En utilisant le résultat 2) montrer que si M est la médiane de la f.d.r. F de ξ,
inf
−∞<a<∞
E(|ξ − a|) = E(|ξ − M |).
1.7. EXERCICES
21
Exercice 1.12
Soient X1 et X2 deux v.a. indépendantes de loi exponentielle E(λ). Montrer que min(X1 , X2 ) et
|X1 − X2 | sont des variables aléatoires de lois respectivement E(2λ) et E(λ).
Exercice 1.13
Soit X le nombre d’apparitions de “6” dans 12000 tirages√
d’un dé. En utilisant
√ le théorème central
limite estimer la probabilité que 1800 < X ≤ 2100 (Φ( 6) ≈ 0.9928, Φ(2 6) ≈ 0.999999518).
Utiliser l’inégalité de Tchebychev pour obtenir l’approximation.
Exercice 1.14
Soient les variables aléatoires ξ1 , ..., ξn indépendantes pour chaque n et équidistribuées avec la
f.d.r F (x). On définit pour chaque x ∈ R la v.a. Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn
qui satisfont ξk < x. Montrer que pour tout x
P
Fbn (x) → F (x)
(la fonction Fbn (x) s’appelle fonction de répartition empirique).
Exercice 1.15
[Méthode de Monté-Carlo] On cherche à calculer l’intégrale I =
aléatoire de loi U [0, 1], alors
R1
0
f (x)dx. Soit X la variable
Z 1
f (x)dx = I.
E(f (X)) =
0
Soit X1 , ..., Xn des v.a. i.i.d avec une distribution uniforme sur [0, 1]. Considérons
n
1X
f¯n =
f (Xi )
n i=1
P
et supposons que σ 2 = Var(f (X)) < ∞. Montrer que E(f¯n ) → I et f¯n → I quand n → ∞.
Estimer P (|f¯n − I| < ) à l’aide du théorème central limite.
Exercice 1.16
Dans la modélisation de durée de vie des composants mécaniques on utilise quelquefois des v.a.
de loi de Weibull. Un exemple de loi de cette famille est la loi dont la f.d.r est
(
F (x) =
1−
0, x < 0
x ≥ 0.
2
e−5x ,
Construire une variable Z avec cette loi à partir d’une v.a. de loi U (0, 1).
Exercice 1.17
Décrire l’algorithme de simulation d’une loi de Poisson par inversion.
Indication : il n’y a pas d’expression simple pour la fonction de répartition et l’ensemble des
valeurs possible est infini. Il faut donc calculer les valeurs Fk au fur et à mesure. On remarque
que si X suit la loi de Poisson,
P (X = k) = e−λ
λk
λ
= P (X = k − 1).
k!
k
22
Chapitre 2
Régression et corrélation
2.1
Couples des variables aléatoires. Lois jointes et marginales
Soit (X, Y ) un couple de variables aléatoires. La f.d.r. jointe du couple (X, Y ) est
FX,Y (x, y) = P (X ≤ x, Y ≤ y),
x, y ∈ R.
Les f.d.r. marginales sont données par
FX (x) = FX,Y (x, ∞) = P (X ≤ x);
FY (y) = FX,Y (∞, y) = P (Y ≤ y).
Dans le cas continu on suppose que FX,Y admet une densité fX,Y par rapport à la mesure
de Lebesgue dans R2 , et la dérivée
∂ 2 FX,Y (x, y)
= fX,Y (x, y)
∂x∂y
(2.1)
existe presque partout. La fonction fX,Y (x, y) est la densité de FX,Y (x, y).
Les densités marginales sont définies par
Z ∞
Z ∞
fX (x) =
−∞
fX,Y (x, y)dy, fY (y) =
−∞
fX,Y (x, y)dx.
Dans le cas discret X et Y prennent au maximum un nombre dénombrable de valeurs. La
loi jointe du couple X, Y est définie par les probabilités {P (X = k, Y = m)}k,m . Les lois
marginales sont définies par les probabilités
P (X = k) =
X
P (X = k, Y = m),
m
P (Y = m) =
X
P (X = k, Y = m).
k
Si X et Y sont indépendantes, alors
FX,Y = FX (x)FY (y) pour tout (x, y) ∈ R2 .
23
24
CHAPITRE 2. RÉGRESSION ET CORRÉLATION
La réciproque est aussi vraie. Dans le cas continu ça se traduit par la décomposition
fX,Y (x, y) = fX (x)fY (y), pour tout (x, y) ∈ R2 ,
et dans le cas discret par
P (X = k, Y = m) = P (X = k)P (Y = m).
2.2
Conditionnement (cas discret)
Soit A et B deux événement aléatoires (A, B ∈ F) tels que P (B) 6= 0. La probabilité
conditionnelle P (A|B) de A sachant B est définie par
P (A|B) =
P (AB)
.
P (B)
Soit X et Y deux v.a. discrètes. Selon cette définition
P (Y = k|X = m) =
P (Y = k, X = m)
,
P (X = m)
pour tout k, m tels que P (X = m) 6= 0. On suppose que P (X = m) 6= 0 pour tout m admissible.
Alors on a
P
X
P (Y = k, X = m)
P (Y = k|X = m) = k
= 1.
P (X = m)
k
Donc les probabilités {P (Y = k|X = m)}k définissent une loi discrète de probabilité. Si X et Y
sont indépendantes,
P (Y = k|X = m) =
P (Y = k)P (X = m)
= P (Y = k).
P (X = m)
(2.2)
Espérance conditionnelle de Y sachant que X = m est la valeur numérique
E(Y |X = m) =
X
kP (Y = k|X = m).
k
La variance conditionnelle est donneée par
Var(Y |X = m) = E(Y 2 |X = m) − [E(Y |X = m)]2 .
De façon analogue on définit les moments conditionnels, les quantiles conditionnels et autres
caractéristiques d’une loi conditionnelle.
Définition 2.1 L’espérance conditionnelle E(Y |X) de Y sachant X où X et Y sont des variables aléatoires discrètes, E(|Y |) < ∞, est une variable aléatoire discrète qui ne dépend que
de X et qui prend les valeurs
{E(Y |X = m)}m
avec les probabilités P (X = m).
2.2. CONDITIONNEMENT (CAS DISCRET)
25
Il est important de ne pas confondre la variable aléatoire E(Y |X) et la fonction numérique
(déterministe) E(Y |X = m) (fonction de m).
On note que la condition E(|Y |) < ∞ garantit l’existence de l’espérance conditionnelle
E(Y |X).
2.2.1
1o .
Propriétés des espérances conditionnelles (cas discret)
(Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors, pour tout a ∈ R, b ∈ R,
E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.)
2o .
Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.) (vu (2.2)).
3o .
E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h.
4o .
(Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors
E(h(Y, X)|X = m) = E(h(Y, m)|X = m).
Preuve : On pose Y 0 = h(Y, X), c’est une v.a. discrète qui prend les valeurs h(k, m). Donc, la
loi conditionnelle de Y 0 sachant X est donnée par les probabilités
P (Y 0 = a|X = m) = P (h(Y, X) = a|X = m) =
=
P (h(Y, X) = a, X = m)
P (X = m)
P (h(Y, m) = a, X = m)
= P (h(Y, m) = a|X = m).
P (X = m)
D’où pour tout m fixé
E(Y 0 |X = m) =
X
aP (Y 0 = a|X = m) =
a
X
aP (h(Y, m) = a|X = m) = E(h(Y, m)|X = m).
a
Par conséquent, si h(x, y) = h1 (y)h2 (x), nous avons
E(h1 (Y )h2 (X)|X = m) = h2 (m)E(h1 (Y )|X = m),
et
E(h1 (Y )h2 (X)|X) = h2 (X)E(h1 (Y )|X) (p.s.) .
5o . (Théorème de l’espérance double) Soit E(|Y |) < ∞, alors E(E(Y |X)) = E(Y ).
Preuve : On décompose
E(E(Y |X)) =
X
E(Y |X = m)P (X = m) =
m
=
X
m,k
XX
m
kP (Y = k, X = m) =
X X
k
k
m
kP (Y = k|X = m)P (X = m)
k
P (Y = k, X = m) =
X
k
kP (Y = k) = E(Y ).
26
Exemple 2.1 Soit ξ et η deux variables aléatoires indépendantes de même loi de Bernoulli,
qui prennent les valeurs 1 et 0 avec probabilités p et 1 − p. Quelle est l’espérance conditionnelle
E(ξ + η|η) ? E(η|ξ + η) ?
En utilisant les propriétés 2o et 3o nous avons
E(ξ + η|η) = Eξ + η = p + η.
On utilise la définition : pour k = 0, 1, 2,
E(η|ξ + η = k) = 1 · P (η = 1|ξ + η = k) =
Donc E(η|ξ + η) =
2.3
ξ+η
2


 0,
1/2,

 1,
k = 0,
k = 1,
k = 2.
(p.s.).
Conditionnement comme une projection
Considèrons l’ensemble des toutes les variables aléatoires ξ sur (Ω, F, P ) telles que E(ξ 2 ) <
∞. On dit que ξ ∼ ξ 0 si ξ = ξ 0 (p.s.). par rapport à la mesure P . Ceci définit l’ensemble des
classes d’équivalence sur les variables aléatoires telles que E(ξ 2 ) < ∞.
Définition 2.2 On note L2 (P ) l’espace des (classes d’équivalence de) variables aléatoires ξ de
carré intégrables (E(ξ 2 ) < ∞).
L’espace L2 (P ) qu’on vient de définir est un espace de Hilbert muni du produit scalaire
hX, Y i = E(XY ),
X, Y ∈ L2 (P ),
et de la norme respective kXk = [E(X 2 )]1/2 , X ∈ L2 (P ).
En effet, h·, ·i vérifie les axiomes du produit scalaire : pour tous X, ξ, η ∈ L2 (P ) et a, b ∈ R
haξ + bη, Xi = E([aξ + bη]X) = aE(ξX) + bE(ηX) = ahξ, Xi + bhη, Xi,
et hX, Xi ≥ 0 ; hX, Xi = 0 implique X = 0 (p.s.).
2.3.1
Meilleure prévision
Si les variables X et Y sont indépendantes la connaissance de la valeur prise par X n’ajoute
aucune information sur celle de Y . Mais si X et Y sont dépendantes et si on connaı̂t la réalisation
de X, ça nous apporte une information sur Y . On pose le problème de meilleure prévision
de Y étant donnée X de façon suivante :
Soit Y ∈ L2 (P ) et soit X une v.a. sur (Ω, F, P ). Trouver une fonction mesurable (borélienne)
g(·) telle que
kY − g(X)k = min kY − h(X)k,
h(·)
(2.3)
où le minimum est récherché entre toutes les fonction mesurables (boréliennes) h(·) et k · k est
la norme de L2 (P ). La variable aléatoire Yb = g(X) est dite la meilleure prévision de Y étant
donné X.
2.3. CONDITIONNEMENT COMME UNE PROJECTION
27
On utilise le vocabulaire (statistique ou para-statistique) : X est dite variable explicative ou
prédicteur, Y est dite variable expliquée.
On peut écrire (2.3) sous la forme équivalente :
E((Y − g(X))2 ) = min E((Y − h(X))2 ) =
h(·)
min
h(X)∈LX
2 (P )
E((Y − h(X))2 ).
Il suffit de considérer le cas h(X) ∈ L2 (P ), car la solution g(·) de (2.3) est automatiquement
dans L2 (P ).
On peut considérer (2.3) comme le problème de projection orthogonale de Y sur le sousespace linéaire LX
2 (P ) de L2 (P ) défini par
2
LX
2 (P ) = {ξ = h(X) : E(h (X)) < ∞}.
Par les propriétés de projection orthogonale, g(X) ∈ LX
2 (P ) est la solution de (2.3) si et
seulement si
hY − g(X), h(X)i = 0 pour tout h(X) ∈ LX
2 (P ),
Y
g(X)
LX(P)
2
et la projection orthogonale g(X) est unique (p.s.). En passant à la notation avec les espérances,
on écrit la précedente formule comme
E((Y − g(X))h(X)) = 0 pour tout h(X) ∈ LX
2 (P ),
ou bien,
E(Y h(X)) = E(g(X)h(X)) pour tout h(X) ∈ LX
2 (P ).
(2.4)
E(Y I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tout A ∈ B (borélien).
(2.5)
En particulier,
Remarque. En effet, (2.5) implique (2.4), et donc (2.4) et (2.5) sont équivalents – on se
P
rappelle que toute fonction de L2 peut être approximée par des sommes de type i ci I{x ∈ Ai }
(fonction-escalier).
On va montrer maintenant que dans le cas discret la seule variable aléatoire g(X) qui
vérifie (2.4) (et (2.5)), et donc résout le problème de meilleure prévision (2.3), est l’espérance
conditionnelle de Y sachant X.
28
Proposition 2.1 Soit X et Y v.a. discrètes, Y ∈ L2 (P ). Alors la meilleure prévision Yb de Y
étant donnée X est unique (p.s.) et définie par
Yb = g(X) = E(Y |X).
Preuve :
E (E(Y |X)h(X)) =
X
E(Y |X = k)h(k)P (X = k)
k
=
"
X X
k
=
X
#
mP (Y = m|X = k) h(k)P (X = k)
m
m h(k)P (Y = m, X = k) = E(Y h(X)).
k,m
Donc (2.4) est vérifié avec g(X) = E(Y |X). Comme la projection orthogonale est unique (p.s.),
la meilleure prévision est unique (p.s.) aussi.
2.4
Probabilité et espérance conditionnelle (Cas général)
On peut étendre la définition de l’espérance conditionnelle E(Y |X) au cas de 2 variables
aléatoires X et Y générales. On utilise la définition suivante :
Définition 2.3 Soient Y et X deux variables aléatoires telles que E(|Y |) < ∞. L’espérance
conditionnelle g(X) = E(Y |X) est une variable aléatoire mesurable par rapport à X qui vérifie
E(Y I{X ∈ A}) = E(g(X)I{X ∈ A})
(2.6)
pour tout ensemble borélien A.
Remarque : ici on passe de l’hypothèse Y ∈ L2 (P ) (≡ E(Y 2 ) < ∞) à l’hypothèse plus faible
E(|Y |) < ∞. On peut démontrer (voir le cours de probabilités) que la fonction g(X) qui vérifie
(2.6) existe et elle est unique (p.s.) (conséquence du Théorème de Radon-Nikodym).
Si Y ∈ L2 (P ), l’existence et l’unicité p.s. de la fonction g(X) vérifiant (2.6) est une
conséquence des propriétés de projection orthogonale dans L2 comme on a déjà vu.
Théorème 2.1 (de meilleure prévision) Soient X et Y v.a., Y ∈ L2 (P ). Alors la meilleure
prévision de Y étant donné X est unique (p.s.) et elle est égale à
Yb = g(X) = E(Y |X).
2.4. PROBABILITÉ ET ESPÉRANCE CONDITIONNELLE (CAS GÉNÉRAL)
2.4.1
29
Probabilité conditionnelle
Considérons le cas particulier suivant : on remplace Y par Y 0 = I{Y ∈ B}. Notons que la
variable Y 0 est bornée (|Y 0 | ≤ 1) et donc E(|Y 0 |2 ) < ∞. On peut définir l’espérance conditionnelle
g(X) = E(Y 0 |X) par la relation (cf. (2.6))
E (I{Y ∈ B}I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tous A, B ∈ B.
Définition 2.4 La probabilité conditionnelle P (Y ∈ B|X) est la variable aléatoire qui vérifie
P (Y ∈ B, X ∈ A) = E [P (Y ∈ B|X)I{X ∈ A}] pour tout A ∈ B
Comme dans le cas discret on définit également la fonction numérique :
Définition 2.5 La fonction de deux variables P (Y ∈ B|X = x), B ∈ B (un ensemble borélien)
et x ∈ R est dite probabilité conditionnelle de Y sachant que X = x si
(i) pour tout B fixé P (Y ∈ B|X = x) vérifie
P (Y ∈ B, X ∈ A) =
Z
P (Y ∈ B|X = x)dFX (x);
(2.7)
A
(ii) pour tout x fixé P (Y ∈ B|X = x) est une loi de probabilités comme fonction de B.
Remarque :
on sait déjà que pour tout B ∈ B il existe une fonction
gB (x) = P (Y ∈ B|X = x)
t.q. (i) est vérifié. Mais cette fonction est définie modulo les valeurs sur un ensemble NB de
mesure nulle. Il est important que, généralement, cet ensemble dépend de B. Donc il est possible
S
que N = B∈B NB soit de mesure > 0. Les dégâts pourraient être considérables : par exemple,
l’additivité de la mesure de probabilités pourrait être violée, etc. Heureusement, dans notre cas
(v.a. réelles et tribu borélienne) il existe le théorème (de Kolmogorov) qui dit qu’on peut choisir
une version de la fonction gB (·) telle que P (Y ∈ B|X = x) soit une mesure de probabilités
pour tout x ∈ R fixé. Dans la suite on suppose que cette version est choisie dans chaque cas
particulier.
On peut définir également la fonction réelle de x :
E(Y |X = x) =
Z
yP (dy|X = x).
telle que
E(Y I{X ∈ A}) =
Z
E(Y |X = x)dFX (x), pour tout A ∈ B.
A
2.4.2
1o .
Propriétés de l’espérance conditionnelle (cas général)
(Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors
E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.)
30
2o . Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.)
Preuve : Vu la définition (2.6) il suffit de montrer que
E(Y I{X ∈ A}) = E (E(Y )I{X ∈ A}) , pour tout A ∈ B.
(2.8)
Mais
E (E(Y )I{X ∈ A}) = E(Y )P (X ∈ A),
et donc (2.8) est une conséquence de l’indépendance de X et Y .
3o .
E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h.
4o .
(Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors
E(h(Y, X)|X = x) = E(h(Y, x)|X = x).
5o .
(Théorème de l’espérance double)
E(E(Y |X)) = E(Y ).
Preuve : On pose A = R dans la définition (2.6), alors I(X ∈ A) = 1, et on obtient le résultat
désiré.
2.5
Conditionnement : cas continu
On suppose maintenant qu’il existe une densité jointe fX,Y (x, y) du couple (X, Y ). Posons
( f (x,y)
X,Y
fY |X (y|x) =
fX (x)
,
si fX (x) > 0,
si fX (x) = 0.
0,
Proposition 2.2 Si la densité jointe de (X, Y ) existe, alors
P (Y ∈ B|X = x) =
Z
B
fY |X (y|x)dy pour tout B ∈ B.
Preuve : Il suffit de montrer (cf. (2.7)) que pour tous A, B ∈ B
P (Y ∈ B, X ∈ A) =
Z Z
A
B
fY |X (y|x)dy dFX (x).
Comme X possède une densité, dFX (x) = fX (x)dx. Par le Théorème de Fubuni
Z Z
A B
Z Z
fY |X (y|x)dyfX (x)dx =
B
A
fY |X (y|x)fX (x) dxdy
Mais fY |X (y|x)fX (x) = fX,Y (x, y) presque partout (si fX (x) = 0, alors fX,Y (x, y) = 0 a fortiori).
Donc la dernière somme est égale à
Z Z
B
A
fX,Y (x, y)dxdy = P (X ∈ A, Y ∈ B).
2.5. CONDITIONNEMENT : CAS CONTINU
31
Le résultat de Proposition 2.2 nous permet de calculer directement l’espérance conditionnelle :
Corollaire 2.1
2.
R∞
1. E(Y |X = x) =
−∞ fY |X (y|x)dy
R
yfY |X (y|x)dy,
= 1,
3. Y ⊥⊥X ⇒ fY |X (y|x) = fY (y).
On peut définir, comme dans le cas discret, la fonction de variance conditionnelle :
V ar(Y |X = x) = E(Y 2 |X = x) − (E(Y |X = x))2
Z ∞
=
−∞
2
Z ∞
2
y fY |X (y|x)dy −
−∞
yfY |X (y|x)dy
.
Exemple 2.2 Soit X et Y des variables indépendantes i.i.d. de loi exponentielle. Calculons la
densité conditionnelle f (x|z) = fX|X+Y (x|z) et E(X|X + Y ).
Soit f (u) = λe−λu I{u > 0} la densité de X et Y . Si z < x
Z z−u
Z z
f (v)dudv,
f (u)
P (X + Y < z, X < x) = P (X + Y < z, X < z) =
0
0
et si z ≥ x,
Z z−u
Z x
f (v)dudv.
f (u)
P (X + Y < z, X < x) =
0
0
Par conséquence, pour z ≥ x la densité jointe de couple (X + Y, X) est (cf. (2.1))
f (z, x) =
∂ 2 P (X + Y < z, X < x)
= f (z − x)f (x) = λ2 e−λz .
∂x∂z
Par ailleurs, la densité de X + Y est la convolution de deux densités exponentielles, i.e.
fX+Y (z) = λ2 ze−λz .
On obtient
fX|X+Y (x|z) =
1
f (z, x)
= .
fX+Y (z)
z
pour 0 ≤ x ≤ z et fX|X+Y (x|z) = 0 pour x > z. Alors, la densité conditionnelle est la densité
d’une loi uniforme sur [0, z]. On obtient donc E(X|Z) = (X + Y )/2 (p.s.).
Cet exemple est lié au modèle du flux de demandes arrivant vers un système de service. Soit
X l’instant où la 1ère demande arrive (l’instant t = 0 est marqué par l’arrivée de la demande
numéro zéro), Y l’intervalle de temps entre les arrivées de la 1ère et la 2ème demande. Alors
on cherche la densité de probabilité de l’instant de la 1ère demande sachant que la seconde est
arrivée à l’instant z.
32
2.6
Covariance et corrélation
Soient X et Y v.a. de carré intégrables, i.e. E(X 2 ) < ∞ et E(Y 2 ) < ∞. Dans la suite on
note
2
σX
= Var(X),
σY2 = Var(Y ).
Définition 2.6 La covariance entre X et Y est la valeur
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ).
Si Cov(X, Y ) = 0 on dit que X et Y sont orthogonales (on note X ⊥ Y ).
2 > 0 et σ 2 > 0. La corrélation entre X et Y est la valeur
Définition 2.7 Soit σX
Y
Corr(X, Y ) = ρXY =
2.6.1
1.
2.
3.
4.
5.
Cov(X, Y )
.
σX σY
Propriétés de covariance et de corrélation
Les rélations ci-dessous sont des conséquences immédiates de la Définition 2.6.
Cov(X, X) = Var(X).
Cov(aX, bY ) = abCov(X, Y ), a, b ∈ R.
Cov(X + a, Y ) = Cov(X, Y ), a ∈ R.
Cov(X, Y ) = Cov(Y, X).
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(Y, X).
En effet,
Var(X + Y ) = E((X + Y )2 ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E 2 (X) − E 2 (Y ) − 2E(X)E(Y ).
6. Si X et Y sont indépendantes, Cov(X, Y ) = 0.
Important :
la réciproque n’est pas vraie, par exemple, si X ∼ N (0, 1) et Y = X 2 , alors
Cov(X, Y ) = E(X 3 ) − E(X)E(X 2 ) = E(X 3 ) = 0.
(N (0, 1) est symétrique par rapport à 0).
Passons au propriétés de corrélation :
1. −1 ≤ ρXY ≤ 1 (l’inégalité de Cauchy-Schwarz)
|Cov(X, Y )| = E ((X − E(X))(Y − E(Y )))
≤
q
q
E((X − E(X))2 ) E((Y − E(Y ))2 ) = σX σY
2. Si X et Y sont indépendantes, ρXY = 0.
3. |ρXY | = 1, si et seulement si il existe un lien linéaire déterministe entre X et Y : il existent
a 6= 0, b ∈ R tels que Y = aX + b.
2.7. RÉGRESSION
33
Preuve : On remarque que |ρXY | = 1, ssi l’égalité est atteinte dans l’inégalité de CauchySchwarz. D’après la Proposition 1.4, ce n’est possible que s’il existent α, β ∈ R tels que
α(X − E(X)) + β(Y − E(Y )) = 0 (p.s.),
et soit α 6= 0 ou β 6= 0. Ceci est équivalent à l’existence de α, β et γ ∈ R tels que
αX + βY + γ = 0 (p.s.),
avec α 6= 0 ou β 6= 0. Si α 6= 0 et β 6= 0 on a
γ
α
Y =− X− ,
β
β
β
γ
X=− Y − ,
α
α
La situation quand α = 0 ou β = 0 est impossible, car cela veut dire qu’une de variables Y ou
X est constante (p.s.). Mais nous avons supposé que σX et σY sont positives.
On remarque que si Y = aX + b, a, b ∈ R, a 6= 0,
2
σY2 = E((Y − E(Y ))2 ) = a2 E((X − E(X))2 ) = a2 σX
.
Et la covariance,
2
Cov(X, Y ) = E ((X − E(X))a(X − E(X))) = aσX
,
aσ 2
a
X
= |a|
. On dit que la corrélation est positive entre X et Y si ρXY > 0 et
d’où ρXY = σX |a|σ
X
négative si ρXY < 0. La corrélation ci-dessus est donc positive (= 1) si a > 0 et négative (= −1)
si a < 0.
Interprétation géométrique de la corrélation Soit h·, ·i le produit scalaire et k·k la norme
de L2 (P ). Alors,
Cov(X, Y ) = hX − E(X), Y − E(Y )i
et
ρXY =
hX − E(X), Y − E(Y )i
.
kX − E(X)k kY − E(Y )k
Autrement dit, ρXY est le “cosinus de l’angle” entre X − E(X) et Y − E(Y ). Donc, ρXY = ±1
veut dire que X − E(X) et Y − E(Y ) sont collinéaires : Y − E(Y ) = a(X − E(X)) pour a 6= 0.
2.7
Régression
Définition 2.8 Soit X et Y deux variables aléatoires t.q. E(|Y |) < ∞. La fonction g : R → R
définie par
g(x) = E(Y |X = x)
s’appelle la fonction de régression de Y sur X (de Y en X).
On parle également d’une régression simple (le mot simple signifie que X et Y sont univariées).
Si X ou Y sont multi-dimensionnels, on parle d’une régression multiple.
34
Interprétation géometrique. On rappelle la construction du paragraphe 2.3. Supposons que
Y est un élement de l’espace de Hilbert L2 (P ) (c’est-à-dire E(Y 2 ) < ∞) et soit, comme avant,
LX
2 (P ) le sous-espace linéaire de l’espace L2 (P ) constitué de toutes fonctions h(X) mesurables
par rapport à X et telles que E(h2 (X)) < ∞. Alors g(X) est la projection orthogonale de Y sur
LX
2 (P ).
Y

E(Y|X)
LX(P)
2
On peut introduire la variable aléatoire ξ = Y − g(X) dite l’erreur stochastique (ou le résidu).
Alors
Y = g(X) + ξ.
(2.9)
Par définition de l’espérance conditionnelle E(ξ|X) = 0 (p.s.), et donc E(ξ) = 0.
Exemple 2.3 Soit la densité jointe de X et Y
f (x, y) = (x + y)I{0 < x < 1, 0 < y < 1}.
Quelle est la fonction de régression g(x) = E(Y |X = x) ?
On utilise le Corollaire 2.1 :
fY |X (y|x) =
f (x, y)
; où fX (x) =
fX (x)
Z 1
f (x, y)dy = (x + 1/2)I{0 < x < 1}.
0
D’où
fY |X (y|x) =
x+y
I{0 < x < 1, 0 < y < 1},
x + 1/2
et
g(x) = E(Y |X = x) =
Z 1
0
yfY |X (y|x)dy =
Z 1
y(x + y)
0
x+
pour 0 < x < 1.
On observe que g(x) est une fonction non-linéaire de x.
1
2
dy =
1
2x
+ 13
x + 21
2.7. RÉGRESSION
2.7.1
35
Variance résiduelle
L’erreur quadratique de l’approximation de Y par g(X) est la valeur suivante :
∆ = E((Y − g(X))2 ) = E (Y − E(Y |X))2 = E(ξ 2 ) = Var(ξ).
On appelle ∆ la variance résiduelle. La variance résiduelle est plus petite que la variance de
Y . En effet, supposons que h(X) = E(Y ) = const. D’après le théorème de meilleure prévision,
∆ = E (Y − g(X))2 ≤ E (Y − h(X))2 = E((Y − E(Y ))2 ) = Var(Y ).
Comme E(Y ) est un élement de LX
2 (P ), géométriquement, cela signifie que la longueur d’une
cathète est plus petite que celle de l’hypothénuse :
Y
X
L2 (P)
E(Y|X)
E(Y)
L
Notons que l’espace de toutes les v.a. constantes L est aussi un sous-espace de linéaire de L2 (P ).
En plus, c’est une intersection de tous les sous-espaces LX
2 (P ) pour tout X. Mais on sait déjà
que E(Y ) est la projection de Y sur L : en effet, pour toute constante a
E((Y − a)2 ) ≥ E((Y − E(Y ))2 )
(voir Exercice 1.11).
Le Théorème de Pythagore donne
kY − E(Y )k2 = kE(Y |X) − E(Y )k2 + kY − E(Y |X)k2 ,
ou bien
Var(Y ) = E((Y − E(Y ))2 ) = E (E(Y |X) − E(Y ))2 + E (Y − E(Y |X))2
= Var (E(Y |X)) + E (Var(Y |X))
= “variance expliquée par X” + “variance résiduelle”
= Var(g(X)) + Var(ξ)
= Var(g(X)) + ∆.
Définition 2.9 Soit Var(Y ) > 0. On appelle rapport de corrélation de Y à X la valeur
positive η 2 = ηY2 |X donnée par
ηY2 |X
Var(g(X))
E E(Y ) − E(Y |X))2
=
.
Var(Y )
Var(Y )
=
36
Notons que, par le Théorème de Pythagore,
ηY2 |X
E (Y − g(X))2
=1−
.
Var(Y )
Interprétation gómetrique. Le rapport de corrélation ηY2 |X est le cosinus carré de l’angle θ
entre Y − E(Y ) et E(Y |X) − E(Y ), donc 0 ≤ ηY2 |X ≤ 1.
Remarques.
2
1. De façon générale, ηX|Y
6= ηY2 |X (manque de symétrie).
2. η 2 = 0 et η 2 = 1 correspondent à des valeurs remarquables : η 2 = 1 implique que
E((Y −E(Y |X))2 ) = 0, donc Y = g(X) (p.s.), autrement dit, Y est liée fonctionnellement
à X.
Sinon, η 2 = 0 signifie que E((E(Y ) − E(Y |X))2 ) = 0 et E(Y |X) = E(Y ) (p.s.), donc la
régression est constante.
Il est utile de noter que g(X) = const implique l’orthogonalité de X et Y (c’est-à-dire, Cov(X, Y ) =
0).
2 > 0, σ 2 > 0. Alors,
Proposition 2.3 Soit E(X 2 ) < ∞, E(Y 2 ) < ∞ et σX
Y
ηY2 |X ≥ ρ2XY .
Preuve : Vu la définition de ηY2 |X , il suffit de montrer que
E (E(Y ) − E(Y |X))2 Var(X) ≥ [E((X − E(X))(Y − E(Y )))]2 .
Par le Théorème de l’espérance double :
E((X−E(X))(Y −E(Y ))) = E ((X − E(X))E((Y − E(Y )|X)) = E ((X − E(X))(E(Y |X) − E(Y ))) .
Maintenant, en appliquant l’inégalité de Cauchy-Schwarz on obtient
[E((X − E(X))(Y − E(Y )))]2 ≤ E((X − E(X))2 )E (E(Y |X) − E(Y ))2
= Var(X)E (E(Y |X) − E(Y ))2
(2.10)
Remarques.
— ηY2 |X = 0 implique que ρXY = 0.
— La variance résiduelle peut être exprimée en termes du rapport de corrélation :
∆ = (1 − ηY2 |X )Var(Y ).
(2.11)
2.8. RÉGRESSION LINÉAIRE
2.8
37
Régression linéaire
Le cas particulier E(Y |X = x) = a + bx s’appelle régression linéaire. En utilisant (2.9),
on écrit
Y = a + bX + ξ
où ξ est le résidu, E(ξ|X) = 0 (p.s.) (⇒ E(ξ) = 0).
Soit ρ = ρXY et σX > 0, σY > 0 le coefficient de corrélation entre X et Y et les écart-types
de X et Y . On peut exprimer les coefficients de la régression linéaire a et b en termes de ρ, σX
et σY .En effet,
Y − E(Y ) = b(X − E(X)) + ξ.
En multipliant cette équation par X − E(X) et en prenant l’espérance, on obtient
2
Cov(X, Y ) = bVar(X) = bσX
,
d’òu
b=
σY
Cov(X, Y )
=ρ
.
2
σX
σX
Alors,
Y =a+ρ
σY
X + ξ.
σX
Mais
E(Y ) = a + ρ
et donc
a = E(Y ) − ρ
σY
E(X)
σX
σY
E(X).
σX
Finalement,
Y = E(Y ) + ρ
σY
(X − E(X)) + ξ.
σX
(2.12)
2 > 0, Var(Y ) = σ 2 > 0 et la
Proposition 2.4 Si E(X 2 ) < ∞ et E(Y 2 ) < ∞, Var(X) = σX
Y
fonction de régression g(x) = E(Y |X = x) est linéaire, alors elle s’écrit sous la forme
E(Y |X = x) = E(Y ) + ρ
σY
(x − E(X))
σX
(2.13)
et la variance résiduelle est
∆ = (1 − ρ2 )σY2 ,
(2.14)
où ρ est le coefficient de corrélation entre X et Y .
Preuve : L’égalité (2.13) est une conséquence immédiate de (2.12) et du fait que E(ξ|X =
x) = 0. Montrons (2.14). On écrit (2.12) sous la forme
ξ = (Y − E(Y )) − ρ
σY
(X − E(X)).
σX
38
En prenant le carré des deux côtés et ensuite l’espérance, on obtient
"
σY
σY
(X − E(X))(Y − E(Y )) + ρ
∆ = E(ξ ) = E (Y − E(Y )) − 2ρ
σX
σX
2
2
= ρ2
2
#
2
(X − E(X))
σY2
σY
Cov(X, Y ) + Var(Y ) = (1 − ρ2 )σY2 .
Var(X) − 2ρ
2
σX
σX
Corollaire 2.2 Si la régression de Y en X est linéaire, sous les hypothèses de Proposition 2.4
on a
ηY2 |X = ρ2XY .
Autrement dit, pour la régression linéaire le rapport de corrélation est égal à la corrélation entre
2
X et Y . (En particulier, ceci implique ρXY = 0 ⇔ ηY2 |X = 0 et ηY2 |X = ηX|Y
=.)
2
2
La réciproque est aussi vraie : en effet, si ρXY = ηY |X , alors la régression est linéaire.
Preuve : Nous avons, grâce à (2.11) : ∆ = (1 − ηY2 |X )Var(Y ), mais dans le cas linéaire, de
plus, ∆ = (1 − ρ2 )Var(Y ), d’après (2.14). Pour démontrer la réciproque, on note que si l’égalité
est atteinte dans l’inégalité de Cauchy-Schwarz (2.10), alors il existe α 6= 0 tel que
α(X − E(X)) = E(Y |X) − E(Y ),
et donc
E(Y |X) = E(Y ) + α(X − E(X)).
Remarque : le fait que la régression de Y sur X est linéaire n’implique pas (en cas général)
que celle de X sur Y soit linéaire, elle aussi.
Exercice 2.1
Nous avons X et Z, deux v.a. indépendantes de loi exponentielle, X ∼ E(λ), Z ∼ E(1). Soit
Y = X + Z. Calculer la fonction de régression g(y) = E(X|Y = y).
2.9. EXERCICES
2.9
39
Exercices
Exercice 2.2
Soit la distribution jointe de X et Y donnée par
(
F (x, y) =
1 − e−2x − e−y + e−(2x+y) si x > 0, y > 0,
0 sinon.
1. Déterminer la distribution marginale de X et Y .
2. Calculer la densité conjointe de X et Y .
3. Calculer les densités marginales de X et Y , la densité conditionnelle de X sachant Y = y.
4. X et Y sont-ils indépendants ?
Exercice 2.3
Considérons la fonction de densité conjointe de X et Y donnée par :
6
xy
f (x, y) = (x2 +
), 0 ≤ x ≤ 1, 0 ≤ y ≤ 2.
7
2
1. Vérifier qu’il s’agit bien d’une fonction de densité conjointe.
2. Déterminer la fonction de densité de X, la densité conditionnelle fY |X (y|x).
3. Trouver P Y > 12 |X <
1
2
.
Exercice 2.4
La fonction de densité de X et Y est donnée par :
f (x, y) = e−(x+y) , 0 ≤ x < ∞, 0 ≤ y < ∞
Trouver :
1. P (X < Y ) ;
2. P (X < a).
Exercice 2.5
Deux points sont choisis sur un segment de longueur L, de manière à ce qu’ils soient de part
et d’autre du milieu du segment. En d’autres termes, les deux points X et Y sont des variables
aléatoires indépendantes telles que X soit uniformément distribué sur [0, L/2[ et Y soit uniformément distribué sur [L/2, L]. Trouver la probabilité que la distance entre les deux points
soit plus grande que L/3.
Exercice 2.6
Soit U1 et U2 deux v.a. indépendantes, toutes deux distribuées uniformément sur [0, a]. Soit
V = min{U1 , U2 } et Z = max{U1 , U2 }. Montrer que la f.d.r. conjointe F de V et Z est donnée
par
t2 − (t − s)2
F (s, t) = P (V ≤ s, Z ≤ t) =
pour 0 ≤ s ≤ t ≤ a.
a2
Indication : notez que V ≤ s et Z ≤ t arrive exactement quand U1 ≤ t et U2 ≤ t toutes les deux,
mais pas quand s < U1 ≤ t et s < U2 ≤ t toutes les deux.
40
Exercice 2.7
Si X1 et X2 sont des variables aléatoires exponentielles indépendantes avec paramètres respectifs
λl et λ2 , trouver la distribution de Z = X1 /X2 . Calculer aussi P (X1 < X2 ).
Exercice 2.8
Soit X et Y des variables aléatoires indépendantes de même loi. Utiliser la définition pour
démotrer que que E(X|X +Y ) = E(Y |X +Y ) (p.s.), et donc E(X|X +Y ) = E(Y |X +Y ) = X+Y
2
(p.s.).
Exercice 2.9
Soient X, Y1 et Y2 les variables aléatoires indépendantes, Y1 et Y2 sont normales N (0, 1), et
Y1 + XY2
.
Z= √
1 + X2
Utiliser la loi conditionnelle P (Z < u|X = x) pour montrer que Z ∼ N (0, 1).
Exercice 2.10
Soient X et Y deux variables aléatoires sur (Ω, F, P ) et de carré intégrable. Montrer que
Var(Y ) = E(Var(Y |X)) + Var(E(Y |X)).
Exercice 2.11
Soient X1 , ..., Xn des v.a. indépendantes de lois respectives P(λi ) (loi de Poisson de paramètre
λk
λi , i.e. P (Xi = k) = e−λi k!i ).
P
1o . Déterminer la loi de X = ni=1 Xi .
2o . Montrer que la loi de (X1 , ..., Xn ) conditionnellement à X = r est une loi multinômiale
M(r, p1 , ..., pn ) dont on déterminera les paramètres.
Rappel : Les variables (X1 , ..., Xk ) à valeurs entières entre 0 et r suivent la loi multinômiale
M(r, p1 , ..., pk ) si
r!
P (X1 = n1 , ..., Xk = nk ) =
pn1 ...pnk k ,
n1 !...nk ! 1
avec
Pk
i=1 ni
= r. Cette loi décrit les variables (X1 , ..., Xk ),
Xi = “nombre de Y s qui valent i”
dans n expériences indépendantes Y1 , ..., Yr de loi P (Y1 = i) = pi , i = 1, ..., k. Notons que si
k = 2,
P (X1 = n1 , X2 = r − n1 ) = P (X1 = n1 ),
et la loi est noté M(r, p).
3o . Calculer E(X1 |X1 + X2 ).
4o . Montrer que si Xn suit une loi binômiale B(n, λ/n), alors, pour tout entier k, P (Xn = k)
k
tend vers e−λ λk! quand n → ∞.
2.9. EXERCICES
41
Rappel : la loi binômiale décrit la distribution de nombre de succès X dans n tirages indépendantes
d’une loi de Bernouilli :
P (X = k) = Cnk pk (1 − p)n−k .
Exercice 2.12
Démontrer
1. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z),
2. Cov
P
n
i=1 Xi ,
Pn
j=1 Yj =
Pn
i=1
Pn
j=1 Cov(Xi , Yj ).
3. Montrer que si Var(Xi ) = σ 2 et Cov(Xi , Xj ) = γ pour tous 1 ≤ i, j ≤ n, alors
Var(X1 + ... + Xn ) = nσ 2 + n(n − 1)γ.
4. Soit ξ1 et ξ2 les variables aléatoires i.i.d. avec 0 < Var(ξ1 ) < ∞. Montrer que les v.a.
η1 = ξ1 − ξ2 et η2 = ξ1 + ξ2 sont non-corrélées.
Exercice 2.13
Soit X le nombre de 1 et Y le nombre de 2 apparaissant lors de n jets d’un dé équilibré. Calculer
Cov(X, Y ).
Avant de faire le calcul, sauriez-vous dire si Cov(X, Y ) ≥ 0 ou Cov(X, Y ) ≤ 0.
Indication : Utiliser pour cela la relation 2) de l’exercice 2.12.
Exercice 2.14
1o . Soit ξ et η des variables aléatoires avec E(ξ) = E(η) = 0, Var(ξ) = Var(η) = 1 et le coefficient
de corrélation ρ. Montrer que
E(max(ξ 2 , η 2 )) ≤ 1 +
q
1 − ρ2 .
Indication : on remarque que
max(ξ 2 , η 2 ) =
|ξ 2 + η 2 | + |ξ 2 − η 2 |
.
2
2o . Soit ρ le coefficient de corrélation de η et ξ. Démontrer l’inégalité suivante :
q
q
P |ξ − E(ξ)| ≥ Var(ξ) ou |η − E(η)| ≥ Var(η) ≤
1+
p
1 − ρ2
.
2
Exercice 2.15
Soit (X, Y ) un vecteur aléatoire de dimension 2. On suppose que Y suit la loi N (m, τ 2 ) et que
la loi de X sachant Y = y est la loi N (y, σ 2 ).
1o . Quelle est la loi de Y sachant X = x ?
2o . Quelle est la loi de X ?
3o . Quelle est la loi de E(Y |X) ?
Exercice 2.16
42
Soient X et N deux variables aléatoires telles que N prend ses valeurs dans {1, 2, . . .} et E(|X|) <
∞, E(N ) < ∞ . On considère la suite X1 , X2 , . . . des variables indépendantes de même loi que
X. Montrer l’identité de Wald : si N est indépendante des Xi , alors
N
X
E(
Xi ) = E(N )E(X).
i=1
Exercice 2.17
Le salaire désiré d’un individu s’écrit Y ∗ = Xb + σε, où σ > 0, b ∈ R, X une variable aléatoire
admettant des moments d’ordre 2 mesurant la capacité de l’individu, ε est indépendante de X
et de loi N (0, 1). Si Y ∗ est plus grand que le SMIC S, alors le salaire reçu Y est Y ∗ , et S sinon.
Calculer E(Y |X). Cette espérance est-elle linéaire ?
Exercice 2.18
Montrer que si φ est une fonction caractéristique d’une v.a. réelle, alors φ∗ , |φ|2 et Re(φ), sont
aussi des fonction caractéristiques.
Indication : pour Re(φ) on pourra considérer deux variables X et Y indépendantes, où Y
prend les valeurs −1 et 1 avec la même probabilité 1/2, et X a φ comme fonction caractéristique,
et on calculera la fonction caractéristique de XY .
Chapitre 3
Vecteurs aléatoires. Loi normale
multivariée
3.1
Vecteurs aléatoires (rappel)
Soit X = (ξ1 , ..., ξp )T un vecteur aléatoire 1 , où ξ1 , ..., ξp sont des variables aléatoires univariées. De la même façon on forme des matrices aléatoires :


ξ11 , ... ξ1q


...
Ξ=
,
ξp1 , ... ξpq
où ξ11 , ..., ξqp sont des v.a. univariées. La fonction de répartition de vecteur aléatoire X est
F (t) = P (ξ1 ≤ t1 , ..., ξp ≤ tp ),
t = (t1 , ..., tp )T ∈ Rp .
Si F (t) est dérivable par rapport a t, la densité de X (la densité jointe de ξ1 , ..., ξp ) existe et est
égale à la dérivée mixte
∂ p F (t)
.
f (t) = f (t1 , ..., tp ) =
∂t1 , ..., ∂tp
Dans ce cas
Z t1
Z tp
F (t) =
...
−∞
3.1.1
−∞
f (u1 , ..., up )du1 ...dup .
Propriétés de densité d’une distribution multivariée
∞
∞
Nous avons : f (t) ≥ 0, −∞
... −∞
f (t1 , ..., tp )dt1 ...dtp = 1. La densité marginale de
ξ1 , ..., ξk , k < p est (on adopte le symbole f (·) comme notation générique pour les densités)
R
R
Z ∞
f (t1 , ..., tk ) =
Attention :
nales.
Z ∞
...
−∞
−∞
f (t1 , ..., tp )dtk+1 ...dtp .
deux vecteurs aléatoires différents peuvent avoir les mêmes distributions margi-
1. Par convention, le vecteur X ∈ Rp×1 est un vecteur colonne.
43
44
CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE
Exemple 3.1 On considère les densités
f1 (t1 , t2 ) = 1, et f2 (t1 , t2 ) = 1 + (2t1 − 1)(2t2 − 1), 0 < t1 , t2 < 1.
Dans les deux cas, f (t1 ) =
R1
0
f (t1 , t2 )dt2 = 1.
Comme dans le cas p = 2, la densité conditionnelle de ξ1 , ..., ξk sachant ξk+1 , ..., ξp est
f (t1 , ..., tk |tk+1 , ..., tp ) =
f (t1 , ..., tp )
.
f (tk+1 , ..., tp )
Si X1 et X2 sont deux vecteurs aléatoires, alors
fX2 |X1 (x2 |x1 ) =
f (x1 , x2 )
.
f (x1 )
Indépendance. Supposons que deux vecteurs aléatoires X1 et X2 ont une densité conjointe
f (x1 , x2 ). Ils sont indépendants ssi
f (x1 , x2 ) = f1 (x1 )f2 (x2 ),
où f1 et f2 sont des densités de probabilité. Autrement dit, la densité conditionnelle fX2 |X1 (x2 |x1 )
ne dépend pas de x1 . Comme dans le cas de deux variables aléatoires, l’indépendance est preservée par des transformations mesurables des vecteurs X1 et X2 .
3.1.2
Moments des vecteurs aléatoires
Le vecteur µ = (µ1 , ..., µp )T ∈ Rp est la moyenne du vecteur aléatoire X = (ξ1 , ..., ξp )T si
Z
µj = E(ξj ) =
Z
...
tj f (t1 , ..., tp )dt1 ...dtp , j = 1, ..., p
(on suppose, bien évidemment, que les intégrales ci-dessus existent), on écrit alors µ = E(X). De
la même façon on définit l’espérance d’une matrice aléatoire. Comme dans le cas réel, l’espérance
est une fonctionnelle linéaire : pour toute matrice A ∈ Rq×p et b ∈ Rq ,
E(AX + b) = AE(X) + b = Aµ + b.
Cette propriété reste valide pour des matrices aléatoires : si Ξ est une matrice p × q aléatoire,
A ∈ Rq×p , alors E(AΞ) = AE(Ξ).
Matrice Σ de covariance du vecteur aléatoire X est donnée par
∆
Σ = V (X) = E((X − µ)(X − µ)T ) = (σij )
(on note que dans ce cas σij n’est pas forcement positive), une matrice p × p, où
σij = E((ξi − µi )(ξj − µj )) =
Z
Z
...
(ti − µi )(tj − µj )f (t1 , ..., tp )dt1 ...dtp .
Comme σij = σji , Σ est une matrice symétrique. On peut définir également la matrice de
covariance des vecteurs aléatoires X (p × 1) et Y (q × 1) :
C(X, Y ) = E((X − E(X))(Y − E(Y ))T ), C ∈ Rp×q .
3.1. VECTEURS ALÉATOIRES (RAPPEL)
45
La matrice de covariance possède les propriétés suivantes :
1o . Σ = E(XX T ) − µµT , où µ = E(X).
2o . Pour tout a ∈ Rp , Var(aT X) = aT V (X)a.
Preuve : Notons que par linéarité de l’espérance,
Var(aT X) = E((aT X − E(aT X))2 ) = E (aT (X − E(X))2 = E aT (X − µ)(X − µ)T a
= aT E (X − µ)(X − µ)T a = aT V (X)a.
Comme Var(aT X) ≥ 0, ceci implique que la matrice V (X) est définie-positive. Donc nous
avons
3o . Σ ≥ 0.
4o . Soit A une matrice p × q. Alors V (AX + b) = AV (X)AT .
Preuve : Désignons Y = AX + b, alors par linéarité de l’espérance,
ν = E(Y ) = E(AX + b) = Aµ + b et Y − E(Y ) = A(X − µ).
Maintenant, nous avons :
V (Y ) = E(A(X − µ)(X − µ)T A) = AV (X)AT (linéarité de nouveau).
5o .
6o .
7o .
8o .
C(X, X) = V (X). Dans ce cas C = C T ≥ 0 (matrice positive).
C(X, Y ) = C(Y, X)T .
C(X1 + X2 , Y ) = C(X1 , Y ) + C(X2 , Y ).
Si X et Y sont deux p-vecteurs aléatoires,
V (X + Y ) = V (X) + C(X, Y ) + C(Y, X) + V (Y ) = V (X) + C(X, Y ) + C(X, Y )T + V (Y ).
9o . Si X⊥⊥Y , alors C(X, Y ) = 0 (matrice nulle) (l’implication inverse n’est pas vraie). Ceci se
démontre comme dans le cas de covariance des v.a. univariées.
La matrice de corrélation
P de X est donnée par P = (ρij ), 1 ≤ i, j ≤ p avec
ρij = √
σij
√
σii σjj
.
On remarque que les éléments diagonaux ρii = 1, i = 1, ..., p.
√
Si ∆ est une matrice diagonale avec ∆ii = σii , alors P = ∆−1 Σ∆−1 , et la positivité de Σ
implique la positivité de P , i.e. P ≥ 0.
3.1.3
Fonction caractéristique d’un vecteur aléatoire
Définition 3.1 Soit X ∈ Rp un vecteur aléatoire. Sa fonction caractéristique pour tout t ∈ Rp
est donnée par
φX (t) = E exp(itT X) .
46
Exercice 3.1
p
q
On montre que les deux vecteurs aléatoires X ∈
! R et Y ∈ R sont indépendants ssi la fonction
!
X
a
caractéristique φZ (u) du vecteur Z =
peut être réprésentée pour tout u =
,
Y
b
a ∈ Rp et b ∈ Rq , comme
φZ (u) = φX (a)φY (b).
Vérifier cette caractérisation dans le cas continu.
3.1.4
Transformations des vecteurs aléatoires
Soit h = (h1 , ..., hp )T une transformation, c.-à.-d. une fonction de Rp vers Rp ,
h(t1 , ..., tp ) = (h1 (t1 , ..., tp ), ..., hp (t1 , ..., tp ))T , t = (t1 , ..., tp )T ∈ Rp .
Le Jacobien de la transformation est défini par
!
∂hi
(t)
Jh (t) = Det
∂tj
.
i,j
Proposition 3.1 (Rappel d’analyse) Supposons que
(i) les dérivées partielles de hi (·) sont continues sur Rp , i = 1, ..., p,
(ii) h est une bijection,
(iii) Jh (t) 6= 0 pour tout t ∈ Rp .
Alors, pour toute fonction f (t) telle que
Z
|f (t)|dt < ∞
Rp
et tout ensemble borélien K ⊆ Rp on a
Z
Z
f (t)dt =
K
h−1 (K)
f (h(u))|Jh (u)|du.
Remarque : par le théorème de fonction inverse on peut affirmer que sous les conditions de
la Proposition 3.1 la fonction inverse g(·) = h−1 (·) existe partout dans Rp et
Jh−1 (h(u)) =
1
,
Jh (u)
ou bien,
Jh−1 (t) =
1
Jh
(h−1 (t))
.
Donc h satisfait les conditions (i) − (iii) de Proposition 3.1 ssi g = h−1 satisfait les mêmes
conditions.
Nous avons le corollaire suivant de Proposition 3.1 :
3.1. VECTEURS ALÉATOIRES (RAPPEL)
47
Proposition 3.2 Soit Y un vecteur aléatoire avec la densité fY (t), t ∈ Rp . Soit g : Rp → Rp
une transformation qui satisfait les hypothèses de Proposition 3.1. Alors, la densité du vecteur
aléatoire X = g(Y ) existe et est donnée par
fX (u) = fY (h(u))|Jh (u)|, pour tout u ∈ Rp ,
où h = g −1 .
Preuve : Soit X = (ξ1 , ..., ξp )T , v = (v1 , ..., vp )T , et Av = {t ∈ Rp : gi (t) ≤ vi , i = 1, ..., p}.
Alors, par la Proposition 3.1 avec h = g −1 et f = fY , la f.d.r. de X est
FX (v) = P (ξi ≤ vi , i = 1, ..., p) = P (gi (Y ) ≤ vi , i = 1, ..., p)
Z
=
Z
fY (t)dt =
Av
g(Av )
fY (h(u))|Jh (u)|du.
Mais
g(Av ) = {u = g(t) ∈ Rp : t ∈ Av } = {u = g(t) ∈ Rp : gi (t) ≤ vi , i = 1, ..., p}
= {u = (u1 , ..., up )T ∈ Rp : ui ≤ vi , i = 1, ..., p}.
D’où
Z vp
Z v1
FX (v) =
...
−∞
−∞
fY (h(u))|Jh (u)|du
pour tout v = (v1 , ..., vp )T ∈ Rp . Ceci implique que la densité de X est fY (h(u))|Jh (u)|.
Corollaire 3.1 Si X = AY + b où Y est un vecteur aléatoire sur Rp avec la densité fY et A
est une matrice p × p inversible, alors
fX (u) = fY (A−1 (u − b)) Det(A−1 ) =
fY (A−1 (u − b))
.
| Det(A)|
Pour vérifier ce résultat il suffit d’utiliser la Proposition 3.2 avec u = g(t) = At + b et donc
t = g −1 (u) = h(u) = A−1 (u − b).
3.1.5
Rappel des propriétes des matrices symétriques
La matrice A p × p, A = (aij ), i, j = 1, ..., p est symétrique si aij = aji , i, j = 1, ..., p.
La matrice Γ p × p est dite orthogonale si
Γ−1 = ΓT (ou bien ΓΓT = ΓT Γ = I)
(où I est une matrice identité p × p). C.-à.-d. que les colonnes γ·j de Γ sont des vecteur orthogonaux de longueur 1 ; de même pour les lignes γi· de Γ. Bien évidemment, | Det(Γ)| = 1. Nous
avons le théorème de décomposition spectrale (de Jordan) :
Soit A ∈ Rp×p une matrice symétrique. Alors il existe une matrice orthogonale Γ et la
matrice diagonale


λ1 0 ... 0


... ...
Λ = Diag(λi ) = 
,
0 ... 0 λp
48
telles que
A = ΓΛΓT =
p
X
λi γ·i γ·iT ,
(3.1)
i=1
où γ·i sont les vecteurs propres orthonormés de A : 2
γ·iT γ·j = δij i, j = 1, ..., p,
Γ = (γ·1 , ..., γ·p ).
Remarques.
1) Même si les valeurs propres d’une matrice symétrique peuvent être multiples, tous les vecteurs
propres d’une telle matrice sont différents.
2) On suppose dans la suite que les valeurs propres λi , i = 1, ..., p sont ordonnées :
λ1 ≥ λ2 ≥ ... ≥ λp .
On dit que γ·1 est le premier vecteur propre de A, c.-à.-d. le vecteur propre correspondant
à la valeur propre maximale ; γ·2 est le deuxième vecteur propre, et ainsi de suite.
Si toutes les valeurs propres λi , i = 1, ..., p sont non-negatives, on appelle la matrice A
semi-définie positive (et définie positive si λi > 0).
Autres propriétés utiles de matrices carrées
Q
P
1o . Det(A) = pi=1 λi , Tr(A) = pi=1 λi .
2o . Det(AB) = Det(A) Det(B), Det(AT ) = Det(A).
3o . Pour les matrices symétriques le calcul des fonctions matricielles est simplifié : par exemple,
la puissance As , s ∈ N+ d’une matrice symétrique positive As = ΓΛs ΓT (si la matrice A est
positive définie ça marche pour tout s réel).
4o . Det(A−1 ) = Det(A)−1 pour toute matrice A non-dégénerée.
5o . Pour tout s ∈ R et toute matrice A = AT > 0, Det(As ) = Det(A)s (la simple conséquence
du fait | det Γ| = 1 pour toute matrice Γ–orthonormée).
Projecteurs. Matrice P symétrique telle que
P 2 = P (matrice idempotente)
s’appelle matrice de projection (ou projecteur, tout simplement).
Toutes les valeurs propres de P sont 0 ou 1. Rang(P ) est le nombre de valeurs propres = 1.
Autrement dit, il existe une matrice Γ orthogonale telle que
ΓT P Γ =
I 0
0 0
!
,
où I est une matrice identité Rang(P ) × Rang(P ).
En effet, soit v un vecteur propre de P , alors P v = λv, où λ est une valeur propre de P .
Comme P 2 = P ,
(λ2 − λ)v = (λP − P )v = (P 2 − P )v = 0.
Ceci équivaut à dire que λ = 1 si P v 6= 0.
2. ici δij est l’indice de Kronecker : δij = 1 si i = j, sinon δij = 0.
3.2. ESPÉRANCE CONDITIONNELLE D’UN VECTEUR ALÉATOIRE
3.2
49
Espérance conditionnelle d’un vecteur aléatoire
Soit X = (ξ1 , ..., ξp )T et Y = (η1 , ..., ηq )T deux vecteurs aléatoires. On ne s’adresse qu’au
cas continu, c.-à.-d. qu’on suppose que la densité conjointe fX,Y (x, y) = fX,Y (t1 , ..., tp , s1 , ..., sq )
existe.
Alors, l’espérance conditionnelle E(Y |X) est le q-vecteur aléatoire dont les composantes sont
E(η1 |X), ..., E(ηq |X);
ici E(ηj |X) = gj (X) (une fonction mesurable de X), et
gj (t) = E(ηj |X = t) =
Z
sj fηj |X=t (sj |t)dsj =
Z
sj fηj |ξ1 =t1 ,...,ξp =tp (sj |t1 , ..., tp )dsj .
On peut vérifier que cette dernière quantité est bien définie si, par exemple, E(|ηj |) < ∞,
j = 1, ..., q. Nous pouvons vérifier que toutes les propriétés d’espérance conditionnelle, établies
dans le Chapitre 2 restent vraies dans le cas des vecteurs aléatoires (y compris le Théorème de
double espérance).
De façon analogue, comme dans le cas univarié nous pouvons introduire la matrice de
covariance conditionnelle :
V (Y |X) = E(Y Y T |X) − E(Y |X)E(Y |X)T .
3.2.1
Théorème de meilleure prévision
Soit |a| =
q
a21 + ... + a2p la norme Euclidienne de Rp .
Définition 3.2 Soit X ∈ Rp et Y ∈ Rq deux vecteurs aléatoires, et G une fonction de Rp vers
Rq . On dit que Ḡ(X) est la meilleure prévision de Y sachant X (dans le sens de la moyenne
quadratique) si
E (Y − G(X))(Y − G(X))T ≤ E (Y − H(X))(Y − H(X))T
(3.2)
(on dit que A ≤ B si la différence B − A est positive définie) pour toutes fonctions mesurables
H de Rp vers Rq .
Bien évidement, (3.2) implique (pourquoi ?)
E(|Y − G(X)|2 ) = inf E(|Y − H(X)|2 ).
H(·)
où le minimum est pris sur toutes fonctions H(·) mesurables de Rp vers Rq .
Comme dans le cas p = q = 1 nous avons
Théorème 3.1 Si E(|Y |2 ) < ∞, alors la meilleure prévision de Y sachant X est unique presque
sûrement et elle est égale à
G(X) = E(Y |X) (p.s.).
50
Preuve : Il suffit de chercher le minimum parmi les fonctions H(·) telles que E(|H(X)|2 ) < ∞.
Pour toute fonction H(X)
E (H(X) − Y )(H(X) − Y )T )
= E [(H(X) − G(X)) + (G(X) − Y )][(H(X) − G(X)) + (G(X) − Y )]T
= E (H(X) − G(X)(H(X) − G(X))T + E (H(X) − G(X))(G(X) − Y )T
+E (G(X) − Y )(H(X) − G(X))T + E (G(X) − Y )(G(X) − Y )T .
Mais en utilisant les propriétés d’espérance conditionnelle, nous obtenons :
E (H(X) − G(X))(G(X) − Y )T
h
= E E (H(X) − G(X))(G(X) − Y )T |X
h
= E (H(X) − G(X))E (G(X) − Y )T |X
i
i
= 0.
D’où découle le résultat du théorème.
3.3
Loi normale multivariée
Loi normale sur R :
on rappele que la loi normale sur R N (µ, σ 2 ) est la loi de densité
f (x) = √
1
(x − µ)2
exp(−
).
2σ 2
2πσ
Ici µ est la moyenne et σ 2 est la variance. La fonction caractéristique de la loi normale N (µ, σ 2 )
est
σ 2 t2
),
φ(t) = exp(iµt −
2
2 /2
en particulier, pour N (0, 1) on a φ(t) = e−t
3.3.1
.
La loi Np (0, I)
La loi Np (0, I) est la loi du vecteur aléatoire X = (ξ1 , ..., ξp )T où ξi , i = 1, ..., p sont des
variables aléatoires i.i.d. de loi N (0, 1).
Propriétés de Np (0, I) :
1o . La moyenne et la matrice de covariance de X sont : E(X) = 0, V (X) = I.
2o . La loi Np (0, I) est absolument continue de densité
1
f (u) = (2π)−p/2 exp(− uT u)
2
p
p
Y
Y
1
= (2π)−p/2
exp(− u2i ) =
f0 (ui ),
2
i=1
i=1
3.3. LOI NORMALE MULTIVARIÉE
51
2
où u = (u1 , ..., up )T et f0 (t) = √12π e−t /2 est la densité de N (0, 1).
3o . La fonction caractéristique de Np (0, I) est, par définition,

TX
φX (a) = E eia
=E

p
Y
eiaj ξj 
j=1
p
Y
=
E eiaj ξj =
j=1
p
Y
−a2j /2
e
j=1
1
= exp(− aT a),
2
où a = (a1 , ..., ap )T ∈ Rp .
3.3.2
Loi normale sur Rp
Définition 3.3 Le vecteur aléatoire X suit une loi normale sur Rp si et seulement s’il existe
une matrice p × p A et un vecteur µ ∈ Rp tels que
X = AY + µ, où Y ∼ Np (0, I).
Propriétés :
1o . E(X) = µ car E(Y ) = 0.
2o . V (X) = AV (Y )AT = AAT . On désigne Σ = AAT .
3o . La fonction caractéristique
TX
φX (a) = E eia
Tµ
= eia
E eib
T µ− 1 bT b
2
= eia
= E eia
TY
T (AY
+µ)
(avec b = AT a)
T µ− 1 aT Σa
2
= eia
.
(3.3)
Nous avons la caractérisation suivante :
Théorème 3.2 Soit φ : Rp → C une fonction à valeurs complexes. Alors, φ est la fonction
caractéristique d’une loi normale si et seulement si il existe µ ∈ Rp et une matrice symétrique
positive Σ ∈ Rp×p tels que
T µ− 1 aT Σa
2
φ(a) = eia
,
a ∈ Rp .
(3.4)
Remarque : dans ce cas µ est la moyenne et Σ est la matrice de covariance de la loi normale
en question.
Preuve : La necessité est démontrée ci-dessus. Pour montrer la suffisance de (3.4) il faut montrer qu’il existe un vecteur aléatoire normal X ∈ Rp tel que φ(·) soit sa fonction caractéristique.
52
1er pas : par le Théorème de décomposition spectrale, il existe une matrice orthogonale Γ
telle que ΓT ΣΓ = Λ, où Λ est une matrice diagonale de rang k ≤ p avec les valeurs propres λj ,
1 ≤ j ≤ k strictement positives. Alors (cf. (3.1)),
Σ=
p
X
λj γ·j γ·jT =
j=1
p
X
a·j aT·j ,
j=1
p
où γ·j sont les colonnes de Γ, et a·j = λj γ·j . Notons que a·j ⊥ a·l pour l 6= j (rappelons nous
que γ·j sont des vecteurs orthonormés).
2ème pas : Soit Y ∼ N (0, I). Notons ηj les composantes de Y (Y = (η1 , ..., ηp )T ). On considère
le vecteur aléatoire
X = η1 a·1 + ... + ηk a·k + µ,
alors X = AY + µ, où A est une matrice p × p avec les colonnes aj , j = 1, ..., k : A =
(a·1 , ..., a·k , 0, ..., 0). Donc X est un vecteur normal p-varié. Quelle est sa fonction caractéristique ?
On va utiliser la propriété 3o ci-dessus (formule (3.3)), il nous suffit de calculer E(X) et V (X).
Mais E(X) = µ et
V (X) = E (η1 a·1 + ... + ηk a·k )(η1 a·1 + ... + ηk a·k )T =
k
X
a·j aT·k = Σ,
j=1
car E(ηl ηj ) = δjl où δjl est le symbole de Kronecker ; et donc par (3.3) la fonction caratéristique
de X coı̈ncide avec φ(u) dans (3.4).
Le résultat du Théorème 3.2 entraı̂ne la conséquence suivante : toute loi normale dans Rp
est entièrement définie par sa moyenne et sa matrice de covariance. Ceci explique la notation :
X ∼ N (µ, Σ)
pour le vecteur aléatoire X de loi normale avec la moyenne µ et la matrice de covariance Σ =
ΣT ≥ 0.
On va distinguer deux types principaux des lois normales p-variées : loi normale nondégénérée et la loi normale dégénérée.
3.3.3
Loi normale non-dégénérée
C’est une loi normale dans Rp telle que la matrice de covariance Σ est strictement positive,
i.e. Σ > 0 (⇔ Det(Σ) > 0). De plus, comme Σ est symétrique et Σ > 0, il existe une matrice
symétrique A1 = Σ1/2 (racine carré de Σ) telle que Σ = A21 = AT1 A1 = A1 AT1 . Comme Det(Σ) =
[Det(A1 )2 ] > 0, alors Det(A1 ) > 0 et A1 est inversible. Par (3.3), si X ∼ N (µ, Σ), sa fonction
caractéristique est
1 T
T
φX (a) = eia µ− 2 a Σa
pour tout a ∈ Rp , et comme Σ = A1 AT1 , on a
T µ− 1 aT Σa
2
φX (a) = eia
T (A
= E eia
1Y
+µ)
= φA1 Y +µ (a),
53
où Y ∼ Np (0, I). Donc
X = A1 Y + µ
et, comme A1 est inversible,
Y = A−1
1 (X − µ).
Le Jacobien de cette transformation linéaire est Det(A−1
1 ), et donc la densité de X, par le
p
Corollaire 3.1, pour tout u ∈ R ,
−1
fX (u) = Det(A−1
1 )fY (A1 (u − µ)) =
1
=
(2π)p/2
p
1
fY (A−1
1 (u − µ))
Det(A1 )
1
exp − (u − µ)T Σ−1 (u − µ) .
2
Det(Σ)
Définition 3.4 On dit que X suit une loi normale non-dégénérée Np (µ, Σ) (avec une matrice
de covariance Σ strictement positive) ssi X est un vecteur aléatoire de densité
1
f (t) =
3.3.4
(2π)p/2
1
exp − (t − µ)T Σ−1 (t − µ)
2
Det(Σ)
p
Loi normale dégénérée
C’est une loi normale dans Rp telle que sa matrice de covariance Σ est dégénérée : Det(Σ) = 0
(autrement dit, Rang(Σ) = k < p). Par exemple, on peut considérer Σ = 0, alors la fonction
T
caractéristique de X ∼ N (µ, 0) est φX (a) = eia µ (par Propriété 3o ) et la loi de X est la fonction
de Dirac en µ.
Plus généralement, si Rang(Σ) = k ≥ 1, on obtient (cf. la preuve du Théorème 3.2) que tout
vecteur X ∼ Np (µ, Σ) peut être réprésenté comme
X = AY + µ,
où Y ∼ N (0, I), A = (a·1 , ..., a·k , 0, ..., 0) et AAT = Σ, avec Rang(A) = k. Toute composante de
X est donc distribuée selon une loi normale univariée (non-dégénérée) ou bien selon une “loi de
Dirac”. C’est la conséquence de la proposition suivante :
Proposition 3.3 Soit X ∼ Np (µ, Σ) et Rang(Σ) = k < p. Alors, il existe un sous-espace
linéaire H ⊂ Rp de dimension p − k tel que la projection aT X de X sur tout vecteur a ∈ H suit
une loi de Dirac univariée.
Preuve : On a X = AY + µ où AAT = Σ, Rang(A) = k, Soit H = Ker(AT ) de dimension
dim (H) = p − k. Si a ∈ H, alors on obtient AT a = 0 et Σa = 0.
Maintenant, soit a ∈ H, la fonction caractéristique de la v.a. aT X est
T X)u
φ(u) = E ei(a
TX
= E ei(ua)
T µ− 1 (ua)T Σ(ua)
2
= ei(ua)
= ei(ua)
Tµ
.
Donc, la loi de aT X est une fonction (univariée) de Dirac en aT µ.
Théorème 3.3 (Définition équivalente de la loi normale multivariée) Un vecteur aléatoire X ∈
Rp suit la loi normale multivariée ssi toutes ses projections univariées aT X pour tout a ∈ Rp
sont des variables normales univariées.
54
Remarque : on inclut la loi de Dirac univariée comme un cas particulier dans la famille des
lois normales univariées (elle correspond à la valeur σ 2 = 0).
Preuve : On observe, tout d’abord, que pour tout a ∈ Rp et tout u ∈ Rp la fonction caractéristique φaT X (u) de variable aT X est liée avec celle de vecteur X :
T Xu
φaT X (u) = E eia
= φX (ua).
(3.5)
Nécessité : soit X un vecteur normale dans Rp . On va montrer que aT X est une variable
aléatoire normale pour tout a ∈ Rp . On utilise (3.5) pour obtenir pour tout u ∈ R
T µ− 1 u2 aT Σa
2
φaT X (u) = eiua
,
où µ et Σ sont la moyenne et la matrice de covariance de X. D’où
1
2 σ2
0
φaT X (u) = eiµ0 u− 2 u
avec µ0 = aT µ et σ02 = aT Σa. Par conséquence,
aT X ∼ N (µ0 , σ02 ) = N (aT µ, aT Σa).
Suffisance : Réciproquement, on va montrer que si aT X est une variable normale pour tout
a ∈ Rp , alors X est un vecteur normal p-varié. Pour ça on remarque que si aT X est une variable
normale pour tout a ∈ Rp , alors E(|X|2 ) < ∞ (pour le voir il suffit de prendre successivement
comme a les vecteurs d’une base orthonormée de Rp ). Donc, la moyenne µ = E(X) et la matrice
de covariance Σ = V (X) sont bien définis.
On fixe maintenant a ∈ Rp . Par hypothèse, il existe m ∈ R et s2 ≥ 0 tels que aT X ∼
N (m, s2 ). Mais, forcement,
m = E(aT X) = aT µ,
s2 = Var(aT X) = aT Σa.
En plus, la fonction caractéristique de aT X est
1 2 2
u
φaT X (u) = eimu− 2 s
T µ− 1 u2 aT Σa
2
= eiua
.
En utilisant (3.5) on obtient
T µ− 1 aT Σa
2
φX (a) = φaT X (1) = eia
.
Comme a ∈ Rp est arbitraire ici, on en déduit (par Théorème 3.2) que X est un vecteur aléatoire
normale dans Rp de moyenne µ et matrice de covariance Σ.
3.3.5
Propriétés de la loi normale multivariée
On considère ici X ∼ Np (µ, Σ), où µ ∈ Rp et Σ ∈ Rp×p est une matrice symétrique, Σ ≥ 0.
Les propriétés suivantes sont des conséquences des résultats de la section précédente :
(N1) Soit Σ > 0, alors le vecteur aléatoire Y = Σ−1/2 (X − µ) satisfait
Y ∼ Np (0, I).
55
(N2) Les projections aT X de X pour tout a ∈ Rp sont des variables aléatoires normales
univariées :
aT X ∼ N (aT µ, aT Σa).
En particulier, les densités marginales de la loi Np (µ, Σ) sont normales univariées. Le
réciproque n’est pas vrai !
Exercice 3.2
Soit la densité jointe des v.a. X et Y
f (x, y) =
1 − x2 − y 2
e 2 e 2 [1 + xyI{−1 ≤ x, y ≤ 1}],
2π
Quelle est la loi de X, de Y ?
(N3) Toute transformation linéaire d’un vecteur normal est un vecteur normal : si Y =
AX + c où A ∈ Rq×p et c ∈ Rq sont une matrice et un vecteur fixes (non-aléatoires),
alors
Y ∼ Nq (Aµ + c, AΣAT ).
Exercice 3.3
Vérifier ceci.
(N4) Soit σ 2 > 0. La loi de X ∼ Np (0, σ 2 I) est invariante par rapport aux transformations
orthogonales : si Γ est une matrice orthogonale, alors ΓX ∼ Np (0, σ 2 I). (La preuve est
évidente : il suffit d’utiliser (N3) avec A = Γ.)
(N5) Tout sous-ensemble de composantes d’un vecteur normal p-varié est un vecteur normal : soit X = (X1T , X2T )T , ou X1 ∈ Rk et X2 ∈ Rp−k , alors X1 et X2 sont des vecteurs
normaux (k- et p − k-varié respectivement).
Preuve : On utilise (N3) avec c = 0 et A ∈ Rk×p , A = (Ik , 0) ou Ik est une matrice k ×k
identité. On en déduit que X1 est normal. Pour X2 on prend A ∈ R(p−k)×p = (0, Ip−k ).
(N6) Deux vecteur normaux en couple sont indépendants si et seulement s’ils sont noncorrélés.
!
X
Preuve : La suffisance : soit Z =
, où X ∈ Rp et Y ∈ Rq , Z un vecteur normal
Y
dans Rq+p et C(X, Y ) = 0 (la matrice de covariance entre X et Y ). Pour montrer que X et
Y sont indépendants
! il suffit de montrer (cf. Exercice 3.1) que la fonction caractéristique
a
φZ (u), u =
, a ∈ Rp et b ∈ Rq , peut être décomposée comme
b
φZ (u) = φX (a)φY (b).
Vérifirons ceci. Nous avons
E(Z) =
E(X)
E(Y )
!
,
V (Z) =
V (X) C(X, Y )
C(Y, X)
V (Y )
!
=
V (X)
0
0
V (Y )
!
,
56
où V (X) ∈ Rp×p et V (Y ) ∈ Rq×q sont des matrices de covariance de X et de Y . La
fonction caractéristique φZ (u) de Z est donc
"
!#
1
a
φZ (u) = φZ (a, b) = exp i(a E(X) + b E(Y )) − (aT , bT )V (Z)
b
2
1
1
= exp iaT E(X) − aT V (X)a exp ibT E(Y ) − bT V (Y )b = φX (a)φY (b).
2
2
T
pour tout u =
3.3.6
a
b
T
!
.
Géometrie de la distribution normale multivariée
Soit Σ > 0. La densité de Np (µ, Σ) est constante sur les surfaces
EC = {x : (x − µ)T Σ−1 (x − µ) = C 2 },
On appelle ces ensembles les “contours” de la distribution (lignes/surfaces de niveau). Dans
notre cas particulier, EC sont des ellipsoı̈des qu’on appelle les ellipsoı̈des de concentration.
3
2
3


2
1
1
1
0
−1
2
−2
−3
−3
 =0.75
−2
−1
0
1
2
3
Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X, Σ =
3.4
3.4.1
1 3/4
3/4 1
Lois dérivées de la loi normale
Loi χ2 de Pearson
C’est la loi de la somme
Y = η12 + ... + ηp2 ,
où η1 , ..., ηp sont des variables aléatoires i.i.d. de loi N (0, 1). On écrit alors Y ∼ χ2p et on dit que
Y suit la loi chi-deux à p dégrès de liberté. La densité de la loi χ2p est
fχ2p (y) = C(p)y p/2−1 e−y/2 I{0 < y < ∞},
(3.6)
!
3.4. LOIS DÉRIVÉES DE LA LOI NORMALE
57
où
−1
C(p) = 2p/2 Γ(p/2)
,
et Γ(·) est la fonction gamma :
Z ∞
Γ(x) =
ux−1 e−u/2 du,
x > 0.
0
On a E(Y ) = p, Var(Y ) = 2p si Y ∼ χ2p .
p=1
p=2
p=3
p=6
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
Densité de loi de chi-deux pour les différentes valeurs de p
Exercice 3.4
Obtenir l’expression (3.6) pour la densité de loi χ2p .
3.4.2
Loi de Fisher-Snedecor
Soit U ∼ χ2p , V ∼ χ2q , deux v.a. indépendantes. La loi de Fisher-Snedecor à dégrès de
liberté p et q est la loi de
U/p
.
Y =
V /q
On écrit donc Y ∼ Fp,q . La densité de Fp,q est
fFp,q (y) = C(p, q)
y p/2−1
(q + py)
p+q
2
I{0 < y < ∞},
où
C(p, q) =
pp/2 q q/2
,
B(p/2, q/2)
avec B(p, q) =
Γ(p)Γ(q)
.
Γ(p + q)
(3.7)
58
On peut montrer que cette densité approche la densité fχ2p dans la limite quand q → ∞.
1
F(10,4)
F(10,10)
F(10,100)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
10
Densité de loi de Fisher-Snedecor
Exercice 3.5
Vérifier l’expression (3.7) pour la loi de Fisher-Snedecor.
3.4.3
Loi t de Student (W. Gosset)
Soit η ∼ N (0, 1), ξ ∼ χ2q deux v.a. indépendantes. La loi de Student à q dégrès de liberté
est celle de variable aléatoire
η
Y =q .
ξ
q
On écrit donc Y ∼ tq . La densité de tq est
ftq (y) = C(q)(1 + y 2 /q)−(q+1)/2 ,
y ∈ R,
(3.8)
où
C(q) = √
1
.
qB(1/2, q/2)
On note que t1 est la loi de Cauchy et tq tend vers N (0, 1) quand q → ∞. On remarque que la
loi tq est symétrique. Les queues de tq sont plus lourdes que celles de loi normale standardisée.
Exercice 3.6
3.5. THÉORÈME DE COCHRAN
59
Vérifier l’expression (3.8) pour la loi de Student.
0.4
N(0,1)
t4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
Densité de loi de Student
3.5
Théorème de Cochran
Théorème 3.4 Soit X ∼ Np (0, I) et soit A1 , ..., AJ , J < p, matrices p × p telles que
(1) A2j = Aj ,
(2) Aj est symétrique, Rang(Aj ) = nj ,
(3) Aj Ak = 0 pour j 6= k et
PJ
j=1 nj
≤ p. 3) .
Alors,
(i) les vecteurs Aj X sont indépendants de loi Np (0, Aj ), j = 1, ..., J, respectivement ;
(ii) Les variables aléatoires |Aj X|2 , j = 1, ..., J sont indépendantes de loi χ2nj , j = 1, ..., J.
Preuve :
(i)
Notons que E(Aj X) = 0 et
V (Aj X) = Aj V (X)ATj = Aj ATj = A2j = Aj .
Puis, Ak X et Aj X sont de loi jointe normale. Mais
C(Ak X, Aj X) = E(Ak XX T ATj ) = Ak V (X)ATj = Ak ATj = Ak Aj = 0
pour j 6= k. Par la propriété (N6) de la loi normale, ceci implique que Ak X et Aj X sont
indépendants pour k 6= j.
3.
)
Certaines versions de ce résultat supposent aussi que A1 + ... + AJ = I.
60
(ii)
Comme Aj est un projecteur, il existe une matrice Γ orthogonale telle que
ΓAj Γ =
Ij
0
0
0
!
,
la matrice diagonale de valeurs propres de Aj . Comme Aj est de rang nj , on a Rang(Ij ) = nj ,
et donc
|Aj X|2 = X T ATj Aj X = X T Aj X = (X T ΓT )Λ(ΓX) = Y T ΛY =
nj
X
ηi2 ,
i=1
ou Y = (η1 , ..., ηp )T est un vecteur normal, Y = ΓX ∼ Np (0, I) (par la propriété (N4) de
la loi normale). D’où on conclut |Aj X|2 ∼ χ2nj . Par la conservation de l’indépendance par
transformations mesurables, |Aj X|2 et |Ak X|2 sont indépendantes pour j 6= k.
3.6
Théorème de corrélation normale et filtre de Kalman-Bucy
Les considérations de la Section 3.3.5 nous permettent d’établir le résultat suivant
Théorème 3.5 Soit X T = (ξ T , θT ), ξ ∈ Rk , θ ∈ Rl , p = k + l, un vecteur normal, X ∼
Np (µ, Σ), où
!
Σξξ Σξθ
T
T
T
µ = (µξ , µθ ), Σ =
,
Σθξ Σθθ
Σξξ ∈ Rk×k , Σθθ ∈ Rl×l , ΣTθξ = Σξθ ∈ Rk×l . On suppose que Σξξ > 0.
Alors
∆
m = E(θ|ξ) = µθ + Σθξ Σ−1
ξξ (ξ − µξ ), (p.s.)
∆
γ = V (θ|ξ)
= Σθθ − Σθξ Σ−1
ξξ Σξθ (p.s.),
(3.9)
et la distribution conditionnelle de θ étant donné ξ est normale : pour tout s ∈ Rl , P (θ ≤ s|ξ)
est (p.s.) la f.d.r. d’une loi normale l-variée avec le vecteur de moyennes m et la matrice de
covariances γ (on écrit a ≤ b pour deux vecteurs a, b ∈ Rl pour noter le système d’inégalités
a1 ≤ b1 , ..., ap ≤ bl ).
En outre, les vecteur aléatoires ξ et
η = θ − Σθξ Σ−1
ξξ ξ
sont indépendants.
Remarques :
1. Le théorème donne l’expression pour la fonction de régression multivariée m = E(θ|ξ)
(régression de θ sur ξ) et la matrice de covariance conditionnelle
γ = V (θ|ξ) = E (θ − m)(θ − m)T .
On note que cette régression est linéaire dans le cas d’un couple (ξ, θ) gaussien.
3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY
61
2. Si de plus on suppose que la matrice Σ > 0, alors la matrice γ est > 0. En effet, soit
a ∈ Rk , b ∈ Rl , alors
(aT bT )Σ
a
b
!
= (aT bT )
Σξξ Σξθ
Σθξ Σθθ
!
a
b
!
> 0,
ou bien
aT Σξξ a + aT Σξθ b + bT Σθξ a + bT Σθθ b > 0.
(3.10)
Si on choisit
a = −Σ−1
ξξ Σξθ b,
alors (3.10) s’écrit comme
T
−bT Σθξ Σ−1
ξξ Σξθ b + b Σθθ b > 0,
pour tout b ∈ Rl , d’où
Σθθ − Σθξ Σ−1
ξξ Σξθ > 0.
3. On peut donner au Théorème de corrélation normale l’interprétation géometrique
suivante : soit Lξ2 (P ) le sous-espace des vecteurs aléatoires mesurables par rapport à
ξ, de matrice de covariance finie. Alors Σθξ Σ−1
ξξ ξ est la projection orthogonale de θ sur
−1
2
Lξ (P ), et le vecteur η = θ − Σθξ Σξξ ξ est orthogonal à L2ξ (P ).
4. Il est utile de noter que l’on peut obtenir une version “conditionnelle” du Théorème 3.5
en supposant que la distribution conditionnelle du couple (ξ, θ) (sachant une autre v.a.,
disons, Z) est normale (p.s.). En effet, soit X = (ξ, θ)T = ((ξ1 , ..., ξk ), (θ1 , ..., θl ))T un
vecteur aléatoire et Z un autre vecteur aléatoire défini sur le même espace de probabilité
(Ω, F, P ). Supposons que la distribution conditionnelle de X sachant Z est normale (p.s.)
avec le vecteur de moyennes
E(X|Z)T = (E(ξ|Z)T , E(θ|Z)T ) = (µTξ|Z , µTθ|Z ),
et la matrice de covariance
ΣX|Z =
V (ξ|Z) C(ξ, θ|Z)
C(θ, ξ|Z) V (θ|Z)
!
∆
=
Σξξ|Z
Σθ,ξ|Z
Σξ,θ|Z
Σθθ|Z
!
.
Alors le vecteur d’espérances conditionnelles m = E(θ|ξ, Z) et la matrice de covariance
conditionnelle γ = V (θ|ξ, Z) sont donnés par
m = µθ|Z + Σθξ|Z Σ−1
ξξ|Z (ξ − µξ|Z ),
γ = Σθθ|Z − Σθξ|Z Σ−1
ξξ|Z Σξθ|Z
(3.11)
et la distribution conditionnelle de θ étant donné ξ et Z est normale : pour tout s ∈ Rl ,
pour tout s ∈ Rl , P (θ ≤ s|ξ, Z) est (p.s.) la f.d.r. d’une loi normale l-variée avec le
vecteur de moyennes m et la matrice de covariances γ. En outre, les vecteurs aléatoires
ξ et
η = θ − Σθξ|Z Σ−1
ξξ|Z ξ
sont (conditionnellement) indépendants sachant Z.
Ce résultat peut être démontré de la même façon que le Théorème 3.5 et sera utilisé dans
la suite.
62
Preuve du Théorème de corrélation normale.
Etape 1.
Calculons d’abord E(η) et V (η) :
−1
E(η) = E(θ − Σθξ Σ−1
ξξ ξ) = µθ − Σθξ Σξξ µξ ,
et
−1
T
V (η) = E [(θ − µθ ) − Σθξ Σ−1
ξξ (ξ − µξ )][(θ − µθ ) − Σθξ Σξξ (ξ − µξ )]
T
= Σθθ − Σ−1
ξξ Σξθ E (ξ − µξ )(θ − µθ )
−1
−1 T
T
−E (θ − µθ )(ξ − µξ )T Σ−1
ξξ Σθξ + Σθξ Σξξ E(ξ − µξ )(ξ − µξ ) )Σξξ Σθξ
= Σθθ − Σθξ Σ−1
ξξ Σξθ .
Etape 2.
Montrons que η est orthogonal à ξ :
−1
C(η, ξ) = C(θ, ξ) − Σθξ Σ−1
ξξ C(ξ, ξ) = Σθξ − Σθξ Σξξ Σξξ = 0,
et donc η ⊥ ξ.
Etape 3.
On démontre que le couple (ξ, η) est normal. Nous avons
ξ
η
!
= AX = A
ξ
θ
!
,
où
A=
Ik
0
−Σθξ Σ−1
I
l
ξξ
!
,
avec !
les matrices identité Ik ∈ Rk×k et Il ∈ Rl×l . Par la propriété (N3) de la Section 3.3.5
ξ
est donc un vecteur normal.
η
Sa matrice de covariance,
V
ξ
η
!!
=
V (ξ) C(ξ, η)
C(η, ξ) V (η)
!
=
Σξξ
0
0 Σθθ − Σθξ Σ−1
ξξ Σξθ
!
Comme Σξξ > 0 et Σθθ − Σθξ Σ−1
ξξ Σξθ ≥ 0 (par l’inégalité de Cauchy-Schwarz), nous avons
V
ξ
η
!!
≥ 0. Par ailleurs,
V
ξ
η
!!
= AV (X)AT ≥ 0.
63
Etape 4. Maintenant la propriété (N6) implique que η et ξ sont indépendants. Mais le résultat
de l’Etape 3 avec (N5) nous permet de conclure que η est un vecteur normal. En utilisant les
expressions pour E(η) et V (η) ci-dessus nous avons
−1
η ∼ Nl µθ − Σθξ Σ−1
ξξ µξ , Σθθ − Σθξ Σξξ Σξθ .
Maintenant il suffit de remarquer que
θ = η + Σθξ Σ−1
ξξ ξ,
où η est indépendant de ξ. Donc la distribution conditionnelle de θ sachant ξ est la distribution
de η, translatée par Σθξ Σ−1
ξξ ξ et
E(θ|ξ) = E(η) + Σθξ Σ−1
ξξ ξ,
V (θ|ξ) = V (η).
La linéarité de la meilleure prédiction m = E(θ|ξ) du vecteur θ sachant ξ est une propriété
toute particuliére de la distribution normale du couple (ξ, θ), qui permet un calcul simple de m. Il
est intéressant de savoir quelle est la meilleure prédiction linéaire dans le cas où la distribution
jointe de couple ξ et θ n’est pas normale. Autrement dit, comment calculer la matrice A∗ ∈ Rl×k
et le vecteur b∗ ∈ Rl tels que θb = b∗ + A∗ ξ satisfasse
b
bT =
E (θ − θ)(θ
− θ)
inf
A∈Rl×k ,b∈Rl
E (θ − Aξ − b)(θ − Aξ − b)T .
La réponse est donnée par le lemme suivant qui expose l’importance du cas gaussien dans la
recherche des meilleures prédictions linéaires :
Lemme 3.1 Supposons que (X, Y ) est un vecteur aléatoire, X ∈ Rk , Y ∈ Rl , tel que E(|X|2 +
|Y |2 ) < ∞, V (X) > 0 et (ξ, θ) un vecteur normal avec les mêmes moyennes et matrices de
covariances, c.-à.-d.
E(ξ) = E(X), E(θ) = E(Y ),
V (ξ) = V (X), V (θ) = V (Y ), C(X, Y ) = C(ξ, θ).
Soit λ(b) : Rk → Rl une fonction linéaire telle que
λ(b) = E(θ|ξ = b).
Alors λ(X) est une meilleure prédiction linéaire de Y sachant X. De plus, E(λ(X)) = E(Y ).
Preuve : On note tout d’abord que l’existence d’une fonction linéaire λ(b) qui coı̈ncide avec
E(θ|ξ = b) découle du Théorème de corrélation normale. Soit η(b) une autre estimation linéaire
de θ sachant ξ, alors
E (θ − λ(ξ)(θ − λ(ξ))T ≤ E (θ − η(ξ)(θ − η(ξ))T ,
et par linéarité des prédictions λ(·) et η(·), dans les condition du lemme, on a
E (Y − λ(X))(Y − λ(X))T
= E (θ − λ(ξ))(θ − λ(ξ))T
≤ E (θ − η(ξ))(θ − η(ξ))T = E (Y − η(X))(Y − η(X))T ,
64
ce qui démontre l’optimalité de λ(X). Enfin,
E(λ(X)) = E(λ(ξ)) = E (E(θ|ξ)) = E(θ) = E(Y ).
Considérons l’exemple suivant (cf. Exercice 2.15) :
Exemple 3.2 Soit X et Y les v.a. telles que le couple (X, Y ) suit la loi normale bivariée avec
2 = V ar(X) > 0, σ 2 = V ar(Y ) > 0 et
les moyennes µX = E(X), µY = E(Y ), les variances σX
Y
la corrélation ρ = ρXY < 1.
X
Y
Si on pose Σ = Var
!!
, alors
2
σX
ρσX σY
Σ=
ρσX σY
σY2
!
2 σ 2 (1 − ρ2 ) > 0. Notons que si dans le Théorème 3.5 ξ = X et θ = Y , alors
et Det(Σ) = σX
Y
Σθξ = Σξθ = ρσX σY
Σθξ Σ−1
ξξ = ρ
σY
.
σX
Nous avons alors la fonction de régression
m(x) = E(Y |X = x) = µY + ρ
σY
(x − µX ),
σX
γ = γ(x) = V (Y |X = x) = σY2 (1 − ρ2 ),
et la densité conditionnelle de Y sachant X est
!
1
(y − m(x))2
fY |X (y|x) = √
exp −
.
2πγ
2γ
C’est la densité de loi N (m(x), γ 2 (x)) et la régression est linéaire !
Considérons le cas particulier de µX = µY = 0 et σX = σY = 1. Alors
Σ=
1
ρ·1
ρ·1
1
!
, Σ
−1
1 −ρ
−ρ 1
2 −1
= (1 − ρ )
!
.
Les vecteurs propres de Σ (et de Σ−1 ) sont
(1, 1)T et (−1, 1)T ,
qui correspondent aux valeurs propres, respectivement,
λ1 = 1 + ρ et λ2 = 1 − ρ.
Les vecteurs propres orthonormés sont γ1 = 2−1/2 (1, 1)T et γ2 = 2−1/2 (−1, 1)T . Si on pose
Γ = (γ1 , γ2 ), alors nous avons la décomposition spectrale :
T
Σ = ΓΛΓ = Γ
1+ρ
0
0
1−ρ
!
ΓT .
65
On peut considérer les ellipses de concentration de densité jointe de (X, Y ). Soit pour C > 0
EC = {x ∈ R2 : xT Σ−1 x ≤ C 2 } = {x ∈ R2 : |y|2 ≤ C 2 },
où y = Σ−1/2 x. Si on pose
y1
y2
y=
alors
!
x1
x2
, x=
1
y1 = p
(x1 + x2 ),
2(1 + ρ)
!
,
1
y2 = p
(x1 − x2 ).
2(1 − ρ)
Et l’ellipse de concentration devient
!2
−1
T
EC = {x Σ
1
x≤C }={ p
(x1 + x2 )
2(1 + ρ)
2
3
2
!2
1
p
(x1 − x2 )
2(1 − ρ)
+
≤ C 2 .}
3
3


2
1
2


2
1
1
1
1
0
0
−1
−1
2
−2
−3
−3
−2
 =0.75
−2
−1
0
1
2
3
−3
−3
 =−0.5
−2
−1
0
1
2
3
Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X.
3.6.1
Filtre de Kalman-Bucy
Supposons que la suite de (couples de) vecteurs aléatoires (θ, ξ) = ((θn ), (ξn )), n = 0, 1, 2, ...,
θn = (θ1 (n), ..., θl (n))T ∈ Rl et ξn = (ξ1 (n), ..., ξk (n))T ∈ Rk , est gérée par les équations
récursives
(0)
θn+1 = an+1 θn + bn+1 n+1 ,
(1)
ξn+1 = An+1 θn + Bn+1 n+1 ,
(3.12)
avec des conditions initiales (θ0 , ξ0 ).
(0)
(1)
Ici n = ((01) , ..., (0l) )T et n = ((11) , ..., (0k) )T sont des vecteurs normaux indépendants
(0)
(1)
et équidistribués, 1 ∼ Nl (0, I), 1 ∼ Nk (0, I) ; les matrices an , bn , An et Bn sont des matrices
déterministes de tailles, respectivement, l × l, l × l, k × k et k × k. On suppose que les matrices
(0)
Bn sont de rang plein, et que les conditions initiales (θ0 , ξ0 ) ne dépendent pas des suites (n )
(1)
et (n ).
Dans la suite on utilisera la notation ξ0n le vecteur aléatoire “long” ξ0n = (ξ0T , ..., ξnT )T .
On remarque d’abord que si E(|θ0 |2 +|ξ0 |2 ) < ∞, alors pour tout n ≥ 0, E(|θn |2 +|ξn |2 ) < ∞.
Si on suppose, en plus, que le couple (θ0 , ξ0 ) est un vecteur normal, alors on vérifie facilement
66
(0)
(1)
(tous les θn et ξn sont des fonctions linéaires de vecteurs gaussiens (θ0 , ξ0 ), (i ) et (i ),
i = 1, ..., n) que pour chaque n ≥ 0 le “long” vecteur Z T = (θ0T , ξ0T , ..., θnT , ξnT ) est normal. On
pourrait donc utiliser le Théorème de corrélation normale pour obtenir le meilleur prédicteur de
la suite (θi ), 0 ≤ i ≤ n sachant (ξi ), 0 ≤ i ≤ n.
Si on veut construire le prédicteur pour n assez grand, ce calcul risque de devenir bien coûteux
en mémoire et en temps de calcul. Cette observation n’est plus toute à fait valide aujourd’hui,
mais dans les années 50-60, le coût algorithmique était un facteur important, surtout pour des
calculateurs embarqués. C’est ce qui a motivé les recherches sur des méthodes de calcul de
prédicteurs moins coûteuses, qui ont abouti en 1960 à la découverte de filtre de Kalman-Bucy
qui calcule la meilleure prédiction de façon récursive. L’objectif des exercices qui suivent est
d’obtenir les équations récursives pour
mn = E(θn |ξ0n ),
γn = V (θn |ξ0n ).
Ce problème, bien complexe dans le cas général, admet une solution simple si on suppose que
la distribution conditionnelle P (θ0 < a|ξ0 ) du vecteur θ0 sachant ξ0 est normale (p.s.), ce qu’on
supposera dans la suite. Notre premier objectif est de montrer que dans les conditions ci-dessus
la suite (θ, ξ) est conditionnellement gaussienne, autrement dit, les fonctions de répartition
conditionnelles
P (ξn+1 ≤ x, θn+1 ≤ a|ξ0n )
sont (p.s.) les f.d.r. d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de
covariance qui dépendent de ξ0n .
Exercice 3.7
Soit ζn = (ξnT , θnT )T , t ∈ Rk+l . Vérifier que la f.d.r. conditionnelle
P (ζn+1 ≤ t|ξ0n , θn+1 = u)
est (p.s.) normale avec le vecteur de moyenne M u, où M est une matrice (k + l) × l, et la matrice
de covariance Σ (k + l) × (k + l) à déterminer.
Supposons maintenant que pour n ≥ 0 la f.d.r. conditionnelle
P (ζn ≤ t|ξ0n−1 )
est (p.s.) celle d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de covariance
qui dépendent de ξ0n−1 .
Exercice 3.8
Utiliser la version conditionnelle du Théorème de corrélation normale (avec la Remarque 4 et
l’expression (3.11)) pour montrer que les f.d.r. conditionnelles
P (ζn+1 ≤ t|ξ0n ),
n≥0
sont (p.s.) normales avec
E(ζn+1 |ξ0n )
=
An+1 mn
an+1 mn
!
,
V
(ζn+1 |ξ0n )
où mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ).
=
T
Bn+1 Bn+1
+ An+1 γn ATn+1
An+1 γn aTn+1
an+1 γn ATn+1
bn+1 bTn+1 + an+1 γn aTn+1
!
67
Indication : calculer la fonction caractéristique conditionnelle
E exp(itT ζn+1 )|ξ0n , θn ,
t ∈ Rl+k ,
puis utiliser le fait que dans les conditions d’exercice la distribution de θn , étant donnés ξ0n−1 et
ξn , est normale conditionnelle avec les paramètres mn et γn .
Exercice 3.9
Utiliser le Théorème de corrélation normale (conditionnel) pour obtenir les équation récursives :
T
mn+1 = an+1 mn + an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn ),
(3.13)
T
T
γn+1 = an+1 γn an+1 + bn+1 bn+1 − an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 An+1 γn aTn+1
T
(comme la matrice Bn+1 est de rang plein, la matrice Bn+1 Bn+1
+ An+1 γn ATn+1 l’est aussi et
donc est inversible).
Montrer que le vecteur ξn+1 et
T
η = θn+1 − an+1 γn ATn+1 (Bn+1 Bn+1
+ An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn )
sont indépendants sachant ξ0n .
Exemple 3.3 Soit X = (Xn ) et ξ = (ξn ) deux suites des variables aléatoires, telles que
(0)
(1)
Xn+1 = cXn + bn+1 , Yn+1 = Xn + Bn+1 ,
(3.14)
où c, b et B sont des réels, (0) et (1) sont deux suite des v.a.i.i.d., mutuellement indépendantes,
de loi N (0, 1). Notre objectif est de calculer la prévision mn = E(Xn |Y0n ).
((1)
On peut interpréter θ comme signal utile et Bn+1 comme bruit d’observation, et nous voulons
prédire Xn sachant les observations Y0 , ..., Yn . Les équations (3.13) nous permettent d’obtenir
facilement les expressions de la prévision :
cγn−1
(Yn − cmn−1 )
+ γn−1
c2 γ 2
= c2 γn−1 + b2 − 2 n−1 .
B + γn−1
mn = cmn−1 +
γn
B2
Exercice 3.10
Montrer que si b 6= 0, B 6= 0 et |c| < 1, alors “l’erreur limite de filtrage” γ = limn→∞ γn existe
et est la racine positive de l’équation (de Riccati) :
γ 2 + (B 2 (1 − c2 ) − b2 )γ − b2 B 2 = 0.
Exemple 3.4 Soit θ ∈ Rl un vecteur normal avec E(θ) = 0 et V (θ) = γ (on suppose que γ
est connue). On cherche la meilleure prédiction de θ à partir d’observation de la suite k-variée
(ξ) = (ξn )
(1)
ξn+1 = An+1 θ + Bn+1 n+1 , ξ0 = 0,
(1)
où An+1 , Bn+1 et n+1 satisfont les même hypothèses que dans (3.12).
68
On obtient de (3.13)
T
mn+1 = mn + γn An+1 [Bn+1 Bn+1
+ An+1 γn ATn+1 ]−1 (ξn+1 − An+1 mn ),
T
γn+1 = γn − γn An+1 [Bn+1 Bn+1
+ An+1 γn ATn+1 ]−1 ATn+1 γn .
(3.15)
Alors les solutions du (3.15) sont données par
h
mn+1 = I + γ
h
γn+1 = I + γ
Pn
T
T
−1 T
m=0 Am+1 (Bm+1 Bm+1 ) Am+1
Pn
T
T
−1 T
m=0 Am+1 (Bm+1 Bm+1 ) Am+1
où I est une matrice k × k identité.
Exercice 3.11
Démontrer la formule (3.16).
i−1
i−1
γ
γ,
Pn
T
T
−1
m=0 Am+1 (Bn+1 Bn+1 ) ξm+1 ,
(3.16)
3.6.2
Solutions d’exercices de la section 3.6.1
Exercice 3.7
On vérifie facilement que (p.s.)
E(θn+1 |ξ0n , θn = u)
V
69
(θn+1 |ξ0n , θn
= an+1 u,
E(ξn+1 |ξ0n , θn = u)
= An+1 u,
T
V (ξn+1 |ξ0n , θn = u) = Bn+1 Bn+1
et C(θn+1 , ξn+1 |ξ0n , θn = u) = 0,
= u) = bn+1 bTn+1 ,
donc ζn+1 a une distribution conditionnelle (p.s.) normale avec
E(ζn+1 |ξ0n , θn = u) =
Au
au
!
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
V (ζn+1 |ξ0n , θn = u) =
,
!
Exercice 3.8 Dans les suppositions d’exercice, par Théorème de corrélation normale, la distribution de θn sachant ξ0n est normale avec les paramètres mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ) qui
ne dépendent que de ξ0n . On remarque que (p.s.)
E exp(it
T
ζk+1 )|ξ0n , θn
"
= exp it
An+1 θn
an+1 θn
T
!
1
− tT
2
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
! #
t ,
et comme
"
E
An+1 θn
an+1 θn
exp itT
!# !
"
n
ξo = exp itT
An+1 mn
an+1 mn
"
!
!
1
− tT
2
An+1 γn ATn+1 An+1 γn aTn+1
an+1 γn ATn+1 an+1 γn aTn+1
on en obtient
E exp(it
T
ζk+1 )|ξ0n
T
= exp it
1
− tT
2
Exercice 3.9
An+1 mn
an+1 mn
1
− tT
2
T
Bn+1 Bn+1
0
0
bn+1 bTn+1
An+1 γn ATn+1 An+1 γn aTn+1
an+1 γn ATn+1 an+1 γn aTn+1
! #
t
Résultat immédiat d’application du Théorème de corrélation normale.
!
t
! #
t ,
70
3.7
Exercices
Exercice 3.12
Soit Q une matrice q × p avec q > p de rang p.
1o . Montrer que la matrice P = Q(QT Q)−1 QT est un projecteur.
2o . Quel est le sous-espace L sur lequel projette P ?
Exercice 3.13
Soit (X, Y ) un vecteur aléatoire de densité
f (x, y) = C exp(−x2 + xy − y 2 /2).
1o . Montrer que (X, Y ) est un vecteur aléatoire gaussien. Calculer l’espérance, la matrice de
covariance et la fonction caractéristique de (X, Y ). Déterminer le coefficient ρXY de corrélation
de X et Y .
2o . Déterminer la loi de X, de Y , de 2X − Y .
3o . Monter que X et Y − X sont des variables aléatoires indépendantes et de même loi.
Exercice 3.14
Soit X une v.a. de loi N (0, 1) et Z une v.a. prenant les valeurs −1 ou 1 avec la probabilité 12 .
On suppose X et Z indépendantes. On pose Y = ZX.
1o . Montrer que Y suit la loi N (0, 1).
2o . Calculer la covariance et la corrélation de X et Y .
3o . Calculer P (X + Y = 0).
4o . Le vecteur (X, Y ) est-il un vecteur aléatoire normal ?
Exercice 3.15
Soit ξ et η v.a. indépendantes de loi U [0, 1]. Alors les v.a.
X=
p
−2 ln ξ cos(2πη),
Y =
p
−2 ln ξ sin(2πη)
sont telle que Z = (X, Y )T ∼ N2 (0, I).
Indication : soit (X, Y ) ∼ N2 (0, I). Passer en coordonnées polaires.
Exercice 3.16
Soit Z = (Z1 , Z2 , Z3 )T un vecteur aléatoire normal, admettant une densité f telle que :
6z12 + 6z22 + 8z32 + 4z1 z2
1
−
f (z1 , z2 , z3 ) =
exp
32
4(2π)3/2
!
.
1o . Déterminer la loi de (Z2 , Z3 ) sachant Z1 = z1 .
Soient X et Y les vecteurs aléatoires définis par :



X=

2
0
0
1
2 2
2 5
4 10
2 4



Z

et Y =
1 1 1
1 0 0
!
Z.
2o . Le vecteur (X, Y ) de dimension 6, est-il gaussien ? Le vecteur X a-t-il une densité ? Le vecteur
Y a-t-il une densité ?
3o . Les vecteurs X et Y sont-ils indépendants ?
4o . Déterminer les lois des composantes de Z.
3.7. EXERCICES
71
Exercice 3.17
Soit (X, Y, Z)T un vecteur aléatoire gaussien de
est

2

Σ= 1
1
moyenne nulle et dont la matrice de covariance

1 1

2 1 .
1 2
1o . On pose U = −X + Y + Z, V = X − Y + Z, W = X + Y − Z. Déterminer la loi du vecteur
aléatoire (U, V, W )T .
2o . Déterminer la densité de la variable T = U 2 + V 2 + W 2 .
Exercice 3.18
Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance :
µ=
0
2
!
, Σ=
4 1
1 8
!
.
1o . Donner la loi de X + 4Y .
2o . Donner la loi jointe des variables Y − 2X et X + 4Y .
Exercice 3.19
Soit X un vecteur aléatoire normal de dimension n, centré, de matrice de covariance Σ. Quelle
est la loi de la v.a. X T Σ−1 X ?
Exercice 3.20
La taille H des hommes dans un population P est modélisée par une loi de Gauss N (172, 49)
(unité : le cm). Dans ce modèle :
1o . Quelle est la probabilité pour qu’un homme ait une taille inférieure à 160cm ?
2o . On admet qu’il y a environ 15 millions d’hommes dans P ; donner une estimation du nombre
d’hommes de plus de 200cm.
3o . Quelle est la probabilité pour que 10 hommes rencontrés au hasard aient tous leur taille dans
l’intervalle [168,188]cm ?
La taille H 0 des femmes de P est modélisée par une loi de Gauss N (162, 49) (unité : le cm).
4o . Quelle est la probabilité pour qu’un homme choisi au hasard soit plus grand qu’une femme
choisie au hasard ?
On modélise la taille des éléments d’un couple (H, H 0 ) par un vecteur normal où le coefficient
de corrélation ρ entre la taille de la femme et la taille de l’homme est 0.4 (respectivement −0.4).
5o . Calculer la probabilité p (respectivement, p0 ) que dans un couple l’homme soit plus grand
que la femme (avant de faire le calcul, pouvez-vous dire dans quel ordre seront rangés p et p0 ?).
Exercice 3.21
Soit Y = (η1 , ..., ηn )T un vecteur normal, Y ∼ Nn (µ, σ 2 I), Hn−J un sous-espace de Rn de
dimension n−J, J > 0, et soit Hn−J−M un sous-espace de Hn−J de dimension n−J −M, M > 0.
On pose
dJ = min |Y − y| et dJ+M =
min |Y − y|.
y∈Hn−J
Verifier que
y∈Hn−J−M
72
1. si µ ∈ Hn−J alors la loi de d2J /σ 2 est celle de χ2J (à J degrés de liberté) ;
2. si µ ∈ Hn−J−M , alors
J d2J+M − d2J
∼ FM,J
M
d2J
(la loi de Fisher à (M, J) degrés de liberté).
3.8. AUTRES EXERCICES
3.8
73
Autres Exercices
Exercice 3.22
Soit m ∈ R, et {Xi }i=1,...,n des variables aléatoires indépendantes. On pose
X̄ =
n
1X
Xi .
n i=1
1o . On suppose que les Xi − m suivent la loi de Cauchy, de densité
f (x) =
1
.
π(1 + x2 )
Donner la loi de X̄. Cette variable admet-elle des moments d’ordre 2 ? D’ordre 1 ? Comparer
les queues de la loi de Cauchy et celles de la loi N (0, 1) (on calculera par exemple P (X > 3) et
P (N (0, 1) > 3)).
2o . Si X1 , . . . , Xn sont n variables aléatoires indépendantes de même loi E(θ) (loi exponentielle
de paramètre θ), donner la loi de X̄.
3o . Soit Xi , i = 1, . . . , n, variables aléatoires i. i. d. de loi de Poisson de paramètre λ. Calculer
la loi de nX̄ (cf. Exercice 2.11), et trouver deux suites an et bn telles que an X̄ + bn converge en
loi vers une variable de loi non dégénérée.
Exercice 3.23
Soit X, ε deux variables aléatoires indépendantes, ayant des moments d’ordre 2 finis, avec
E(X) = E(ε) = 0.
1o . On pose Y = X 2 + ε, et on suppose que E(|X|3 ) < ∞ et que la loi de X est symétrique.
Montrer que E(Y |X) = X 2 , mais que Cov(X, Y ) = 0.
2o . On suppose que Y = X 3 + σε, où X et ε sont deux variables aléatoires indépendantes de loi
N (0, 1) et σ > 0. Comparer le rapport de corrélation η et le coefficient de corrélation ρ pour ce
modèle.
Exercice 3.24
Parmi les matrices suivantes, lesquelles peuvent être la matrice de covariance d’un vecteur
aléatoire X ∈ R ?
1 2
2 1
!
,
−1 −1/2
−1/2 −1
!
,
1 1/2
1/2 1
!
,
1 1/2
1/3 1
!
?
Dans la suite, on notera Σ les matrices répondant à la question, et on supposera que X est de
loi N2 (0, Σ).
1o . Calculer, pour chaque matrice Σ, les valeurs propres (λ1 , λ2 ) et les vecteurs propres associés
(v1 , v2 ).
2o . Donner la loi jointe de v1T X et v2T X.
Exercice 3.25
74
Soit X une variable aléatoire gaussienne standard. Pour tout c > 0, on pose
Xc = X (I{|X| < c} − I{|X| ≥ c}) .
1o . Déterminer la loi de Xc .
2o . Calculer Cov(X, Xc ) et montrer qu’il existe c0 tel que Cov(X, Xc0 ) = 0.
3o . Montrer que X et Xc0 ne sont pas indépendantes. Le vecteur (X, Xc0 ) est-il gaussien ?
Exercice 3.26
Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance :
µ=
0
2
!
, Σ=
4 1
1 8
!
.
1o . Donner la loi de X + 4Y .
2o . Donner la loi jointe des variables Y − 2X et X + 4Y .
Exercice 3.27
Soit (εY , εZ , X) un vecteur aléatoire gaussien tel que εY , εZ , X sont indépendantes de lois
N (0, 1), N (0, 1), et N (0, 2). On pose :
Z = 2Y − 3X + εZ ,
Y = X + εY .
Déterminer la loi du triplet (X, Y, Z).

Table des mati`eres

Transcription

Documents pareils

Examen de probabilités

Contrôle continu Probabilités - IRMA

TD Probabilités : Exercices “de base”

Devoir surveillé sur les probabilités en première S

Série d`exercices no 4. Variables aléatoires `a densité, fonctions de

Fonction de répartition et densité

Année universitaire 2014/2015 MASTER 1`ereannée Statistique

Variables aléatoires - Episode II Exercice 1 Exercice 2

La méthode des moindres carrés - Olivier Castéra

Télécharger l`article au format PDF - ALE 08