Table des mati`eres
Transcription
Table des mati`eres
Table des matières 1 Quelques rappels de probabilités 1.1 Caractérisation des variables aléatoires . . . . . . . . . . . . . . . . 1.1.1 Moments des variables aléatoires . . . . . . . . . . . . . . . 1.1.2 Quantiles des lois de probabilités . . . . . . . . . . . . . . . 1.1.3 Autres caractéristiques . . . . . . . . . . . . . . . . . . . . . 1.2 Rappel de quelques inégalités . . . . . . . . . . . . . . . . . . . . . 1.3 Suites de variables aléatoires . . . . . . . . . . . . . . . . . . . . . 1.4 Indépendance et théorèmes limites . . . . . . . . . . . . . . . . . . 1.4.1 Sommes de variables indépendantes . . . . . . . . . . . . . 1.4.2 Approximation des distributions par des lois asymptotiques 1.5 Théorèmes de continuité . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Construction d’un échantillon aléatoire par simulation . . . . . . . 1.6.1 Simulation des variables uniformément distribuées . . . . . 1.6.2 Simulation des variables d’une loi générale . . . . . . . . . . 1.6.3 Simulation de la loi normale N (0, 1) . . . . . . . . . . . . . 1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Régression et corrélation 2.1 Couples des variables aléatoires. Lois jointes et marginales . . 2.2 Conditionnement (cas discret) . . . . . . . . . . . . . . . . . . 2.2.1 Propriétés des espérances conditionnelles (cas discret) 2.3 Conditionnement comme une projection . . . . . . . . . . . . 2.3.1 Meilleure prévision . . . . . . . . . . . . . . . . . . . . 2.4 Probabilité et espérance conditionnelle (Cas général) . . . . . 2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . 2.4.2 Propriétés de l’espérance conditionnelle (cas général) . 2.5 Conditionnement : cas continu . . . . . . . . . . . . . . . . . 2.6 Covariance et corrélation . . . . . . . . . . . . . . . . . . . . . 2.6.1 Propriétés de covariance et de corrélation . . . . . . . 2.7 Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7.1 Variance résiduelle . . . . . . . . . . . . . . . . . . . . 2.8 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 6 7 10 12 13 14 15 15 16 17 18 19 20 . . . . . . . . . . . . . . . 23 23 24 25 26 26 28 29 29 30 32 32 33 35 37 39 2 3 Vecteurs aléatoires. Loi normale multivariée 3.1 Vecteurs aléatoires (rappel) . . . . . . . . . . . . . . . . . . 3.1.1 Propriétés de densité d’une distribution multivariée . 3.1.2 Moments des vecteurs aléatoires . . . . . . . . . . . 3.1.3 Fonction caractéristique d’un vecteur aléatoire . . . 3.1.4 Transformations des vecteurs aléatoires . . . . . . . 3.1.5 Rappel des propriétes des matrices symétriques . . . 3.2 Espérance conditionnelle d’un vecteur aléatoire . . . . . . . 3.2.1 Théorème de meilleure prévision . . . . . . . . . . . 3.3 Loi normale multivariée . . . . . . . . . . . . . . . . . . . . 3.3.1 La loi Np (0, I) . . . . . . . . . . . . . . . . . . . . . 3.3.2 Loi normale sur Rp . . . . . . . . . . . . . . . . . . . 3.3.3 Loi normale non-dégénérée . . . . . . . . . . . . . . 3.3.4 Loi normale dégénérée . . . . . . . . . . . . . . . . . 3.3.5 Propriétés de la loi normale multivariée . . . . . . . 3.3.6 Géometrie de la distribution normale multivariée . . 3.4 Lois dérivées de la loi normale . . . . . . . . . . . . . . . . . 3.4.1 Loi χ2 de Pearson . . . . . . . . . . . . . . . . . . . 3.4.2 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . 3.4.3 Loi t de Student (W. Gosset) . . . . . . . . . . . . . 3.5 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . . 3.6 Théorème de corrélation normale et filtre de Kalman-Bucy . 3.6.1 Filtre de Kalman-Bucy . . . . . . . . . . . . . . . . 3.6.2 Solutions d’exercices de la section 3.6.1 . . . . . . . 3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Autres Exercices . . . . . . . . . . . . . . . . . . . . . . . . TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 43 44 45 46 47 49 49 50 50 51 52 53 54 56 56 56 57 58 59 60 65 69 70 73 Chapitre 1 Quelques rappels de probabilités 1.1 Caractérisation des variables aléatoires Soit (Ω, F, P ) un espace de probabilité où Ω est un ensemble de nature générale, F est une tribu et P est une mesure de probabilité sur F. Une variable aléatoire X est une fonction mesurable X : (Ω, F) → (R, B) où B est la tribu borélienne. Quelquefois on la désigne par X(ω) pour souligner le fait que c’est une fonction de ω ∈ Ω. La fonction de répartition (f.d.r.) d’une variable aléatoire X est la fonction F : R → [0, 1] F (x) = P (X ≤ x) = P (ω : X(ω) ≤ x). C’est une fonction monotone croissante, continue à droite telle que F (−∞) = 0 et F (∞) = 1. On appelle aussi F la loi (ou la distribution) de X. On distingue 2 types de variables aléatoires : les variables discrètes et les variables continues. Variable discrète X est une variable dont les valeurs sont dans un ensemble fini ou dénombrable. La variable de Poisson 1 est un exemple de variable discrète où l’ensemble de ses valeurs est dénombrable : pour λ > 0 la loi de X satisfait Pλ (X = k) = λk −λ e , k! k = 0, 1, 2, ... 1. On verra dans la suite l’importance de cette loi et son lien avec la notion de processus ponctuel de Poisson. 3 4 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS On dit que X suit la loi P(λ). La fonction de répartition de X (dans la suite f.d.r.) est 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −1 0 1 2 3 4 5 6 La f.d.r. d’une variable aléatoire discrète est une “fonction-échelle”. Variable continue X est une variable continue si sa loi admet une densité par rapport à la mesure de Lebesgue sur R. Dans ce cas la f.d.r. F de X est dérivable presque partout sur R et sa dérivée f (x) = F 0 (x) s’appelle la densité de probabilité de X. On remarque que f (x) ≥ 0 pour tout x ∈ R et Z ∞ f (x)dx = 1. −∞ Exemple 1.1 a) Loi normale N (µ, σ 2 ) de densité f (x) = √ (x−µ)2 1 e− 2σ2 , 2πσ x ∈ R, où µ ∈ R et σ > 0. Si µ = 0, σ 2 = 1, la loi N (0, 1) est dite loi normale standard. b) Loi uniforme U [0, θ] de densité 1 f (x) = I{x ∈ [0, θ]}, θ x ∈ R, où θ > 0 et I{·} désigne la fonction indicatrice : pour un ensemble A ( I{x ∈ A} = 1 0 si x ∈ A, sinon. c) Loi exponentielle E(λ) de densité f (x) = λe−λx , pour x ≥ 0 et f (x) = 0 pour x < 0, 1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES 5 où λ > 0. La fonction de répartition de E(λ) est F (x) = (1 − e−λx ) pour x ≥ 0 et F (x) = 0 pour x < 0. Les lois des variables discrètes sont entièrement définies par les probabilités de type {P (X = k)}k , les lois des variables continues par leur densités f (·). Certaines caractéristiques scalaires de la fonction de répartition (ses fonctionnelles) sont importantes pour la description du comportement des variables aléatoires. Exemples de fonctionnelles sont les moments et les quantiles des variables aléatoires. 1.1.1 Moments des variables aléatoires Moyenne (espérance) d’une variable aléatoire X : Z ∞ µ = E(X) = −∞ Moment d’ordre k ( P iP (X = i) xdF (x) = R i xf (x)dx dans le cas discrèt, dans le cas continu. (k = 1, 2, ...) : k µk = E(X ) = Z ∞ xk dF (x), −∞ ainsi que moment centré d’ordre k : µ0k = E((X − µ)k ) = Z ∞ (x − µ)k dF (x). −∞ Un cas particulier est la variance σ 2 (= µ02 – le moment centré d’ordre 2) : σ 2 = Var(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 . La racine carrée de la variance s’appelle l’écart-type de X : σ = Moment absolu µ̄k d’ordre k µ̄k = E(|X|k ) p Var(X). ainsi que moment absolu centré d’ordre k : µ̄0k = E(|X − µ|k ). Bien évidemment ces définitions supposent l’existence des intégrales respectives, et toutes les lois ne possèdent pas de moments. Exemple 1.2 Non-existence de tous les moments. Soit X variable aléatoire de densité de probabilité f (x) = où la constante c > 0 est telle que R c , 1 + |x| log2 |x| x ∈ R, f = 1. Alors E(|X|a ) = ∞ pour tout a > 0. La moyenne est utilisée pour caractériser la localisation (position) d’une loi de probabilités. La variance caractérise la dispersion (l’échelle) d’une loi. 6 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Loi normale N (µ, σ 2 ) avec la moyenne µ et la variance σ 2 : 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −10 −8 −6 −4 −2 0 2 4 6 8 10 σ “grand” (beaucoup de dispersion), σ “petit” (peu de dispersion) Soit F f.d.r. de la variable aléatoire X dont la moyenne et la variance sont µ et σ. Par transformation affine on obtient la variable X0 = (X − µ)/σ, telle que E(X0 ) = 0, E(X02 ) = 1 (la variable standardisée). Si F0 est la f.d.r. de X0 , alors F (x) = F0 ( x−µ σ ). Dans le cas continu la densité de X s’écrit 1 x−µ f (x) = f0 ( ), σ σ où f0 est la densité de X0 . En général, pour définir la loi standardisée F0 et d’avoir la réprésentation F (x) = F0 ( x−µ σ ), il n’est pas nécessaire que la moyenne et la variance existent. Ceci est fait uniquement pour souligner que F dépend des paramètres de localisation (ou de position) µ et d’échelle σ. Par exemple, pour la famille des densités de Cauchy dépendant de µ, σ : 1 1 f (x) = πσ(1+[(x−µ)/σ] 2 ) , la densité standardisée est f0 (x) = π(1+x2 ) . Pourtant, l’espérance et la variance de la loi de Cauchy n’éxistent pas. Un problème d’analyse très intéressant est lié à la notion des moments µk : soit F une f.d.r. dont tous les moments sont finis. Étant donnée la suite {µk }, k = 1, 2, ... de moments de F , est-il possible de reconstituer F ? La réponse est généralement négative. Il existe néanmoins des cas pour lesquels la reconstitution est possible, notamment sous l’hypothése très forte que 1/k µ̄k k→∞ k lim sup <∞ (µ̄k étant le k-ème moment absolu). Cette hypothèse est vérifiée, par exemple, pour une densité à support borné. La condition nécessaire et suffisante pour la solution du problème de moments reste inconnue. 1.1.2 Quantiles des lois de probabilités Soit X une variable aléatoire de f.d.r. F continue et strictement croissante. Le quantile d’ordre p, 0 < p < 1, de la loi F est la solution qp de l’équation F (qp ) = p. 1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES 7 On remarque que si F est strictement croissante et continue, la solution existe et elle est unique, donc le quantile qp est bien défini. Si F admet des parties plates ou n’est pas continue, alors on peut modifier la définition : Définition 1.1 Soit F une f.d.r. Le quantile qp d’ordre p de F est la valeur qp = inf{q : F (q) ≥ p}. La médiane M de la f.d.r. F est le quantile d’ordre 1/2, autrement dit, M = q1/2 . Notons que si F est continue, F (M ) = 1/2. Les quartiles sont les quantiles q1/4 et q3/4 d’ordre 1/4 et 3/4. Les pourcentiles de l%, de la loi F sont les quantiles qp d’ordre p = l/100, 0 < l < 100. On note que la médiane caractérise la position (localisation) d’une loi de probabilités, tandis que la différence q3/4 − q1/4 (dite intervalle interquartile) peut être interprétée comme une caractéristique de l’échelle. Ces quantités sont analogues à la moyenne µ et à l’écart-type σ respectivement. Mais à la différence de ceux-ci, la médiane et l’intervalle interquartile sont définis pour toutes les lois de probabilités. 1.1.3 Autres caractéristiques Mode d’une loi. Dans le cas discret on appelle la valeur k ∗ telle que P (X = k ∗ ) = max P (X = k) k le mode de la loi F . Dans le cas continu le mode est la valeur x∗ telle que f (x∗ ) = max f (x). x Une densité f est dite unimodale si x∗ est l’unique maximum local de f (le point ”le plus à la mode”). De façon analogue on parle de densités bimodales et multimodales. Cette caractéristique est assez imprécise, car même si le maximum global de la densité f est unique (il y a un seul mode dans le sens propre) on l’appellera densité multimodale si il y a d’autres maximums locaux. Le 8 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS mode est une caractéristique de position. Elle peut se révéler intéressante dans le cas unimodal. 0.25 Mode 0.2 Mediane Moyenne 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 16 18 20 Le mode, la médiane et la moyenne d’une loi Caractéristiques d’asymétrie et d’aplatissement Définition 1.2 La loi de X (la f.d.r. F ) est dite symétrique par rapport à zéro (ou tout simplement symétrique) si pour tout x ∈ Rm, F (x) = 1 − F (−x) (f (x) = f (−x) dans le cas continu). Définition 1.3 La loi de X (la f.d.r. F ) est dite symétrique par rapport à µ ∈ R si F (x + µ) = 1 − F (µ − x) (f (x + µ) = f (µ − x) dans le cas continu). Autrement dit, la f.d.r F (· − µ) est symétrique (par rapport à zéro). Exercice 1.1 a) Montrer que si F est symétrique par rapport à µ, et E(|X|) < ∞, alors sa moyenne vérife E(X) = µ. Si, en outre, F admet une densité unimodale, alors moyenne = médiane = mode. b) Si F est symétrique et tous les moments µ̄k existent, alors les moments µk = 0 pour tout k impair. Si F est symétrique par rapport à µ et tous les moments µ̄k existent, alors µ0k = 0 pour tout k impair (par exemple, µ03 = 0). On peut qualifier les distributions asymétriques comme étant “proches” de symétrie et “loins” de symétrie. Dans ce but on introduit (pour tout loi de probabilité avec E(|X|3 ) < ∞) le coefficient d’asymétrie (“skewness”) α= µ03 . σ3 On remarque que α = 0 pour une f.d.r. symétrique avec E(|X|3 ) < ∞. Notons que la réciproque n’est pas vraie : la condition α = 0 n’implique pas la symétrie de loi. 1.1. CARACTÉRISATION DES VARIABLES ALÉATOIRES 9 Exercice 1.2 Donner un exemple de densité non-symétrique avec α = 0. Notons le rôle de σ dans laRdéfinition de α : supposons parRexemple, que la densité f0 (x) de R X satisfait xf0 (x)dx = 0 et x2 f0 (x)dx = 1 et α0 = µ030 = x3 f0 (x)dx. Pour σ > 0, µ ∈ R, la fonction 1 x−µ f (x) = f0 ( ), σ σ est la densité de la variable σX +µ, et donc Var(σX +µ) = σ 2 et µ03 = (x−µ)3 f (x)dx = σ 3 µ030 . µ0 En calculant α = σ33 on observe que α = α0 . Donc, le coefficient d’asymétrie α est invariant par rapport aux transformations affines (d’échelle et de position). R Le coefficient α est une mesure controversée : on ne peut pas toujours affirmer que α > 0 si la loi est “asymétrique vers la droite” et α < 0 si la loi est ”asymétrique vers la gauche”. Les notions d’asymétrie “vers la droite” ou “vers la gauche” ne sont pas définies rigoureusement. Coefficient d’aplatissement(“kurtosis”) β est définie de façon suivante : si le 4ème moment centré µ04 de la variable aléatoire X existe, alors β= µ04 − 3. σ4 Exercice 1.3 Montrer que pour la loi normale N (µ, σ 2 ) on a : µ04 /σ 4 = 3 et donc β = 0. On note que, comme le coefficient α d’asymétrie, le kurtosis β est invariant par rapport aux transformations affines (changement de position et d’échelle). Le coefficient β est le plus souvent calculé pour avoir une idée intuitive sur les “queues” de la loi de X. On utilise le vocabulaire suivant : on dit que la loi F a des “queues lourdes” si Z Z f (x)dx dans le cas continu) dF (x) (= Q(b) = |x|≥b |x|≥b décroı̂t lentement quand b → ∞, par exemple, de façon polynômiale (comme 1/br où r > 0). Sinon, on dit que “les queues sont légères” si Q(b) décroı̂t rapidement (exemple : décroissance exponentielle). On utilise l’heuristique suivante : si β > 0 on peut considérer que les queues de la loi en 2 question sont plus lourdes que celles de la loi normale (Q(b) = O(e−b /2 ) pour la loi normale N (0, 1)). Si β < 0 (on dit dans ce cas que la loi est leptokurtique) on peut supposer que les queues sont plus légères que celles de la loi normale (pour la loi normale β = 0). Notons également que, pour toute loi de probabilité, β ≥ −2 (voir le paragraphe suivant). Exemple 1.3 a) Le kurtosis β de la loi uniforme U [0, 1] est égal à −1.2 (queues ultra-légères). b) Si f (x) ∼ |x|−5 quand |x| tend vers ∞, σ 2 est fini mais µ04 = ∞, ce qui implique β = ∞ (queues lourdes). 10 1.2 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Rappel de quelques inégalités Proposition 1.1 (Inégalité de Markov) Soit h(·) une fonction non négative croissante et E(h(X)) < ∞. Alors pour tout a > 0 tel que h(a) > 0, P (X ≥ a) ≤ E(h(X)) . h(a) (1.1) Preuve : Soit a > 0 tel que h(a) > 0. Comme h(·) est une fonction croissante, P (X ≥ a) ≤ P (h(X) ≥ h(a)) = Z I{h(x) ≥ h(a)}dF (x) = E(I{h(X) ≥ h(a)}) ≤ E h(X) E(h(X)) I{h(X) ≥ h(a)} ≤ . h(a) h(a) Corollaire 1.1 (Inégalité de Tchebychev) Soit X une variable aléatoire telle que E(X 2 ) < ∞. Alors pour tout a > 0 P (|X| ≥ a) ≤ P (|X − E(X)| ≥ a) ≤ E(X 2 ) a2 Var(X) a2 Preuve : Pour montrer la première inégalité il suffit de poser dans (1.1) h(t) = t2 et Y = |X| (ou Y = |X − E(X)| pour la deuxième). Proposition 1.2 (Inégalité de Hölder) Soit r > 1, 1/r + 1/s = 1. Soit ξ et η deux variables aléatoires telles que E(|ξ|r ) < ∞ et E(|η|s ) < ∞. Alors E(|ξη|) < ∞ et E(|ξη|) ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s . Preuve : On note d’abord que pour tout a > 0, b > 0, par concavité de la fonction log t, (1/r) log a + (1/s) log b ≤ log(a/r + b/s), ce qui est équivalent à : a1/r b1/s ≤ a/r + b/s. Posons ici a = |ξ|r /E(|ξ|r ), b = |η|s /E(|η|s ) (on suppose pour l’instant que E(|ξ|r ) 6= 0, E(|η|s ) 6= 0), ce qui donne |ξη| ≤ [E(|ξ|r )]1/r [E(|η|s )]1/s (|ξ|r /rE(|ξ|r ) + |η|s /sE(|η|s )) . On conclut en prenant l’espérance. Si E(|ξ|r ) = 0 ou E(|η|s ) = 0, alors ξ = 0 (p.s) ou η = 0 (p.s.), et l’inégalité est triviale. 1.2. RAPPEL DE QUELQUES INÉGALITÉS 11 Corollaire 1.2 (Inégalité de Lyapunov) Soit 0 < v < t et X une variable aléatoire t.q. E(|X|t ) < ∞. Alors E(|X|v ) < ∞ et [E(|X|v )]1/v ≤ [E(|X|t )]1/t . (1.2) Pour démontrer ce corollaire il suffit d’appliquer l’inégalité de Hölder avec ξ = X v , η = 1, r = t/v. µ04 σ4 En utilisant l’inégalité (1.2) avec v = 2, t = 4 et |X − E(X)| au lieu de |X| on obtient ≥ 1. Donc, le coefficient d’aplatissement β vérifie l’inégalité β ≥ −2. L’inégalité de Lyapunov implique la chaı̂ne des inégalités entre les moments absolus : E(|X|) ≤ [E(|X|2 )]1/2 ≤ . . . ≤ [E(|X|k )]1/k . Corollaire 1.3 (Inégalité de Cauchy-Schwarz) Soit ξ et η deux variables aléatoires telles que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors E(|ξη|) < ∞ et E(|ξη|)2 ≤ E(ξ 2 )E(η 2 ). (Cas particulier de l’inegalité de Hölder pour r = s = 2.) Proposition 1.3 (Inégalité de Jensen) Soit g(·) une fonction convexe, X une variable aléatoire telle que E(|X|) < ∞. Alors g(E(X)) ≤ E(g(X)). Preuve : Par convexité de g, il existe une fonction g 1 (·) t.q. pour tout x, x0 ∈ R g(x) ≥ g(x0 ) + (x − x0 )g 1 (x0 ). On pose x0 = E(X). Alors g(X) ≥ g(E(X)) + (X − E(X))g 1 (E(X)). En prenant l’espérance on obtient E(g(X)) ≥ g(E(X)). Un exemple d’application de l’inégalité de Jensen est le suivant : |E(X)| ≤ E(|X|). (1.3) Proposition 1.4 (Inégalité de Cauchy-Schwarz - une modification) Soit ξ et η deux variables aléatoires telles que E(ξ 2 ) < ∞ et E(η 2 ) < ∞. Alors (E(ξη))2 ≤ E(ξ 2 )E(η 2 ). (1.4) L’égalité est atteinte si et seulement si il existent a1 , a2 ∈ R tels que a1 6= 0 ou a2 6= 0 et a1 ξ + a2 η = 0 presque sûrement. (1.5) 12 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Preuve : L’inégalité (1.4) est une conséquence du Corollaire 1.3 et de (1.3). Si (1.5) est vraie, il est évident que l’égalité (E(ξη))2 − E(ξ 2 )E(η 2 ) = 0 (1.6) est atteinte. Réciproquement, si on a (1.6) et E(η 2 ) 6= 0, alors E((ξ − aη)2 ) = 0 avec a = E(ξη)/E(η 2 ), ce qui implique ξ = aη presque sûrement. Le cas E(η 2 ) = 0 est trivial. 1.3 Suites de variables aléatoires Soient ξ1 , ξ2 ..., et ξ variables aléatoires (v.a.) sur (Ω, F, P ). P Définition 1.4 La suite (ξn ) converge vers une variable aléatoire ξ en probabilité (noté ξn → ξ) quand n → ∞ si lim P {|ξn − ξ| ≥ } = 0 n→∞ pour tout > 0. Définition 1.5 La suite (ξn ) converge en moyenne quadratique vers ξ si E(ξ 2 ) < ∞ et lim E(|ξn − ξ|2 ) = 0. n→∞ Définition 1.6 La suite (ξn ) converge presque sûrement vers ξ (noté ξn → ξ (p.s.), n → ∞) si P {ω : ξn→ / ξ} = 0 Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la suivante : pour tout > 0 lim P {sup |ξk − ξ| ≥ } = 0. n→∞ k≥n D Définition 1.7 La suite (ξn ) converge vers une variable aléatoire ξ en loi (on note ξn → ξ, n → ∞) si P {ξn ≤ t} → P {ξ ≤ t} lorsque n → ∞ dans chaque point de continuité de la f.d.r. F (t) = P {ξ ≤ t}. Remarque. On démontre en théorie de probabilités que cette définition est équivalente à la convergence E(f (ξn )) → E(f (ξ)) quand n → ∞ pour toute fonction f continue et bornée. 1.4. INDÉPENDANCE ET THÉORÈMES LIMITES 13 Liens entre les différents types de convergence : convergence en moyenne quadratique =⇒ convergence en probabilité =⇒ | convergence en loi convergence p.s. =⇒ Exercice 1.4 Soit (ξn ) et (ηn ) deux suites de v.a.. Démontrer les résultats suivants : 1o . Si a ∈ R est une constante, alors D ξn → a ⇔ P ξn → a, lorsque n → ∞. D D 2o . (Théorème de Slutsky) Si ξn → a et ηn → η lorsque n → ∞ et a ∈ R est une constante, alors D ξn + ηn → a + η, lorsque n → ∞. Montrer que si a est une v.a. générale, ces deux relations ne sont pas vérifiées (donner un contre-exemple). P D 3o . Si ξn → a et ηn → η lorsque n → ∞, où a ∈ R est une constante et η est une variable aléatoire, alors D ξn ηn → aη, lorsque n → ∞. Ce résultat reste-t-il vrai si on suppose que a est une variable aléatoire générale ? 1.4 Indépendance et théorèmes limites Définition 1.8 Soit X et Y deux variables aléatoires. La variable X est dite indépendante de Y si P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) pour tout A ∈ B et B ∈ B (A et B boréliens). Dans ce cas on note X⊥⊥Y . Si E(|X|) < ∞, E(|Y |) < ∞, alors l’indépendence implique E(XY ) = E(X)E(Y ) (la réciproque n’est pas vraie !). Définition 1.9 Soient X1 , ..., Xn des variables aléatoires, on dit que X1 , ..., Xn sont (mutuellement) indépendantes si pour tous A1 , ..., An ∈ B P (X1 ∈ A1 , ..., Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ). Remarque. Le fait que Xi , i = 1, ..., n soient indépendantes deux à deux, c’est-à-dire Xi ⊥⊥Yj , n’implique pas que X1 , .., Xn soient mutuellement indépendantes. Par contre, l’indépendance mutuelle implique l’indépendance deux à deux. En particulier, si X1 , ..., Xn sont indépendantes et E(|Xi |) < ∞, i = 1, ..., n, alors E(Xi Xj ) = E(Xi )E(Xj ), i 6= j. 14 1.4.1 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Sommes de variables indépendantes Considérons la somme ni=1 Xi , où X1 , ..., Xn sont indépendantes. Si E(Xi2 ) < ∞, i = 1, ..., n (par l’inégalité de Lyapunov cela implique E(|Xi |) < ∞), alors P E n X i=1 ! Xi = n X E(Xi ) (vrai sans hypothèse d’indépendance) i=1 et, de plus, Var n X ! Xi i=1 = n X Var(Xi ). i=1 Définition 1.10 On dit que les variables X1 , ..., Xn sont i.i.d. (indépendantes et équidistribuées) si elles sont mutuellement indépendantes et Xi est de même loi que Xj pour tous 1 ≤ i, j ≤ n. Proposition 1.5 Soit X1 , ..., Xn v.a. i.i.d. telles que E(X1 ) = µ et Var(X1 ) = σ 2 < ∞. Alors la moyenne arithmétique n 1X X̄ = Xi n i=1 satisfait E(X̄) = µ et Var(X̄) = σ2 1 Var(X1 ) = . n n Proposition 1.6 (Loi forte de grands nombres de Kolmogorov) Soient X1 , ..., Xn v.a. i.i.d. telles que E(|X1 |) < ∞, et µ = E(X1 ). On a X̄ → µ (p.s.) lorsque n → ∞. Contre-exemple. Soient Xi variables i.i.d de loi de Cauchy. La densité de X1 est f (x) = 1 , x ∈ R. π(1 + x2 ) Alors E(|X1 |) = ∞, E(X1 ) n’est pas définie et la moyenne arithmétique X̄ n’est pas convergente (on remarque que les queues de la loi de Cauchy sont “lourdes”). Proposition 1.7 (Théorème central limite ) Soient X1 , ..., Xn v.a. i.i.d. telles que E(X12 ) < ∞ et σ 2 = Var(X1 ) > 0. Alors, √ X̄ − µ n σ où µ = E(X1 ), et η ∼ N (0, 1). ! D → η, lorsque n → ∞, 1.5. THÉORÈMES DE CONTINUITÉ 1.4.2 15 Approximation des distributions par des lois asymptotiques Le théorème central limite (Proposition 1.7) s’écrit sous la forme équivalente : P √ X̄ − µ n σ ! ! ≤t → P (η ≤ t), lorsque n → ∞, pour tout t ∈ R, où η ∼ N (0, 1). Notons Φ(t) = P (η ≤ t) la f.d.r. normale standard. Alors √ P (X̄ ≤ x) = P X̄ − µ n σ ! ≤ √ x−µ n σ ! √ ≈Φ x−µ n σ quand n → ∞. Autrement dit, P (X̄ ≤ x), la f.d.r. de X̄, peut être approximée par la loi normale : √ P (X̄ ≤ x) ≈ Φ x−µ n σ pour n assez grand. 1.5 Théorèmes de continuité Proposition 1.8 (Premier théorème de continuité) Soit g(·) une fonction continue et ξ1 , ξ2 , ... et ξ variables aléatoires sur (Ω, F, P ). Alors (i) ξn → ξ (p.s.) ⇒ g(ξn ) → g(ξ) (p.s.) P ⇒ g(ξn ) → g(ξ) D ⇒ g(ξn ) → g(ξ) (ii) ξn → ξ (iii) ξn → ξ P D Preuve : (i) est évident. On va démontrer (ii) dans le cas particulier ξ = a (a fixe déterministe). En effet, ce cas seulement présente un intérêt dans la suite de ce cours. La continuité de g implique que pour tout > 0 il existe δ > 0 tel que |ξn − a| ≤ δ ⇒ |g(ξn ) − g(a)| < . P Comme ξn → a, n → ∞, on a lim P (|ξn − a| < δ) = 1 pour tout δ > 0. n→∞ D’où lim P (|g(ξn ) − g(a)| < ) = 1 pour tout > 0. n→∞ (iii) Il suffit de démontrer (voir la remarque après la Définition 1.7) que pour toute fonction continue bornée h(x) E(h(g(ξn ))) → E(h(g(ξ))), n → ∞. 16 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS D Comme g est continue, f = h ◦ g est aussi continue et bornée. Ceci démontre (iii), car ξn → ξ signifie que E(f (ξn )) → E(f (ξ)), n → ∞, pour toute fonction f continue bornée. Proposition 1.9 (Deuxième théorème de continuité) Soit g(·) continue et continûment différentiable et X1 , ..., Xn variables aléatoires i.i.d. telles que E(X12 ) < ∞ et σ 2 = Var(X1 ) > 0. Alors ! √ g(X̄) − g(µ) D n → ηg 0 (µ), n → ∞, σ où X̄ = 1 n Pn i=1 Xi , µ = E(X1 ) et η ∼ N (0, 1). Preuve : La fonction ( h(x) = g(x)−g(µ) , x−µ 0 g (µ), si x 6= µ si x = µ P est continue sous nos hypothèses. Comme X̄ → µ (par Proposition 1.6) et h est continue, on conclut, grâce au premier théorème de continuité, que P h(X̄) → h(µ) = g 0 (µ), Mais n → ∞. (1.7) √ √ g(X̄) − g(µ) n = h(X̄)(X̄ − µ) = h(X̄)ηn , n σ σ √ D où ηn = σn (X̄ − µ). La proposition 1.7 implique que ηn → η ∼ N (0, 1) quand n → ∞. Utilisant ce fait avec (1.7) et le résultat 3o de l’Exercice 1.4 on obtient le résultat. 1.6 Construction d’un échantillon aléatoire par simulation Dans les applications on a souvent besoin de générer (construire) de façon artificielle (à l’aide d’un ordinateur, par exemple) une suite X1 , ..., Xn de nombres aléatoires i.i.d. suivant la loi F (on l’appelle un échantillon). Les méthodes de simulation permettent d’obtenir seulement une valeur pseudo-aléatoire, au lieu d’une valeur aléatoire. Cela signifie que les nombres X1 , ..., Xn simulés sont déterministes – ils sont obtenus par un algorithme déterministe – mais les propriétés de la suite X1 , ..., Xn sont “proches” de celles d’une suite aléatoire i.i.d. de même loi. Par exemple, pour les nombres pseudo-aléatoires on a sup |Fn (x) − F (x)| → 0, n→∞ x pour tout x ∈ R, ou Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn qui satisfont ξk < x. On appelle Fn (x) fonction de répartition empirique calculée à partir de la suite X1 , ..., Xn . Ici on considére la convergence dans le sens des suites déterministes, non-aléatoires (cf. Exercice 1.1.14). La loi forte des grands nombres, le théorème central limite sont assurés, etc. 1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION 1.6.1 17 Simulation des variables uniformément distribuées Le programme-générateur est disponible dans les nombreux langages de programmation. Quel est le principe de son fonctionnement ? La f.d.r. F (x) de la loi U [0, 1] satisfait F (x) = 0, x, 1, x<0 x ∈ [0, 1] x > 1. Algorithme congruentiel. On se donne un nombre réel a > 1 et un nombre entier m (d’habitude a et m sont des “très grands” nombres). On commence par une valeur z0 fixe. Pour tout 1 ≤ i ≤ n on définit zi = le reste de division de azi−1 par m azi−1 m, = azi−1 − m où [·] est partie entière. Nous avons toujours 0 ≤ zi < m. On définit zi azi−1 azi−1 Ui = = − , m m m alors 0 ≤ Ui < 1. La suite U1 , ..., Un est considérée comme un échantillon de la loi uniforme U [0, 1]. Même si ce n’est pas une suite aléatoire, la f.d.r. empirique FnU (x) n 1X = I{Ui ≤ x} n i=1 satisfait sup0≤x≤1 |Fn − x| ≤ (m), n → ∞, avec (m) qui converge très vite vers 0 quand m → ∞. Divers résultats mathématiques permettent de justifier les “bons” choix de z0 , a et de m. Ils risquent de tomber en désuetitude du fait de l’apparition de nouveaux générateurs plus performants. Les valeurs suivantes de paramètres sont très répandues et donnent en général satisfaction : a = 16807(75 ), m = 2147483647(231 − 1). 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 la f.d.r empirique en escalier/la f.d.r. théorique 18 1.6.2 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Simulation des variables d’une loi générale Étant donné un échantillon i.i.d. U1 , ..., Un d’une loi uniforme, on peut obtenir un échantillon d’une loi générale F (·) par la méthode d’inversion. Elle marche bien si on possède une expression explicite pour F (·). Cette méthode est basée sur la proposition suivante : Proposition 1.10 Soit F une f.d.r. continue et strictement monotone, et soit U une variable aléatoire uniformément distribuée sur [0, 1]. Alors la v.a. X = F −1 (U ) a F (·) comme f.d.r. Preuve : On note que F (x) = P (U ≤ F (x)) = P (F −1 (U ) ≤ x) = P (X ≤ x). D’où l’algorithme de simulation suivant : si F (x) est continue est strictement croissante, on prend Xi = F −1 (Ui ), où Ui sont des nombres pseudo-aléatoires uniformément distribués sur [0, 1], i = 1, ..., n. De cette façon on obtient un échantillon simulé X1 , ..., Xn . Si F n’est pas continue ou strictement monotone, il faut modifier la “définition” de F −1 . On pose ∆ F −1 (y) = sup{t : F (t) < y}. Alors, P (Xi ≤ x) = P (sup{t : F (t) < Ui } ≤ x) = P (Ui ≤ F (x)) = F (x). Exemple 1.4 Répartition exponentielle : f (x) = e−x I{x > 0}, F (x) = (1 − e−x )I{x > 0}. On calcule F −1 (y) = − ln(1 − y) pour y ∈ (0, 1). Xi = − ln(1 − Ui ), i = 1, ..., n où Ui ∼ U [0, 1]. Exemple 1.5 Loi de Bernoulli : P (X = 0) = 1 − p, 0 < p < 1. P (X = 1) = p, On utilise la méthode modifiée : ( F −1 (y) = sup{t : F (t) < y} = 0, 1, y ∈ [0, 1 − p], y ∈ (1 − p, 1]. Si Ui est une v.a. de loi uniforme, alors Xi = F −1 (Ui ) suit la loi de Bernoulli, on a ( Xi = 0, 1, Ui ∈ [0, 1 − p], Ui ∈ (1 − p, 1]. 1.6. CONSTRUCTION D’UN ÉCHANTILLON ALÉATOIRE PAR SIMULATION 19 Exercice 1.5 Une v.a. Y prend les valeurs 1, 3 et 4 avec les probabilités P (Y = 1) = 3/5, P (Y = 3) = 1/5 et P (Y = 4) = 1/5. Décrivez comment vous allez obtenir Y à partir d’une v.a. U ∼ U (0, 1). Exercice 1.6 Soit U ∼ U (0, 1). 1. Expliquez comment obtenir une simulation de dés à 6 faces à partir de U . 2. Soit Y = [6U + 1], où [a] est la partie entière de a. Quelles sont les valeurs possibles de Y et leurs probabilités ? Simulation des variables transformées Comment simuler un échantillon Y1 , ..., Yn de loi F ((x − µ)/σ), étant donné l’échantillon X1 , ..., Xn de F (·) ? On suppose que σ > 0 et µ ∈ R). Il faut prendre Yi = σXi + µ, i = 1, ..., n. 1.6.3 Simulation de la loi normale N (0, 1) Dans le cas d’une loi normale la f.d.r. F est bien continue et monotone mais n’est pas connue explicitement. Il est difficile d’appliquer la méthode d’inversion. Il existe néanmoins d’autres méthodes de simulation très performantes du point de vue du coût de calcul. Utilisation du Théorème central limite. Si U ∼ U [0, 1] nous avons E(U ) = 1/2 et Var(U ) = 1/12. Ceci implique par le Théorème central limite que U1 + ... + UN − N/2 D p → N (0, 1), N/12 N → ∞, pour un échantillon i.i.d. U1 , ..., UN de loi uniforme sur [0, 1] (N = 12 est suffisant pour obtenir une bonne approximation !). D’où la méthode de simulation suivante : soit U1 , U2 , ..., U nN une suite de variables pseudo-aléatoires de loi U [0, 1], on prend Xi = U(i−1)N +1 + ... + UiN − N/2 p Méthode de Box et Müller. N/12 , i = 1, ..., n. Elle découle du résultat suivant : Proposition 1.11 Soit ξ et η variables aléatoires indépendantes de loi U [0, 1]. Alors les v.a. X= p −2 ln ξ cos(2πη) et Y = p −2 ln ξ sin(2πη) sont normales et indépendantes avec E(X) = E(Y ) = 0, Var(X) = Var(Y ) = 1. On démontre cette proposition dans le Chapitre 3. Ce résultat nous donne une méthode efficace de simulation : soit U1 , ..., U2n variables aléatoires i.i.d. de loi U [0, 1]. On pose pour i = 1, ...n. X2i = p X2i−1 = p −2 ln U2i cos(2πU2i−1 ), −2 ln U2i sin(2πU2i−1 ), 20 1.7 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Exercices Exercice 1.7 On jette deux dés équilibrés. Trouver la loi de probabilité conjointe de X et Y dans les cas suivants : 1. X est la plus grande des deux valeurs obtenues et Y en est la somme ; 2. X est la valeur obtenue avec le premier dé et Y est la plus grande des deux valeurs ; 3. X et Y sont respectivement la plus petite et la plus grande des deux valeurs obtenues. Exercice 1.8 Soit X et Y deux v.a. indépendantes de loi de Bernoulli B( 12 ). Soit U = X + Y et V = |X − Y |. 1. Donner la loi jointe et les lois marginales de U et V , la loi de U sachant V = 0 et V = 1. 2. U et V sont-ils indépendants ? Exercice 1.9 Soit ξ1 , ..., ξn des variables aléatoires indépendantes et ξmin = min(ξ1 , ..., ξn ), ξmax = max(ξ1 , ..., ξn ). 1) Montrer que P (ξmin ≥ x) = n Y P (ξi ≥ x), P (ξmax < x) = n Y P (ξi < x). i=1 i=1 2) Supposons, de plus, que ξ1 , ..., ξn sont identiquement distribuées avec la loi uniforme U [0, a]. Calculer E(ξmin ), E(ξmax ), Var(ξmin ) et Var(ξmax ) Exercice 1.10 Soit ξ1 , ..., ξn des v.a. indépendantes de loi de Bernoulli avec P (ξ1 = 0) = 1 − λi ∆, P (ξ1 = 1) = λi ∆ où λi > 0 et ∆ > 0 petit. Démontrer que P n X i=1 ! ξi = 1 = n X ! 2 λi ∆ + O(∆ ), i=1 P n X ! ξi > 1 = O(∆2 ). i=1 Exercice 1.11 1) Montrer que inf −∞<a<∞ E((ξ − a)2 ) est atteint pour a = E(ξ) et donc inf −∞<a<∞ E((ξ − a)2 ) = Var(ξ). 2) Soit ξ une variable aléatoire non négative avec la f.d.r. F et d’espérance finie. Démontrer que Z ∞ E(ξ) = (1 − F (x))dx. 0 3) En utilisant le résultat 2) montrer que si M est la médiane de la f.d.r. F de ξ, inf −∞<a<∞ E(|ξ − a|) = E(|ξ − M |). 1.7. EXERCICES 21 Exercice 1.12 Soient X1 et X2 deux v.a. indépendantes de loi exponentielle E(λ). Montrer que min(X1 , X2 ) et |X1 − X2 | sont des variables aléatoires de lois respectivement E(2λ) et E(λ). Exercice 1.13 Soit X le nombre d’apparitions de “6” dans 12000 tirages√ d’un dé. En utilisant √ le théorème central limite estimer la probabilité que 1800 < X ≤ 2100 (Φ( 6) ≈ 0.9928, Φ(2 6) ≈ 0.999999518). Utiliser l’inégalité de Tchebychev pour obtenir l’approximation. Exercice 1.14 Soient les variables aléatoires ξ1 , ..., ξn indépendantes pour chaque n et équidistribuées avec la f.d.r F (x). On définit pour chaque x ∈ R la v.a. Fbn (x) = n1 µn , où µn est le nombre de ξ1 , ..., ξn qui satisfont ξk < x. Montrer que pour tout x P Fbn (x) → F (x) (la fonction Fbn (x) s’appelle fonction de répartition empirique). Exercice 1.15 [Méthode de Monté-Carlo] On cherche à calculer l’intégrale I = aléatoire de loi U [0, 1], alors R1 0 f (x)dx. Soit X la variable Z 1 f (x)dx = I. E(f (X)) = 0 Soit X1 , ..., Xn des v.a. i.i.d avec une distribution uniforme sur [0, 1]. Considérons n 1X f¯n = f (Xi ) n i=1 P et supposons que σ 2 = Var(f (X)) < ∞. Montrer que E(f¯n ) → I et f¯n → I quand n → ∞. Estimer P (|f¯n − I| < ) à l’aide du théorème central limite. Exercice 1.16 Dans la modélisation de durée de vie des composants mécaniques on utilise quelquefois des v.a. de loi de Weibull. Un exemple de loi de cette famille est la loi dont la f.d.r est ( F (x) = 1− 0, x < 0 x ≥ 0. 2 e−5x , Construire une variable Z avec cette loi à partir d’une v.a. de loi U (0, 1). Exercice 1.17 Décrire l’algorithme de simulation d’une loi de Poisson par inversion. Indication : il n’y a pas d’expression simple pour la fonction de répartition et l’ensemble des valeurs possible est infini. Il faut donc calculer les valeurs Fk au fur et à mesure. On remarque que si X suit la loi de Poisson, P (X = k) = e−λ λk λ = P (X = k − 1). k! k 22 CHAPITRE 1. QUELQUES RAPPELS DE PROBABILITÉS Chapitre 2 Régression et corrélation 2.1 Couples des variables aléatoires. Lois jointes et marginales Soit (X, Y ) un couple de variables aléatoires. La f.d.r. jointe du couple (X, Y ) est FX,Y (x, y) = P (X ≤ x, Y ≤ y), x, y ∈ R. Les f.d.r. marginales sont données par FX (x) = FX,Y (x, ∞) = P (X ≤ x); FY (y) = FX,Y (∞, y) = P (Y ≤ y). Dans le cas continu on suppose que FX,Y admet une densité fX,Y par rapport à la mesure de Lebesgue dans R2 , et la dérivée ∂ 2 FX,Y (x, y) = fX,Y (x, y) ∂x∂y (2.1) existe presque partout. La fonction fX,Y (x, y) est la densité de FX,Y (x, y). Les densités marginales sont définies par Z ∞ Z ∞ fX (x) = −∞ fX,Y (x, y)dy, fY (y) = −∞ fX,Y (x, y)dx. Dans le cas discret X et Y prennent au maximum un nombre dénombrable de valeurs. La loi jointe du couple X, Y est définie par les probabilités {P (X = k, Y = m)}k,m . Les lois marginales sont définies par les probabilités P (X = k) = X P (X = k, Y = m), m P (Y = m) = X P (X = k, Y = m). k Si X et Y sont indépendantes, alors FX,Y = FX (x)FY (y) pour tout (x, y) ∈ R2 . 23 24 CHAPITRE 2. RÉGRESSION ET CORRÉLATION La réciproque est aussi vraie. Dans le cas continu ça se traduit par la décomposition fX,Y (x, y) = fX (x)fY (y), pour tout (x, y) ∈ R2 , et dans le cas discret par P (X = k, Y = m) = P (X = k)P (Y = m). 2.2 Conditionnement (cas discret) Soit A et B deux événement aléatoires (A, B ∈ F) tels que P (B) 6= 0. La probabilité conditionnelle P (A|B) de A sachant B est définie par P (A|B) = P (AB) . P (B) Soit X et Y deux v.a. discrètes. Selon cette définition P (Y = k|X = m) = P (Y = k, X = m) , P (X = m) pour tout k, m tels que P (X = m) 6= 0. On suppose que P (X = m) 6= 0 pour tout m admissible. Alors on a P X P (Y = k, X = m) P (Y = k|X = m) = k = 1. P (X = m) k Donc les probabilités {P (Y = k|X = m)}k définissent une loi discrète de probabilité. Si X et Y sont indépendantes, P (Y = k|X = m) = P (Y = k)P (X = m) = P (Y = k). P (X = m) (2.2) Espérance conditionnelle de Y sachant que X = m est la valeur numérique E(Y |X = m) = X kP (Y = k|X = m). k La variance conditionnelle est donneée par Var(Y |X = m) = E(Y 2 |X = m) − [E(Y |X = m)]2 . De façon analogue on définit les moments conditionnels, les quantiles conditionnels et autres caractéristiques d’une loi conditionnelle. Définition 2.1 L’espérance conditionnelle E(Y |X) de Y sachant X où X et Y sont des variables aléatoires discrètes, E(|Y |) < ∞, est une variable aléatoire discrète qui ne dépend que de X et qui prend les valeurs {E(Y |X = m)}m avec les probabilités P (X = m). 2.2. CONDITIONNEMENT (CAS DISCRET) 25 Il est important de ne pas confondre la variable aléatoire E(Y |X) et la fonction numérique (déterministe) E(Y |X = m) (fonction de m). On note que la condition E(|Y |) < ∞ garantit l’existence de l’espérance conditionnelle E(Y |X). 2.2.1 1o . Propriétés des espérances conditionnelles (cas discret) (Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors, pour tout a ∈ R, b ∈ R, E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.) 2o . Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.) (vu (2.2)). 3o . E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h. 4o . (Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors E(h(Y, X)|X = m) = E(h(Y, m)|X = m). Preuve : On pose Y 0 = h(Y, X), c’est une v.a. discrète qui prend les valeurs h(k, m). Donc, la loi conditionnelle de Y 0 sachant X est donnée par les probabilités P (Y 0 = a|X = m) = P (h(Y, X) = a|X = m) = = P (h(Y, X) = a, X = m) P (X = m) P (h(Y, m) = a, X = m) = P (h(Y, m) = a|X = m). P (X = m) D’où pour tout m fixé E(Y 0 |X = m) = X aP (Y 0 = a|X = m) = a X aP (h(Y, m) = a|X = m) = E(h(Y, m)|X = m). a Par conséquent, si h(x, y) = h1 (y)h2 (x), nous avons E(h1 (Y )h2 (X)|X = m) = h2 (m)E(h1 (Y )|X = m), et E(h1 (Y )h2 (X)|X) = h2 (X)E(h1 (Y )|X) (p.s.) . 5o . (Théorème de l’espérance double) Soit E(|Y |) < ∞, alors E(E(Y |X)) = E(Y ). Preuve : On décompose E(E(Y |X)) = X E(Y |X = m)P (X = m) = m = X m,k XX m kP (Y = k, X = m) = X X k k m kP (Y = k|X = m)P (X = m) k P (Y = k, X = m) = X k kP (Y = k) = E(Y ). 26 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Exemple 2.1 Soit ξ et η deux variables aléatoires indépendantes de même loi de Bernoulli, qui prennent les valeurs 1 et 0 avec probabilités p et 1 − p. Quelle est l’espérance conditionnelle E(ξ + η|η) ? E(η|ξ + η) ? En utilisant les propriétés 2o et 3o nous avons E(ξ + η|η) = Eξ + η = p + η. On utilise la définition : pour k = 0, 1, 2, E(η|ξ + η = k) = 1 · P (η = 1|ξ + η = k) = Donc E(η|ξ + η) = 2.3 ξ+η 2 0, 1/2, 1, k = 0, k = 1, k = 2. (p.s.). Conditionnement comme une projection Considèrons l’ensemble des toutes les variables aléatoires ξ sur (Ω, F, P ) telles que E(ξ 2 ) < ∞. On dit que ξ ∼ ξ 0 si ξ = ξ 0 (p.s.). par rapport à la mesure P . Ceci définit l’ensemble des classes d’équivalence sur les variables aléatoires telles que E(ξ 2 ) < ∞. Définition 2.2 On note L2 (P ) l’espace des (classes d’équivalence de) variables aléatoires ξ de carré intégrables (E(ξ 2 ) < ∞). L’espace L2 (P ) qu’on vient de définir est un espace de Hilbert muni du produit scalaire hX, Y i = E(XY ), X, Y ∈ L2 (P ), et de la norme respective kXk = [E(X 2 )]1/2 , X ∈ L2 (P ). En effet, h·, ·i vérifie les axiomes du produit scalaire : pour tous X, ξ, η ∈ L2 (P ) et a, b ∈ R haξ + bη, Xi = E([aξ + bη]X) = aE(ξX) + bE(ηX) = ahξ, Xi + bhη, Xi, et hX, Xi ≥ 0 ; hX, Xi = 0 implique X = 0 (p.s.). 2.3.1 Meilleure prévision Si les variables X et Y sont indépendantes la connaissance de la valeur prise par X n’ajoute aucune information sur celle de Y . Mais si X et Y sont dépendantes et si on connaı̂t la réalisation de X, ça nous apporte une information sur Y . On pose le problème de meilleure prévision de Y étant donnée X de façon suivante : Soit Y ∈ L2 (P ) et soit X une v.a. sur (Ω, F, P ). Trouver une fonction mesurable (borélienne) g(·) telle que kY − g(X)k = min kY − h(X)k, h(·) (2.3) où le minimum est récherché entre toutes les fonction mesurables (boréliennes) h(·) et k · k est la norme de L2 (P ). La variable aléatoire Yb = g(X) est dite la meilleure prévision de Y étant donné X. 2.3. CONDITIONNEMENT COMME UNE PROJECTION 27 On utilise le vocabulaire (statistique ou para-statistique) : X est dite variable explicative ou prédicteur, Y est dite variable expliquée. On peut écrire (2.3) sous la forme équivalente : E((Y − g(X))2 ) = min E((Y − h(X))2 ) = h(·) min h(X)∈LX 2 (P ) E((Y − h(X))2 ). Il suffit de considérer le cas h(X) ∈ L2 (P ), car la solution g(·) de (2.3) est automatiquement dans L2 (P ). On peut considérer (2.3) comme le problème de projection orthogonale de Y sur le sousespace linéaire LX 2 (P ) de L2 (P ) défini par 2 LX 2 (P ) = {ξ = h(X) : E(h (X)) < ∞}. Par les propriétés de projection orthogonale, g(X) ∈ LX 2 (P ) est la solution de (2.3) si et seulement si hY − g(X), h(X)i = 0 pour tout h(X) ∈ LX 2 (P ), Y g(X) LX(P) 2 et la projection orthogonale g(X) est unique (p.s.). En passant à la notation avec les espérances, on écrit la précedente formule comme E((Y − g(X))h(X)) = 0 pour tout h(X) ∈ LX 2 (P ), ou bien, E(Y h(X)) = E(g(X)h(X)) pour tout h(X) ∈ LX 2 (P ). (2.4) E(Y I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tout A ∈ B (borélien). (2.5) En particulier, Remarque. En effet, (2.5) implique (2.4), et donc (2.4) et (2.5) sont équivalents – on se P rappelle que toute fonction de L2 peut être approximée par des sommes de type i ci I{x ∈ Ai } (fonction-escalier). On va montrer maintenant que dans le cas discret la seule variable aléatoire g(X) qui vérifie (2.4) (et (2.5)), et donc résout le problème de meilleure prévision (2.3), est l’espérance conditionnelle de Y sachant X. 28 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Proposition 2.1 Soit X et Y v.a. discrètes, Y ∈ L2 (P ). Alors la meilleure prévision Yb de Y étant donnée X est unique (p.s.) et définie par Yb = g(X) = E(Y |X). Preuve : E (E(Y |X)h(X)) = X E(Y |X = k)h(k)P (X = k) k = " X X k = X # mP (Y = m|X = k) h(k)P (X = k) m m h(k)P (Y = m, X = k) = E(Y h(X)). k,m Donc (2.4) est vérifié avec g(X) = E(Y |X). Comme la projection orthogonale est unique (p.s.), la meilleure prévision est unique (p.s.) aussi. 2.4 Probabilité et espérance conditionnelle (Cas général) On peut étendre la définition de l’espérance conditionnelle E(Y |X) au cas de 2 variables aléatoires X et Y générales. On utilise la définition suivante : Définition 2.3 Soient Y et X deux variables aléatoires telles que E(|Y |) < ∞. L’espérance conditionnelle g(X) = E(Y |X) est une variable aléatoire mesurable par rapport à X qui vérifie E(Y I{X ∈ A}) = E(g(X)I{X ∈ A}) (2.6) pour tout ensemble borélien A. Remarque : ici on passe de l’hypothèse Y ∈ L2 (P ) (≡ E(Y 2 ) < ∞) à l’hypothèse plus faible E(|Y |) < ∞. On peut démontrer (voir le cours de probabilités) que la fonction g(X) qui vérifie (2.6) existe et elle est unique (p.s.) (conséquence du Théorème de Radon-Nikodym). Si Y ∈ L2 (P ), l’existence et l’unicité p.s. de la fonction g(X) vérifiant (2.6) est une conséquence des propriétés de projection orthogonale dans L2 comme on a déjà vu. Théorème 2.1 (de meilleure prévision) Soient X et Y v.a., Y ∈ L2 (P ). Alors la meilleure prévision de Y étant donné X est unique (p.s.) et elle est égale à Yb = g(X) = E(Y |X). 2.4. PROBABILITÉ ET ESPÉRANCE CONDITIONNELLE (CAS GÉNÉRAL) 2.4.1 29 Probabilité conditionnelle Considérons le cas particulier suivant : on remplace Y par Y 0 = I{Y ∈ B}. Notons que la variable Y 0 est bornée (|Y 0 | ≤ 1) et donc E(|Y 0 |2 ) < ∞. On peut définir l’espérance conditionnelle g(X) = E(Y 0 |X) par la relation (cf. (2.6)) E (I{Y ∈ B}I{X ∈ A}) = E(g(X)I{X ∈ A}) pour tous A, B ∈ B. Définition 2.4 La probabilité conditionnelle P (Y ∈ B|X) est la variable aléatoire qui vérifie P (Y ∈ B, X ∈ A) = E [P (Y ∈ B|X)I{X ∈ A}] pour tout A ∈ B Comme dans le cas discret on définit également la fonction numérique : Définition 2.5 La fonction de deux variables P (Y ∈ B|X = x), B ∈ B (un ensemble borélien) et x ∈ R est dite probabilité conditionnelle de Y sachant que X = x si (i) pour tout B fixé P (Y ∈ B|X = x) vérifie P (Y ∈ B, X ∈ A) = Z P (Y ∈ B|X = x)dFX (x); (2.7) A (ii) pour tout x fixé P (Y ∈ B|X = x) est une loi de probabilités comme fonction de B. Remarque : on sait déjà que pour tout B ∈ B il existe une fonction gB (x) = P (Y ∈ B|X = x) t.q. (i) est vérifié. Mais cette fonction est définie modulo les valeurs sur un ensemble NB de mesure nulle. Il est important que, généralement, cet ensemble dépend de B. Donc il est possible S que N = B∈B NB soit de mesure > 0. Les dégâts pourraient être considérables : par exemple, l’additivité de la mesure de probabilités pourrait être violée, etc. Heureusement, dans notre cas (v.a. réelles et tribu borélienne) il existe le théorème (de Kolmogorov) qui dit qu’on peut choisir une version de la fonction gB (·) telle que P (Y ∈ B|X = x) soit une mesure de probabilités pour tout x ∈ R fixé. Dans la suite on suppose que cette version est choisie dans chaque cas particulier. On peut définir également la fonction réelle de x : E(Y |X = x) = Z yP (dy|X = x). telle que E(Y I{X ∈ A}) = Z E(Y |X = x)dFX (x), pour tout A ∈ B. A 2.4.2 1o . Propriétés de l’espérance conditionnelle (cas général) (Linéarité.) Soit E(|Y1 |) < ∞, E(|Y2 |) < ∞, alors E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.) 30 CHAPITRE 2. RÉGRESSION ET CORRÉLATION 2o . Si X et Y sont indépendantes et E(|Y |) < ∞, alors E(Y |X) = E(Y ) (p.s.) Preuve : Vu la définition (2.6) il suffit de montrer que E(Y I{X ∈ A}) = E (E(Y )I{X ∈ A}) , pour tout A ∈ B. (2.8) Mais E (E(Y )I{X ∈ A}) = E(Y )P (X ∈ A), et donc (2.8) est une conséquence de l’indépendance de X et Y . 3o . E(h(X)|X) = h(X) (p.s.) pour toute fonction borélienne h. 4o . (Théorème de substitution.) Si E(|h(Y, X)|) < ∞, alors E(h(Y, X)|X = x) = E(h(Y, x)|X = x). 5o . (Théorème de l’espérance double) E(E(Y |X)) = E(Y ). Preuve : On pose A = R dans la définition (2.6), alors I(X ∈ A) = 1, et on obtient le résultat désiré. 2.5 Conditionnement : cas continu On suppose maintenant qu’il existe une densité jointe fX,Y (x, y) du couple (X, Y ). Posons ( f (x,y) X,Y fY |X (y|x) = fX (x) , si fX (x) > 0, si fX (x) = 0. 0, Proposition 2.2 Si la densité jointe de (X, Y ) existe, alors P (Y ∈ B|X = x) = Z B fY |X (y|x)dy pour tout B ∈ B. Preuve : Il suffit de montrer (cf. (2.7)) que pour tous A, B ∈ B P (Y ∈ B, X ∈ A) = Z Z A B fY |X (y|x)dy dFX (x). Comme X possède une densité, dFX (x) = fX (x)dx. Par le Théorème de Fubuni Z Z A B Z Z fY |X (y|x)dyfX (x)dx = B A fY |X (y|x)fX (x) dxdy Mais fY |X (y|x)fX (x) = fX,Y (x, y) presque partout (si fX (x) = 0, alors fX,Y (x, y) = 0 a fortiori). Donc la dernière somme est égale à Z Z B A fX,Y (x, y)dxdy = P (X ∈ A, Y ∈ B). 2.5. CONDITIONNEMENT : CAS CONTINU 31 Le résultat de Proposition 2.2 nous permet de calculer directement l’espérance conditionnelle : Corollaire 2.1 2. R∞ 1. E(Y |X = x) = −∞ fY |X (y|x)dy R yfY |X (y|x)dy, = 1, 3. Y ⊥⊥X ⇒ fY |X (y|x) = fY (y). On peut définir, comme dans le cas discret, la fonction de variance conditionnelle : V ar(Y |X = x) = E(Y 2 |X = x) − (E(Y |X = x))2 Z ∞ = −∞ 2 Z ∞ 2 y fY |X (y|x)dy − −∞ yfY |X (y|x)dy . Exemple 2.2 Soit X et Y des variables indépendantes i.i.d. de loi exponentielle. Calculons la densité conditionnelle f (x|z) = fX|X+Y (x|z) et E(X|X + Y ). Soit f (u) = λe−λu I{u > 0} la densité de X et Y . Si z < x Z z−u Z z f (v)dudv, f (u) P (X + Y < z, X < x) = P (X + Y < z, X < z) = 0 0 et si z ≥ x, Z z−u Z x f (v)dudv. f (u) P (X + Y < z, X < x) = 0 0 Par conséquence, pour z ≥ x la densité jointe de couple (X + Y, X) est (cf. (2.1)) f (z, x) = ∂ 2 P (X + Y < z, X < x) = f (z − x)f (x) = λ2 e−λz . ∂x∂z Par ailleurs, la densité de X + Y est la convolution de deux densités exponentielles, i.e. fX+Y (z) = λ2 ze−λz . On obtient fX|X+Y (x|z) = 1 f (z, x) = . fX+Y (z) z pour 0 ≤ x ≤ z et fX|X+Y (x|z) = 0 pour x > z. Alors, la densité conditionnelle est la densité d’une loi uniforme sur [0, z]. On obtient donc E(X|Z) = (X + Y )/2 (p.s.). Cet exemple est lié au modèle du flux de demandes arrivant vers un système de service. Soit X l’instant où la 1ère demande arrive (l’instant t = 0 est marqué par l’arrivée de la demande numéro zéro), Y l’intervalle de temps entre les arrivées de la 1ère et la 2ème demande. Alors on cherche la densité de probabilité de l’instant de la 1ère demande sachant que la seconde est arrivée à l’instant z. 32 CHAPITRE 2. RÉGRESSION ET CORRÉLATION 2.6 Covariance et corrélation Soient X et Y v.a. de carré intégrables, i.e. E(X 2 ) < ∞ et E(Y 2 ) < ∞. Dans la suite on note 2 σX = Var(X), σY2 = Var(Y ). Définition 2.6 La covariance entre X et Y est la valeur Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ). Si Cov(X, Y ) = 0 on dit que X et Y sont orthogonales (on note X ⊥ Y ). 2 > 0 et σ 2 > 0. La corrélation entre X et Y est la valeur Définition 2.7 Soit σX Y Corr(X, Y ) = ρXY = 2.6.1 1. 2. 3. 4. 5. Cov(X, Y ) . σX σY Propriétés de covariance et de corrélation Les rélations ci-dessous sont des conséquences immédiates de la Définition 2.6. Cov(X, X) = Var(X). Cov(aX, bY ) = abCov(X, Y ), a, b ∈ R. Cov(X + a, Y ) = Cov(X, Y ), a ∈ R. Cov(X, Y ) = Cov(Y, X). Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(Y, X). En effet, Var(X + Y ) = E((X + Y )2 ) − (E(X) + E(Y ))2 = E(X 2 ) + E(Y 2 ) + 2E(XY ) − E 2 (X) − E 2 (Y ) − 2E(X)E(Y ). 6. Si X et Y sont indépendantes, Cov(X, Y ) = 0. Important : la réciproque n’est pas vraie, par exemple, si X ∼ N (0, 1) et Y = X 2 , alors Cov(X, Y ) = E(X 3 ) − E(X)E(X 2 ) = E(X 3 ) = 0. (N (0, 1) est symétrique par rapport à 0). Passons au propriétés de corrélation : 1. −1 ≤ ρXY ≤ 1 (l’inégalité de Cauchy-Schwarz) |Cov(X, Y )| = E ((X − E(X))(Y − E(Y ))) ≤ q q E((X − E(X))2 ) E((Y − E(Y ))2 ) = σX σY 2. Si X et Y sont indépendantes, ρXY = 0. 3. |ρXY | = 1, si et seulement si il existe un lien linéaire déterministe entre X et Y : il existent a 6= 0, b ∈ R tels que Y = aX + b. 2.7. RÉGRESSION 33 Preuve : On remarque que |ρXY | = 1, ssi l’égalité est atteinte dans l’inégalité de CauchySchwarz. D’après la Proposition 1.4, ce n’est possible que s’il existent α, β ∈ R tels que α(X − E(X)) + β(Y − E(Y )) = 0 (p.s.), et soit α 6= 0 ou β 6= 0. Ceci est équivalent à l’existence de α, β et γ ∈ R tels que αX + βY + γ = 0 (p.s.), avec α 6= 0 ou β 6= 0. Si α 6= 0 et β 6= 0 on a γ α Y =− X− , β β β γ X=− Y − , α α La situation quand α = 0 ou β = 0 est impossible, car cela veut dire qu’une de variables Y ou X est constante (p.s.). Mais nous avons supposé que σX et σY sont positives. On remarque que si Y = aX + b, a, b ∈ R, a 6= 0, 2 σY2 = E((Y − E(Y ))2 ) = a2 E((X − E(X))2 ) = a2 σX . Et la covariance, 2 Cov(X, Y ) = E ((X − E(X))a(X − E(X))) = aσX , aσ 2 a X = |a| . On dit que la corrélation est positive entre X et Y si ρXY > 0 et d’où ρXY = σX |a|σ X négative si ρXY < 0. La corrélation ci-dessus est donc positive (= 1) si a > 0 et négative (= −1) si a < 0. Interprétation géométrique de la corrélation Soit h·, ·i le produit scalaire et k·k la norme de L2 (P ). Alors, Cov(X, Y ) = hX − E(X), Y − E(Y )i et ρXY = hX − E(X), Y − E(Y )i . kX − E(X)k kY − E(Y )k Autrement dit, ρXY est le “cosinus de l’angle” entre X − E(X) et Y − E(Y ). Donc, ρXY = ±1 veut dire que X − E(X) et Y − E(Y ) sont collinéaires : Y − E(Y ) = a(X − E(X)) pour a 6= 0. 2.7 Régression Définition 2.8 Soit X et Y deux variables aléatoires t.q. E(|Y |) < ∞. La fonction g : R → R définie par g(x) = E(Y |X = x) s’appelle la fonction de régression de Y sur X (de Y en X). On parle également d’une régression simple (le mot simple signifie que X et Y sont univariées). Si X ou Y sont multi-dimensionnels, on parle d’une régression multiple. 34 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Interprétation géometrique. On rappelle la construction du paragraphe 2.3. Supposons que Y est un élement de l’espace de Hilbert L2 (P ) (c’est-à-dire E(Y 2 ) < ∞) et soit, comme avant, LX 2 (P ) le sous-espace linéaire de l’espace L2 (P ) constitué de toutes fonctions h(X) mesurables par rapport à X et telles que E(h2 (X)) < ∞. Alors g(X) est la projection orthogonale de Y sur LX 2 (P ). Y E(Y|X) LX(P) 2 On peut introduire la variable aléatoire ξ = Y − g(X) dite l’erreur stochastique (ou le résidu). Alors Y = g(X) + ξ. (2.9) Par définition de l’espérance conditionnelle E(ξ|X) = 0 (p.s.), et donc E(ξ) = 0. Exemple 2.3 Soit la densité jointe de X et Y f (x, y) = (x + y)I{0 < x < 1, 0 < y < 1}. Quelle est la fonction de régression g(x) = E(Y |X = x) ? On utilise le Corollaire 2.1 : fY |X (y|x) = f (x, y) ; où fX (x) = fX (x) Z 1 f (x, y)dy = (x + 1/2)I{0 < x < 1}. 0 D’où fY |X (y|x) = x+y I{0 < x < 1, 0 < y < 1}, x + 1/2 et g(x) = E(Y |X = x) = Z 1 0 yfY |X (y|x)dy = Z 1 y(x + y) 0 x+ pour 0 < x < 1. On observe que g(x) est une fonction non-linéaire de x. 1 2 dy = 1 2x + 13 x + 21 2.7. RÉGRESSION 2.7.1 35 Variance résiduelle L’erreur quadratique de l’approximation de Y par g(X) est la valeur suivante : ∆ = E((Y − g(X))2 ) = E (Y − E(Y |X))2 = E(ξ 2 ) = Var(ξ). On appelle ∆ la variance résiduelle. La variance résiduelle est plus petite que la variance de Y . En effet, supposons que h(X) = E(Y ) = const. D’après le théorème de meilleure prévision, ∆ = E (Y − g(X))2 ≤ E (Y − h(X))2 = E((Y − E(Y ))2 ) = Var(Y ). Comme E(Y ) est un élement de LX 2 (P ), géométriquement, cela signifie que la longueur d’une cathète est plus petite que celle de l’hypothénuse : Y X L2 (P) E(Y|X) E(Y) L Notons que l’espace de toutes les v.a. constantes L est aussi un sous-espace de linéaire de L2 (P ). En plus, c’est une intersection de tous les sous-espaces LX 2 (P ) pour tout X. Mais on sait déjà que E(Y ) est la projection de Y sur L : en effet, pour toute constante a E((Y − a)2 ) ≥ E((Y − E(Y ))2 ) (voir Exercice 1.11). Le Théorème de Pythagore donne kY − E(Y )k2 = kE(Y |X) − E(Y )k2 + kY − E(Y |X)k2 , ou bien Var(Y ) = E((Y − E(Y ))2 ) = E (E(Y |X) − E(Y ))2 + E (Y − E(Y |X))2 = Var (E(Y |X)) + E (Var(Y |X)) = “variance expliquée par X” + “variance résiduelle” = Var(g(X)) + Var(ξ) = Var(g(X)) + ∆. Définition 2.9 Soit Var(Y ) > 0. On appelle rapport de corrélation de Y à X la valeur positive η 2 = ηY2 |X donnée par ηY2 |X Var(g(X)) E E(Y ) − E(Y |X))2 = . Var(Y ) Var(Y ) = 36 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Notons que, par le Théorème de Pythagore, ηY2 |X E (Y − g(X))2 =1− . Var(Y ) Interprétation gómetrique. Le rapport de corrélation ηY2 |X est le cosinus carré de l’angle θ entre Y − E(Y ) et E(Y |X) − E(Y ), donc 0 ≤ ηY2 |X ≤ 1. Remarques. 2 1. De façon générale, ηX|Y 6= ηY2 |X (manque de symétrie). 2. η 2 = 0 et η 2 = 1 correspondent à des valeurs remarquables : η 2 = 1 implique que E((Y −E(Y |X))2 ) = 0, donc Y = g(X) (p.s.), autrement dit, Y est liée fonctionnellement à X. Sinon, η 2 = 0 signifie que E((E(Y ) − E(Y |X))2 ) = 0 et E(Y |X) = E(Y ) (p.s.), donc la régression est constante. Il est utile de noter que g(X) = const implique l’orthogonalité de X et Y (c’est-à-dire, Cov(X, Y ) = 0). 2 > 0, σ 2 > 0. Alors, Proposition 2.3 Soit E(X 2 ) < ∞, E(Y 2 ) < ∞ et σX Y ηY2 |X ≥ ρ2XY . Preuve : Vu la définition de ηY2 |X , il suffit de montrer que E (E(Y ) − E(Y |X))2 Var(X) ≥ [E((X − E(X))(Y − E(Y )))]2 . Par le Théorème de l’espérance double : E((X−E(X))(Y −E(Y ))) = E ((X − E(X))E((Y − E(Y )|X)) = E ((X − E(X))(E(Y |X) − E(Y ))) . Maintenant, en appliquant l’inégalité de Cauchy-Schwarz on obtient [E((X − E(X))(Y − E(Y )))]2 ≤ E((X − E(X))2 )E (E(Y |X) − E(Y ))2 = Var(X)E (E(Y |X) − E(Y ))2 (2.10) Remarques. — ηY2 |X = 0 implique que ρXY = 0. — La variance résiduelle peut être exprimée en termes du rapport de corrélation : ∆ = (1 − ηY2 |X )Var(Y ). (2.11) 2.8. RÉGRESSION LINÉAIRE 2.8 37 Régression linéaire Le cas particulier E(Y |X = x) = a + bx s’appelle régression linéaire. En utilisant (2.9), on écrit Y = a + bX + ξ où ξ est le résidu, E(ξ|X) = 0 (p.s.) (⇒ E(ξ) = 0). Soit ρ = ρXY et σX > 0, σY > 0 le coefficient de corrélation entre X et Y et les écart-types de X et Y . On peut exprimer les coefficients de la régression linéaire a et b en termes de ρ, σX et σY .En effet, Y − E(Y ) = b(X − E(X)) + ξ. En multipliant cette équation par X − E(X) et en prenant l’espérance, on obtient 2 Cov(X, Y ) = bVar(X) = bσX , d’òu b= σY Cov(X, Y ) =ρ . 2 σX σX Alors, Y =a+ρ σY X + ξ. σX Mais E(Y ) = a + ρ et donc a = E(Y ) − ρ σY E(X) σX σY E(X). σX Finalement, Y = E(Y ) + ρ σY (X − E(X)) + ξ. σX (2.12) 2 > 0, Var(Y ) = σ 2 > 0 et la Proposition 2.4 Si E(X 2 ) < ∞ et E(Y 2 ) < ∞, Var(X) = σX Y fonction de régression g(x) = E(Y |X = x) est linéaire, alors elle s’écrit sous la forme E(Y |X = x) = E(Y ) + ρ σY (x − E(X)) σX (2.13) et la variance résiduelle est ∆ = (1 − ρ2 )σY2 , (2.14) où ρ est le coefficient de corrélation entre X et Y . Preuve : L’égalité (2.13) est une conséquence immédiate de (2.12) et du fait que E(ξ|X = x) = 0. Montrons (2.14). On écrit (2.12) sous la forme ξ = (Y − E(Y )) − ρ σY (X − E(X)). σX 38 CHAPITRE 2. RÉGRESSION ET CORRÉLATION En prenant le carré des deux côtés et ensuite l’espérance, on obtient " σY σY (X − E(X))(Y − E(Y )) + ρ ∆ = E(ξ ) = E (Y − E(Y )) − 2ρ σX σX 2 2 = ρ2 2 # 2 (X − E(X)) σY2 σY Cov(X, Y ) + Var(Y ) = (1 − ρ2 )σY2 . Var(X) − 2ρ 2 σX σX Corollaire 2.2 Si la régression de Y en X est linéaire, sous les hypothèses de Proposition 2.4 on a ηY2 |X = ρ2XY . Autrement dit, pour la régression linéaire le rapport de corrélation est égal à la corrélation entre 2 X et Y . (En particulier, ceci implique ρXY = 0 ⇔ ηY2 |X = 0 et ηY2 |X = ηX|Y =.) 2 2 La réciproque est aussi vraie : en effet, si ρXY = ηY |X , alors la régression est linéaire. Preuve : Nous avons, grâce à (2.11) : ∆ = (1 − ηY2 |X )Var(Y ), mais dans le cas linéaire, de plus, ∆ = (1 − ρ2 )Var(Y ), d’après (2.14). Pour démontrer la réciproque, on note que si l’égalité est atteinte dans l’inégalité de Cauchy-Schwarz (2.10), alors il existe α 6= 0 tel que α(X − E(X)) = E(Y |X) − E(Y ), et donc E(Y |X) = E(Y ) + α(X − E(X)). Remarque : le fait que la régression de Y sur X est linéaire n’implique pas (en cas général) que celle de X sur Y soit linéaire, elle aussi. Exercice 2.1 Nous avons X et Z, deux v.a. indépendantes de loi exponentielle, X ∼ E(λ), Z ∼ E(1). Soit Y = X + Z. Calculer la fonction de régression g(y) = E(X|Y = y). 2.9. EXERCICES 2.9 39 Exercices Exercice 2.2 Soit la distribution jointe de X et Y donnée par ( F (x, y) = 1 − e−2x − e−y + e−(2x+y) si x > 0, y > 0, 0 sinon. 1. Déterminer la distribution marginale de X et Y . 2. Calculer la densité conjointe de X et Y . 3. Calculer les densités marginales de X et Y , la densité conditionnelle de X sachant Y = y. 4. X et Y sont-ils indépendants ? Exercice 2.3 Considérons la fonction de densité conjointe de X et Y donnée par : 6 xy f (x, y) = (x2 + ), 0 ≤ x ≤ 1, 0 ≤ y ≤ 2. 7 2 1. Vérifier qu’il s’agit bien d’une fonction de densité conjointe. 2. Déterminer la fonction de densité de X, la densité conditionnelle fY |X (y|x). 3. Trouver P Y > 12 |X < 1 2 . Exercice 2.4 La fonction de densité de X et Y est donnée par : f (x, y) = e−(x+y) , 0 ≤ x < ∞, 0 ≤ y < ∞ Trouver : 1. P (X < Y ) ; 2. P (X < a). Exercice 2.5 Deux points sont choisis sur un segment de longueur L, de manière à ce qu’ils soient de part et d’autre du milieu du segment. En d’autres termes, les deux points X et Y sont des variables aléatoires indépendantes telles que X soit uniformément distribué sur [0, L/2[ et Y soit uniformément distribué sur [L/2, L]. Trouver la probabilité que la distance entre les deux points soit plus grande que L/3. Exercice 2.6 Soit U1 et U2 deux v.a. indépendantes, toutes deux distribuées uniformément sur [0, a]. Soit V = min{U1 , U2 } et Z = max{U1 , U2 }. Montrer que la f.d.r. conjointe F de V et Z est donnée par t2 − (t − s)2 F (s, t) = P (V ≤ s, Z ≤ t) = pour 0 ≤ s ≤ t ≤ a. a2 Indication : notez que V ≤ s et Z ≤ t arrive exactement quand U1 ≤ t et U2 ≤ t toutes les deux, mais pas quand s < U1 ≤ t et s < U2 ≤ t toutes les deux. 40 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Exercice 2.7 Si X1 et X2 sont des variables aléatoires exponentielles indépendantes avec paramètres respectifs λl et λ2 , trouver la distribution de Z = X1 /X2 . Calculer aussi P (X1 < X2 ). Exercice 2.8 Soit X et Y des variables aléatoires indépendantes de même loi. Utiliser la définition pour démotrer que que E(X|X +Y ) = E(Y |X +Y ) (p.s.), et donc E(X|X +Y ) = E(Y |X +Y ) = X+Y 2 (p.s.). Exercice 2.9 Soient X, Y1 et Y2 les variables aléatoires indépendantes, Y1 et Y2 sont normales N (0, 1), et Y1 + XY2 . Z= √ 1 + X2 Utiliser la loi conditionnelle P (Z < u|X = x) pour montrer que Z ∼ N (0, 1). Exercice 2.10 Soient X et Y deux variables aléatoires sur (Ω, F, P ) et de carré intégrable. Montrer que Var(Y ) = E(Var(Y |X)) + Var(E(Y |X)). Exercice 2.11 Soient X1 , ..., Xn des v.a. indépendantes de lois respectives P(λi ) (loi de Poisson de paramètre λk λi , i.e. P (Xi = k) = e−λi k!i ). P 1o . Déterminer la loi de X = ni=1 Xi . 2o . Montrer que la loi de (X1 , ..., Xn ) conditionnellement à X = r est une loi multinômiale M(r, p1 , ..., pn ) dont on déterminera les paramètres. Rappel : Les variables (X1 , ..., Xk ) à valeurs entières entre 0 et r suivent la loi multinômiale M(r, p1 , ..., pk ) si r! P (X1 = n1 , ..., Xk = nk ) = pn1 ...pnk k , n1 !...nk ! 1 avec Pk i=1 ni = r. Cette loi décrit les variables (X1 , ..., Xk ), Xi = “nombre de Y s qui valent i” dans n expériences indépendantes Y1 , ..., Yr de loi P (Y1 = i) = pi , i = 1, ..., k. Notons que si k = 2, P (X1 = n1 , X2 = r − n1 ) = P (X1 = n1 ), et la loi est noté M(r, p). 3o . Calculer E(X1 |X1 + X2 ). 4o . Montrer que si Xn suit une loi binômiale B(n, λ/n), alors, pour tout entier k, P (Xn = k) k tend vers e−λ λk! quand n → ∞. 2.9. EXERCICES 41 Rappel : la loi binômiale décrit la distribution de nombre de succès X dans n tirages indépendantes d’une loi de Bernouilli : P (X = k) = Cnk pk (1 − p)n−k . Exercice 2.12 Démontrer 1. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z), 2. Cov P n i=1 Xi , Pn j=1 Yj = Pn i=1 Pn j=1 Cov(Xi , Yj ). 3. Montrer que si Var(Xi ) = σ 2 et Cov(Xi , Xj ) = γ pour tous 1 ≤ i, j ≤ n, alors Var(X1 + ... + Xn ) = nσ 2 + n(n − 1)γ. 4. Soit ξ1 et ξ2 les variables aléatoires i.i.d. avec 0 < Var(ξ1 ) < ∞. Montrer que les v.a. η1 = ξ1 − ξ2 et η2 = ξ1 + ξ2 sont non-corrélées. Exercice 2.13 Soit X le nombre de 1 et Y le nombre de 2 apparaissant lors de n jets d’un dé équilibré. Calculer Cov(X, Y ). Avant de faire le calcul, sauriez-vous dire si Cov(X, Y ) ≥ 0 ou Cov(X, Y ) ≤ 0. Indication : Utiliser pour cela la relation 2) de l’exercice 2.12. Exercice 2.14 1o . Soit ξ et η des variables aléatoires avec E(ξ) = E(η) = 0, Var(ξ) = Var(η) = 1 et le coefficient de corrélation ρ. Montrer que E(max(ξ 2 , η 2 )) ≤ 1 + q 1 − ρ2 . Indication : on remarque que max(ξ 2 , η 2 ) = |ξ 2 + η 2 | + |ξ 2 − η 2 | . 2 2o . Soit ρ le coefficient de corrélation de η et ξ. Démontrer l’inégalité suivante : q q P |ξ − E(ξ)| ≥ Var(ξ) ou |η − E(η)| ≥ Var(η) ≤ 1+ p 1 − ρ2 . 2 Exercice 2.15 Soit (X, Y ) un vecteur aléatoire de dimension 2. On suppose que Y suit la loi N (m, τ 2 ) et que la loi de X sachant Y = y est la loi N (y, σ 2 ). 1o . Quelle est la loi de Y sachant X = x ? 2o . Quelle est la loi de X ? 3o . Quelle est la loi de E(Y |X) ? Exercice 2.16 42 CHAPITRE 2. RÉGRESSION ET CORRÉLATION Soient X et N deux variables aléatoires telles que N prend ses valeurs dans {1, 2, . . .} et E(|X|) < ∞, E(N ) < ∞ . On considère la suite X1 , X2 , . . . des variables indépendantes de même loi que X. Montrer l’identité de Wald : si N est indépendante des Xi , alors N X E( Xi ) = E(N )E(X). i=1 Exercice 2.17 Le salaire désiré d’un individu s’écrit Y ∗ = Xb + σε, où σ > 0, b ∈ R, X une variable aléatoire admettant des moments d’ordre 2 mesurant la capacité de l’individu, ε est indépendante de X et de loi N (0, 1). Si Y ∗ est plus grand que le SMIC S, alors le salaire reçu Y est Y ∗ , et S sinon. Calculer E(Y |X). Cette espérance est-elle linéaire ? Exercice 2.18 Montrer que si φ est une fonction caractéristique d’une v.a. réelle, alors φ∗ , |φ|2 et Re(φ), sont aussi des fonction caractéristiques. Indication : pour Re(φ) on pourra considérer deux variables X et Y indépendantes, où Y prend les valeurs −1 et 1 avec la même probabilité 1/2, et X a φ comme fonction caractéristique, et on calculera la fonction caractéristique de XY . Chapitre 3 Vecteurs aléatoires. Loi normale multivariée 3.1 Vecteurs aléatoires (rappel) Soit X = (ξ1 , ..., ξp )T un vecteur aléatoire 1 , où ξ1 , ..., ξp sont des variables aléatoires univariées. De la même façon on forme des matrices aléatoires : ξ11 , ... ξ1q ... Ξ= , ξp1 , ... ξpq où ξ11 , ..., ξqp sont des v.a. univariées. La fonction de répartition de vecteur aléatoire X est F (t) = P (ξ1 ≤ t1 , ..., ξp ≤ tp ), t = (t1 , ..., tp )T ∈ Rp . Si F (t) est dérivable par rapport a t, la densité de X (la densité jointe de ξ1 , ..., ξp ) existe et est égale à la dérivée mixte ∂ p F (t) . f (t) = f (t1 , ..., tp ) = ∂t1 , ..., ∂tp Dans ce cas Z t1 Z tp F (t) = ... −∞ 3.1.1 −∞ f (u1 , ..., up )du1 ...dup . Propriétés de densité d’une distribution multivariée ∞ ∞ Nous avons : f (t) ≥ 0, −∞ ... −∞ f (t1 , ..., tp )dt1 ...dtp = 1. La densité marginale de ξ1 , ..., ξk , k < p est (on adopte le symbole f (·) comme notation générique pour les densités) R R Z ∞ f (t1 , ..., tk ) = Attention : nales. Z ∞ ... −∞ −∞ f (t1 , ..., tp )dtk+1 ...dtp . deux vecteurs aléatoires différents peuvent avoir les mêmes distributions margi- 1. Par convention, le vecteur X ∈ Rp×1 est un vecteur colonne. 43 44 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Exemple 3.1 On considère les densités f1 (t1 , t2 ) = 1, et f2 (t1 , t2 ) = 1 + (2t1 − 1)(2t2 − 1), 0 < t1 , t2 < 1. Dans les deux cas, f (t1 ) = R1 0 f (t1 , t2 )dt2 = 1. Comme dans le cas p = 2, la densité conditionnelle de ξ1 , ..., ξk sachant ξk+1 , ..., ξp est f (t1 , ..., tk |tk+1 , ..., tp ) = f (t1 , ..., tp ) . f (tk+1 , ..., tp ) Si X1 et X2 sont deux vecteurs aléatoires, alors fX2 |X1 (x2 |x1 ) = f (x1 , x2 ) . f (x1 ) Indépendance. Supposons que deux vecteurs aléatoires X1 et X2 ont une densité conjointe f (x1 , x2 ). Ils sont indépendants ssi f (x1 , x2 ) = f1 (x1 )f2 (x2 ), où f1 et f2 sont des densités de probabilité. Autrement dit, la densité conditionnelle fX2 |X1 (x2 |x1 ) ne dépend pas de x1 . Comme dans le cas de deux variables aléatoires, l’indépendance est preservée par des transformations mesurables des vecteurs X1 et X2 . 3.1.2 Moments des vecteurs aléatoires Le vecteur µ = (µ1 , ..., µp )T ∈ Rp est la moyenne du vecteur aléatoire X = (ξ1 , ..., ξp )T si Z µj = E(ξj ) = Z ... tj f (t1 , ..., tp )dt1 ...dtp , j = 1, ..., p (on suppose, bien évidemment, que les intégrales ci-dessus existent), on écrit alors µ = E(X). De la même façon on définit l’espérance d’une matrice aléatoire. Comme dans le cas réel, l’espérance est une fonctionnelle linéaire : pour toute matrice A ∈ Rq×p et b ∈ Rq , E(AX + b) = AE(X) + b = Aµ + b. Cette propriété reste valide pour des matrices aléatoires : si Ξ est une matrice p × q aléatoire, A ∈ Rq×p , alors E(AΞ) = AE(Ξ). Matrice Σ de covariance du vecteur aléatoire X est donnée par ∆ Σ = V (X) = E((X − µ)(X − µ)T ) = (σij ) (on note que dans ce cas σij n’est pas forcement positive), une matrice p × p, où σij = E((ξi − µi )(ξj − µj )) = Z Z ... (ti − µi )(tj − µj )f (t1 , ..., tp )dt1 ...dtp . Comme σij = σji , Σ est une matrice symétrique. On peut définir également la matrice de covariance des vecteurs aléatoires X (p × 1) et Y (q × 1) : C(X, Y ) = E((X − E(X))(Y − E(Y ))T ), C ∈ Rp×q . 3.1. VECTEURS ALÉATOIRES (RAPPEL) 45 La matrice de covariance possède les propriétés suivantes : 1o . Σ = E(XX T ) − µµT , où µ = E(X). 2o . Pour tout a ∈ Rp , Var(aT X) = aT V (X)a. Preuve : Notons que par linéarité de l’espérance, Var(aT X) = E((aT X − E(aT X))2 ) = E (aT (X − E(X))2 = E aT (X − µ)(X − µ)T a = aT E (X − µ)(X − µ)T a = aT V (X)a. Comme Var(aT X) ≥ 0, ceci implique que la matrice V (X) est définie-positive. Donc nous avons 3o . Σ ≥ 0. 4o . Soit A une matrice p × q. Alors V (AX + b) = AV (X)AT . Preuve : Désignons Y = AX + b, alors par linéarité de l’espérance, ν = E(Y ) = E(AX + b) = Aµ + b et Y − E(Y ) = A(X − µ). Maintenant, nous avons : V (Y ) = E(A(X − µ)(X − µ)T A) = AV (X)AT (linéarité de nouveau). 5o . 6o . 7o . 8o . C(X, X) = V (X). Dans ce cas C = C T ≥ 0 (matrice positive). C(X, Y ) = C(Y, X)T . C(X1 + X2 , Y ) = C(X1 , Y ) + C(X2 , Y ). Si X et Y sont deux p-vecteurs aléatoires, V (X + Y ) = V (X) + C(X, Y ) + C(Y, X) + V (Y ) = V (X) + C(X, Y ) + C(X, Y )T + V (Y ). 9o . Si X⊥⊥Y , alors C(X, Y ) = 0 (matrice nulle) (l’implication inverse n’est pas vraie). Ceci se démontre comme dans le cas de covariance des v.a. univariées. La matrice de corrélation P de X est donnée par P = (ρij ), 1 ≤ i, j ≤ p avec ρij = √ σij √ σii σjj . On remarque que les éléments diagonaux ρii = 1, i = 1, ..., p. √ Si ∆ est une matrice diagonale avec ∆ii = σii , alors P = ∆−1 Σ∆−1 , et la positivité de Σ implique la positivité de P , i.e. P ≥ 0. 3.1.3 Fonction caractéristique d’un vecteur aléatoire Définition 3.1 Soit X ∈ Rp un vecteur aléatoire. Sa fonction caractéristique pour tout t ∈ Rp est donnée par φX (t) = E exp(itT X) . 46 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Exercice 3.1 p q On montre que les deux vecteurs aléatoires X ∈ ! R et Y ∈ R sont indépendants ssi la fonction ! X a caractéristique φZ (u) du vecteur Z = peut être réprésentée pour tout u = , Y b a ∈ Rp et b ∈ Rq , comme φZ (u) = φX (a)φY (b). Vérifier cette caractérisation dans le cas continu. 3.1.4 Transformations des vecteurs aléatoires Soit h = (h1 , ..., hp )T une transformation, c.-à.-d. une fonction de Rp vers Rp , h(t1 , ..., tp ) = (h1 (t1 , ..., tp ), ..., hp (t1 , ..., tp ))T , t = (t1 , ..., tp )T ∈ Rp . Le Jacobien de la transformation est défini par ! ∂hi (t) Jh (t) = Det ∂tj . i,j Proposition 3.1 (Rappel d’analyse) Supposons que (i) les dérivées partielles de hi (·) sont continues sur Rp , i = 1, ..., p, (ii) h est une bijection, (iii) Jh (t) 6= 0 pour tout t ∈ Rp . Alors, pour toute fonction f (t) telle que Z |f (t)|dt < ∞ Rp et tout ensemble borélien K ⊆ Rp on a Z Z f (t)dt = K h−1 (K) f (h(u))|Jh (u)|du. Remarque : par le théorème de fonction inverse on peut affirmer que sous les conditions de la Proposition 3.1 la fonction inverse g(·) = h−1 (·) existe partout dans Rp et Jh−1 (h(u)) = 1 , Jh (u) ou bien, Jh−1 (t) = 1 Jh (h−1 (t)) . Donc h satisfait les conditions (i) − (iii) de Proposition 3.1 ssi g = h−1 satisfait les mêmes conditions. Nous avons le corollaire suivant de Proposition 3.1 : 3.1. VECTEURS ALÉATOIRES (RAPPEL) 47 Proposition 3.2 Soit Y un vecteur aléatoire avec la densité fY (t), t ∈ Rp . Soit g : Rp → Rp une transformation qui satisfait les hypothèses de Proposition 3.1. Alors, la densité du vecteur aléatoire X = g(Y ) existe et est donnée par fX (u) = fY (h(u))|Jh (u)|, pour tout u ∈ Rp , où h = g −1 . Preuve : Soit X = (ξ1 , ..., ξp )T , v = (v1 , ..., vp )T , et Av = {t ∈ Rp : gi (t) ≤ vi , i = 1, ..., p}. Alors, par la Proposition 3.1 avec h = g −1 et f = fY , la f.d.r. de X est FX (v) = P (ξi ≤ vi , i = 1, ..., p) = P (gi (Y ) ≤ vi , i = 1, ..., p) Z = Z fY (t)dt = Av g(Av ) fY (h(u))|Jh (u)|du. Mais g(Av ) = {u = g(t) ∈ Rp : t ∈ Av } = {u = g(t) ∈ Rp : gi (t) ≤ vi , i = 1, ..., p} = {u = (u1 , ..., up )T ∈ Rp : ui ≤ vi , i = 1, ..., p}. D’où Z vp Z v1 FX (v) = ... −∞ −∞ fY (h(u))|Jh (u)|du pour tout v = (v1 , ..., vp )T ∈ Rp . Ceci implique que la densité de X est fY (h(u))|Jh (u)|. Corollaire 3.1 Si X = AY + b où Y est un vecteur aléatoire sur Rp avec la densité fY et A est une matrice p × p inversible, alors fX (u) = fY (A−1 (u − b)) Det(A−1 ) = fY (A−1 (u − b)) . | Det(A)| Pour vérifier ce résultat il suffit d’utiliser la Proposition 3.2 avec u = g(t) = At + b et donc t = g −1 (u) = h(u) = A−1 (u − b). 3.1.5 Rappel des propriétes des matrices symétriques La matrice A p × p, A = (aij ), i, j = 1, ..., p est symétrique si aij = aji , i, j = 1, ..., p. La matrice Γ p × p est dite orthogonale si Γ−1 = ΓT (ou bien ΓΓT = ΓT Γ = I) (où I est une matrice identité p × p). C.-à.-d. que les colonnes γ·j de Γ sont des vecteur orthogonaux de longueur 1 ; de même pour les lignes γi· de Γ. Bien évidemment, | Det(Γ)| = 1. Nous avons le théorème de décomposition spectrale (de Jordan) : Soit A ∈ Rp×p une matrice symétrique. Alors il existe une matrice orthogonale Γ et la matrice diagonale λ1 0 ... 0 ... ... Λ = Diag(λi ) = , 0 ... 0 λp 48 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE telles que A = ΓΛΓT = p X λi γ·i γ·iT , (3.1) i=1 où γ·i sont les vecteurs propres orthonormés de A : 2 γ·iT γ·j = δij i, j = 1, ..., p, Γ = (γ·1 , ..., γ·p ). Remarques. 1) Même si les valeurs propres d’une matrice symétrique peuvent être multiples, tous les vecteurs propres d’une telle matrice sont différents. 2) On suppose dans la suite que les valeurs propres λi , i = 1, ..., p sont ordonnées : λ1 ≥ λ2 ≥ ... ≥ λp . On dit que γ·1 est le premier vecteur propre de A, c.-à.-d. le vecteur propre correspondant à la valeur propre maximale ; γ·2 est le deuxième vecteur propre, et ainsi de suite. Si toutes les valeurs propres λi , i = 1, ..., p sont non-negatives, on appelle la matrice A semi-définie positive (et définie positive si λi > 0). Autres propriétés utiles de matrices carrées Q P 1o . Det(A) = pi=1 λi , Tr(A) = pi=1 λi . 2o . Det(AB) = Det(A) Det(B), Det(AT ) = Det(A). 3o . Pour les matrices symétriques le calcul des fonctions matricielles est simplifié : par exemple, la puissance As , s ∈ N+ d’une matrice symétrique positive As = ΓΛs ΓT (si la matrice A est positive définie ça marche pour tout s réel). 4o . Det(A−1 ) = Det(A)−1 pour toute matrice A non-dégénerée. 5o . Pour tout s ∈ R et toute matrice A = AT > 0, Det(As ) = Det(A)s (la simple conséquence du fait | det Γ| = 1 pour toute matrice Γ–orthonormée). Projecteurs. Matrice P symétrique telle que P 2 = P (matrice idempotente) s’appelle matrice de projection (ou projecteur, tout simplement). Toutes les valeurs propres de P sont 0 ou 1. Rang(P ) est le nombre de valeurs propres = 1. Autrement dit, il existe une matrice Γ orthogonale telle que ΓT P Γ = I 0 0 0 ! , où I est une matrice identité Rang(P ) × Rang(P ). En effet, soit v un vecteur propre de P , alors P v = λv, où λ est une valeur propre de P . Comme P 2 = P , (λ2 − λ)v = (λP − P )v = (P 2 − P )v = 0. Ceci équivaut à dire que λ = 1 si P v 6= 0. 2. ici δij est l’indice de Kronecker : δij = 1 si i = j, sinon δij = 0. 3.2. ESPÉRANCE CONDITIONNELLE D’UN VECTEUR ALÉATOIRE 3.2 49 Espérance conditionnelle d’un vecteur aléatoire Soit X = (ξ1 , ..., ξp )T et Y = (η1 , ..., ηq )T deux vecteurs aléatoires. On ne s’adresse qu’au cas continu, c.-à.-d. qu’on suppose que la densité conjointe fX,Y (x, y) = fX,Y (t1 , ..., tp , s1 , ..., sq ) existe. Alors, l’espérance conditionnelle E(Y |X) est le q-vecteur aléatoire dont les composantes sont E(η1 |X), ..., E(ηq |X); ici E(ηj |X) = gj (X) (une fonction mesurable de X), et gj (t) = E(ηj |X = t) = Z sj fηj |X=t (sj |t)dsj = Z sj fηj |ξ1 =t1 ,...,ξp =tp (sj |t1 , ..., tp )dsj . On peut vérifier que cette dernière quantité est bien définie si, par exemple, E(|ηj |) < ∞, j = 1, ..., q. Nous pouvons vérifier que toutes les propriétés d’espérance conditionnelle, établies dans le Chapitre 2 restent vraies dans le cas des vecteurs aléatoires (y compris le Théorème de double espérance). De façon analogue, comme dans le cas univarié nous pouvons introduire la matrice de covariance conditionnelle : V (Y |X) = E(Y Y T |X) − E(Y |X)E(Y |X)T . 3.2.1 Théorème de meilleure prévision Soit |a| = q a21 + ... + a2p la norme Euclidienne de Rp . Définition 3.2 Soit X ∈ Rp et Y ∈ Rq deux vecteurs aléatoires, et G une fonction de Rp vers Rq . On dit que Ḡ(X) est la meilleure prévision de Y sachant X (dans le sens de la moyenne quadratique) si E (Y − G(X))(Y − G(X))T ≤ E (Y − H(X))(Y − H(X))T (3.2) (on dit que A ≤ B si la différence B − A est positive définie) pour toutes fonctions mesurables H de Rp vers Rq . Bien évidement, (3.2) implique (pourquoi ?) E(|Y − G(X)|2 ) = inf E(|Y − H(X)|2 ). H(·) où le minimum est pris sur toutes fonctions H(·) mesurables de Rp vers Rq . Comme dans le cas p = q = 1 nous avons Théorème 3.1 Si E(|Y |2 ) < ∞, alors la meilleure prévision de Y sachant X est unique presque sûrement et elle est égale à G(X) = E(Y |X) (p.s.). 50 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Preuve : Il suffit de chercher le minimum parmi les fonctions H(·) telles que E(|H(X)|2 ) < ∞. Pour toute fonction H(X) E (H(X) − Y )(H(X) − Y )T ) = E [(H(X) − G(X)) + (G(X) − Y )][(H(X) − G(X)) + (G(X) − Y )]T = E (H(X) − G(X)(H(X) − G(X))T + E (H(X) − G(X))(G(X) − Y )T +E (G(X) − Y )(H(X) − G(X))T + E (G(X) − Y )(G(X) − Y )T . Mais en utilisant les propriétés d’espérance conditionnelle, nous obtenons : E (H(X) − G(X))(G(X) − Y )T h = E E (H(X) − G(X))(G(X) − Y )T |X h = E (H(X) − G(X))E (G(X) − Y )T |X i i = 0. D’où découle le résultat du théorème. 3.3 Loi normale multivariée Loi normale sur R : on rappele que la loi normale sur R N (µ, σ 2 ) est la loi de densité f (x) = √ 1 (x − µ)2 exp(− ). 2σ 2 2πσ Ici µ est la moyenne et σ 2 est la variance. La fonction caractéristique de la loi normale N (µ, σ 2 ) est σ 2 t2 ), φ(t) = exp(iµt − 2 2 /2 en particulier, pour N (0, 1) on a φ(t) = e−t 3.3.1 . La loi Np (0, I) La loi Np (0, I) est la loi du vecteur aléatoire X = (ξ1 , ..., ξp )T où ξi , i = 1, ..., p sont des variables aléatoires i.i.d. de loi N (0, 1). Propriétés de Np (0, I) : 1o . La moyenne et la matrice de covariance de X sont : E(X) = 0, V (X) = I. 2o . La loi Np (0, I) est absolument continue de densité 1 f (u) = (2π)−p/2 exp(− uT u) 2 p p Y Y 1 = (2π)−p/2 exp(− u2i ) = f0 (ui ), 2 i=1 i=1 3.3. LOI NORMALE MULTIVARIÉE 51 2 où u = (u1 , ..., up )T et f0 (t) = √12π e−t /2 est la densité de N (0, 1). 3o . La fonction caractéristique de Np (0, I) est, par définition, TX φX (a) = E eia =E p Y eiaj ξj j=1 p Y = E eiaj ξj = j=1 p Y −a2j /2 e j=1 1 = exp(− aT a), 2 où a = (a1 , ..., ap )T ∈ Rp . 3.3.2 Loi normale sur Rp Définition 3.3 Le vecteur aléatoire X suit une loi normale sur Rp si et seulement s’il existe une matrice p × p A et un vecteur µ ∈ Rp tels que X = AY + µ, où Y ∼ Np (0, I). Propriétés : 1o . E(X) = µ car E(Y ) = 0. 2o . V (X) = AV (Y )AT = AAT . On désigne Σ = AAT . 3o . La fonction caractéristique TX φX (a) = E eia Tµ = eia E eib T µ− 1 bT b 2 = eia = E eia TY T (AY +µ) (avec b = AT a) T µ− 1 aT Σa 2 = eia . (3.3) Nous avons la caractérisation suivante : Théorème 3.2 Soit φ : Rp → C une fonction à valeurs complexes. Alors, φ est la fonction caractéristique d’une loi normale si et seulement si il existe µ ∈ Rp et une matrice symétrique positive Σ ∈ Rp×p tels que T µ− 1 aT Σa 2 φ(a) = eia , a ∈ Rp . (3.4) Remarque : dans ce cas µ est la moyenne et Σ est la matrice de covariance de la loi normale en question. Preuve : La necessité est démontrée ci-dessus. Pour montrer la suffisance de (3.4) il faut montrer qu’il existe un vecteur aléatoire normal X ∈ Rp tel que φ(·) soit sa fonction caractéristique. 52 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE 1er pas : par le Théorème de décomposition spectrale, il existe une matrice orthogonale Γ telle que ΓT ΣΓ = Λ, où Λ est une matrice diagonale de rang k ≤ p avec les valeurs propres λj , 1 ≤ j ≤ k strictement positives. Alors (cf. (3.1)), Σ= p X λj γ·j γ·jT = j=1 p X a·j aT·j , j=1 p où γ·j sont les colonnes de Γ, et a·j = λj γ·j . Notons que a·j ⊥ a·l pour l 6= j (rappelons nous que γ·j sont des vecteurs orthonormés). 2ème pas : Soit Y ∼ N (0, I). Notons ηj les composantes de Y (Y = (η1 , ..., ηp )T ). On considère le vecteur aléatoire X = η1 a·1 + ... + ηk a·k + µ, alors X = AY + µ, où A est une matrice p × p avec les colonnes aj , j = 1, ..., k : A = (a·1 , ..., a·k , 0, ..., 0). Donc X est un vecteur normal p-varié. Quelle est sa fonction caractéristique ? On va utiliser la propriété 3o ci-dessus (formule (3.3)), il nous suffit de calculer E(X) et V (X). Mais E(X) = µ et V (X) = E (η1 a·1 + ... + ηk a·k )(η1 a·1 + ... + ηk a·k )T = k X a·j aT·k = Σ, j=1 car E(ηl ηj ) = δjl où δjl est le symbole de Kronecker ; et donc par (3.3) la fonction caratéristique de X coı̈ncide avec φ(u) dans (3.4). Le résultat du Théorème 3.2 entraı̂ne la conséquence suivante : toute loi normale dans Rp est entièrement définie par sa moyenne et sa matrice de covariance. Ceci explique la notation : X ∼ N (µ, Σ) pour le vecteur aléatoire X de loi normale avec la moyenne µ et la matrice de covariance Σ = ΣT ≥ 0. On va distinguer deux types principaux des lois normales p-variées : loi normale nondégénérée et la loi normale dégénérée. 3.3.3 Loi normale non-dégénérée C’est une loi normale dans Rp telle que la matrice de covariance Σ est strictement positive, i.e. Σ > 0 (⇔ Det(Σ) > 0). De plus, comme Σ est symétrique et Σ > 0, il existe une matrice symétrique A1 = Σ1/2 (racine carré de Σ) telle que Σ = A21 = AT1 A1 = A1 AT1 . Comme Det(Σ) = [Det(A1 )2 ] > 0, alors Det(A1 ) > 0 et A1 est inversible. Par (3.3), si X ∼ N (µ, Σ), sa fonction caractéristique est 1 T T φX (a) = eia µ− 2 a Σa pour tout a ∈ Rp , et comme Σ = A1 AT1 , on a T µ− 1 aT Σa 2 φX (a) = eia T (A = E eia 1Y +µ) = φA1 Y +µ (a), 3.3. LOI NORMALE MULTIVARIÉE 53 où Y ∼ Np (0, I). Donc X = A1 Y + µ et, comme A1 est inversible, Y = A−1 1 (X − µ). Le Jacobien de cette transformation linéaire est Det(A−1 1 ), et donc la densité de X, par le p Corollaire 3.1, pour tout u ∈ R , −1 fX (u) = Det(A−1 1 )fY (A1 (u − µ)) = 1 = (2π)p/2 p 1 fY (A−1 1 (u − µ)) Det(A1 ) 1 exp − (u − µ)T Σ−1 (u − µ) . 2 Det(Σ) Définition 3.4 On dit que X suit une loi normale non-dégénérée Np (µ, Σ) (avec une matrice de covariance Σ strictement positive) ssi X est un vecteur aléatoire de densité 1 f (t) = 3.3.4 (2π)p/2 1 exp − (t − µ)T Σ−1 (t − µ) 2 Det(Σ) p Loi normale dégénérée C’est une loi normale dans Rp telle que sa matrice de covariance Σ est dégénérée : Det(Σ) = 0 (autrement dit, Rang(Σ) = k < p). Par exemple, on peut considérer Σ = 0, alors la fonction T caractéristique de X ∼ N (µ, 0) est φX (a) = eia µ (par Propriété 3o ) et la loi de X est la fonction de Dirac en µ. Plus généralement, si Rang(Σ) = k ≥ 1, on obtient (cf. la preuve du Théorème 3.2) que tout vecteur X ∼ Np (µ, Σ) peut être réprésenté comme X = AY + µ, où Y ∼ N (0, I), A = (a·1 , ..., a·k , 0, ..., 0) et AAT = Σ, avec Rang(A) = k. Toute composante de X est donc distribuée selon une loi normale univariée (non-dégénérée) ou bien selon une “loi de Dirac”. C’est la conséquence de la proposition suivante : Proposition 3.3 Soit X ∼ Np (µ, Σ) et Rang(Σ) = k < p. Alors, il existe un sous-espace linéaire H ⊂ Rp de dimension p − k tel que la projection aT X de X sur tout vecteur a ∈ H suit une loi de Dirac univariée. Preuve : On a X = AY + µ où AAT = Σ, Rang(A) = k, Soit H = Ker(AT ) de dimension dim (H) = p − k. Si a ∈ H, alors on obtient AT a = 0 et Σa = 0. Maintenant, soit a ∈ H, la fonction caractéristique de la v.a. aT X est T X)u φ(u) = E ei(a TX = E ei(ua) T µ− 1 (ua)T Σ(ua) 2 = ei(ua) = ei(ua) Tµ . Donc, la loi de aT X est une fonction (univariée) de Dirac en aT µ. Théorème 3.3 (Définition équivalente de la loi normale multivariée) Un vecteur aléatoire X ∈ Rp suit la loi normale multivariée ssi toutes ses projections univariées aT X pour tout a ∈ Rp sont des variables normales univariées. 54 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Remarque : on inclut la loi de Dirac univariée comme un cas particulier dans la famille des lois normales univariées (elle correspond à la valeur σ 2 = 0). Preuve : On observe, tout d’abord, que pour tout a ∈ Rp et tout u ∈ Rp la fonction caractéristique φaT X (u) de variable aT X est liée avec celle de vecteur X : T Xu φaT X (u) = E eia = φX (ua). (3.5) Nécessité : soit X un vecteur normale dans Rp . On va montrer que aT X est une variable aléatoire normale pour tout a ∈ Rp . On utilise (3.5) pour obtenir pour tout u ∈ R T µ− 1 u2 aT Σa 2 φaT X (u) = eiua , où µ et Σ sont la moyenne et la matrice de covariance de X. D’où 1 2 σ2 0 φaT X (u) = eiµ0 u− 2 u avec µ0 = aT µ et σ02 = aT Σa. Par conséquence, aT X ∼ N (µ0 , σ02 ) = N (aT µ, aT Σa). Suffisance : Réciproquement, on va montrer que si aT X est une variable normale pour tout a ∈ Rp , alors X est un vecteur normal p-varié. Pour ça on remarque que si aT X est une variable normale pour tout a ∈ Rp , alors E(|X|2 ) < ∞ (pour le voir il suffit de prendre successivement comme a les vecteurs d’une base orthonormée de Rp ). Donc, la moyenne µ = E(X) et la matrice de covariance Σ = V (X) sont bien définis. On fixe maintenant a ∈ Rp . Par hypothèse, il existe m ∈ R et s2 ≥ 0 tels que aT X ∼ N (m, s2 ). Mais, forcement, m = E(aT X) = aT µ, s2 = Var(aT X) = aT Σa. En plus, la fonction caractéristique de aT X est 1 2 2 u φaT X (u) = eimu− 2 s T µ− 1 u2 aT Σa 2 = eiua . En utilisant (3.5) on obtient T µ− 1 aT Σa 2 φX (a) = φaT X (1) = eia . Comme a ∈ Rp est arbitraire ici, on en déduit (par Théorème 3.2) que X est un vecteur aléatoire normale dans Rp de moyenne µ et matrice de covariance Σ. 3.3.5 Propriétés de la loi normale multivariée On considère ici X ∼ Np (µ, Σ), où µ ∈ Rp et Σ ∈ Rp×p est une matrice symétrique, Σ ≥ 0. Les propriétés suivantes sont des conséquences des résultats de la section précédente : (N1) Soit Σ > 0, alors le vecteur aléatoire Y = Σ−1/2 (X − µ) satisfait Y ∼ Np (0, I). 3.3. LOI NORMALE MULTIVARIÉE 55 (N2) Les projections aT X de X pour tout a ∈ Rp sont des variables aléatoires normales univariées : aT X ∼ N (aT µ, aT Σa). En particulier, les densités marginales de la loi Np (µ, Σ) sont normales univariées. Le réciproque n’est pas vrai ! Exercice 3.2 Soit la densité jointe des v.a. X et Y f (x, y) = 1 − x2 − y 2 e 2 e 2 [1 + xyI{−1 ≤ x, y ≤ 1}], 2π Quelle est la loi de X, de Y ? (N3) Toute transformation linéaire d’un vecteur normal est un vecteur normal : si Y = AX + c où A ∈ Rq×p et c ∈ Rq sont une matrice et un vecteur fixes (non-aléatoires), alors Y ∼ Nq (Aµ + c, AΣAT ). Exercice 3.3 Vérifier ceci. (N4) Soit σ 2 > 0. La loi de X ∼ Np (0, σ 2 I) est invariante par rapport aux transformations orthogonales : si Γ est une matrice orthogonale, alors ΓX ∼ Np (0, σ 2 I). (La preuve est évidente : il suffit d’utiliser (N3) avec A = Γ.) (N5) Tout sous-ensemble de composantes d’un vecteur normal p-varié est un vecteur normal : soit X = (X1T , X2T )T , ou X1 ∈ Rk et X2 ∈ Rp−k , alors X1 et X2 sont des vecteurs normaux (k- et p − k-varié respectivement). Preuve : On utilise (N3) avec c = 0 et A ∈ Rk×p , A = (Ik , 0) ou Ik est une matrice k ×k identité. On en déduit que X1 est normal. Pour X2 on prend A ∈ R(p−k)×p = (0, Ip−k ). (N6) Deux vecteur normaux en couple sont indépendants si et seulement s’ils sont noncorrélés. ! X Preuve : La suffisance : soit Z = , où X ∈ Rp et Y ∈ Rq , Z un vecteur normal Y dans Rq+p et C(X, Y ) = 0 (la matrice de covariance entre X et Y ). Pour montrer que X et Y sont indépendants ! il suffit de montrer (cf. Exercice 3.1) que la fonction caractéristique a φZ (u), u = , a ∈ Rp et b ∈ Rq , peut être décomposée comme b φZ (u) = φX (a)φY (b). Vérifirons ceci. Nous avons E(Z) = E(X) E(Y ) ! , V (Z) = V (X) C(X, Y ) C(Y, X) V (Y ) ! = V (X) 0 0 V (Y ) ! , 56 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE où V (X) ∈ Rp×p et V (Y ) ∈ Rq×q sont des matrices de covariance de X et de Y . La fonction caractéristique φZ (u) de Z est donc " !# 1 a φZ (u) = φZ (a, b) = exp i(a E(X) + b E(Y )) − (aT , bT )V (Z) b 2 1 1 = exp iaT E(X) − aT V (X)a exp ibT E(Y ) − bT V (Y )b = φX (a)φY (b). 2 2 T pour tout u = 3.3.6 a b T ! . Géometrie de la distribution normale multivariée Soit Σ > 0. La densité de Np (µ, Σ) est constante sur les surfaces EC = {x : (x − µ)T Σ−1 (x − µ) = C 2 }, On appelle ces ensembles les “contours” de la distribution (lignes/surfaces de niveau). Dans notre cas particulier, EC sont des ellipsoı̈des qu’on appelle les ellipsoı̈des de concentration. 3 2 3 2 1 1 1 0 −1 2 −2 −3 −3 =0.75 −2 −1 0 1 2 3 Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X, Σ = 3.4 3.4.1 1 3/4 3/4 1 Lois dérivées de la loi normale Loi χ2 de Pearson C’est la loi de la somme Y = η12 + ... + ηp2 , où η1 , ..., ηp sont des variables aléatoires i.i.d. de loi N (0, 1). On écrit alors Y ∼ χ2p et on dit que Y suit la loi chi-deux à p dégrès de liberté. La densité de la loi χ2p est fχ2p (y) = C(p)y p/2−1 e−y/2 I{0 < y < ∞}, (3.6) ! 3.4. LOIS DÉRIVÉES DE LA LOI NORMALE 57 où −1 C(p) = 2p/2 Γ(p/2) , et Γ(·) est la fonction gamma : Z ∞ Γ(x) = ux−1 e−u/2 du, x > 0. 0 On a E(Y ) = p, Var(Y ) = 2p si Y ∼ χ2p . p=1 p=2 p=3 p=6 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 Densité de loi de chi-deux pour les différentes valeurs de p Exercice 3.4 Obtenir l’expression (3.6) pour la densité de loi χ2p . 3.4.2 Loi de Fisher-Snedecor Soit U ∼ χ2p , V ∼ χ2q , deux v.a. indépendantes. La loi de Fisher-Snedecor à dégrès de liberté p et q est la loi de U/p . Y = V /q On écrit donc Y ∼ Fp,q . La densité de Fp,q est fFp,q (y) = C(p, q) y p/2−1 (q + py) p+q 2 I{0 < y < ∞}, où C(p, q) = pp/2 q q/2 , B(p/2, q/2) avec B(p, q) = Γ(p)Γ(q) . Γ(p + q) (3.7) 58 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE On peut montrer que cette densité approche la densité fχ2p dans la limite quand q → ∞. 1 F(10,4) F(10,10) F(10,100) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 Densité de loi de Fisher-Snedecor Exercice 3.5 Vérifier l’expression (3.7) pour la loi de Fisher-Snedecor. 3.4.3 Loi t de Student (W. Gosset) Soit η ∼ N (0, 1), ξ ∼ χ2q deux v.a. indépendantes. La loi de Student à q dégrès de liberté est celle de variable aléatoire η Y =q . ξ q On écrit donc Y ∼ tq . La densité de tq est ftq (y) = C(q)(1 + y 2 /q)−(q+1)/2 , y ∈ R, (3.8) où C(q) = √ 1 . qB(1/2, q/2) On note que t1 est la loi de Cauchy et tq tend vers N (0, 1) quand q → ∞. On remarque que la loi tq est symétrique. Les queues de tq sont plus lourdes que celles de loi normale standardisée. Exercice 3.6 3.5. THÉORÈME DE COCHRAN 59 Vérifier l’expression (3.8) pour la loi de Student. 0.4 N(0,1) t4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 Densité de loi de Student 3.5 Théorème de Cochran Théorème 3.4 Soit X ∼ Np (0, I) et soit A1 , ..., AJ , J < p, matrices p × p telles que (1) A2j = Aj , (2) Aj est symétrique, Rang(Aj ) = nj , (3) Aj Ak = 0 pour j 6= k et PJ j=1 nj ≤ p. 3) . Alors, (i) les vecteurs Aj X sont indépendants de loi Np (0, Aj ), j = 1, ..., J, respectivement ; (ii) Les variables aléatoires |Aj X|2 , j = 1, ..., J sont indépendantes de loi χ2nj , j = 1, ..., J. Preuve : (i) Notons que E(Aj X) = 0 et V (Aj X) = Aj V (X)ATj = Aj ATj = A2j = Aj . Puis, Ak X et Aj X sont de loi jointe normale. Mais C(Ak X, Aj X) = E(Ak XX T ATj ) = Ak V (X)ATj = Ak ATj = Ak Aj = 0 pour j 6= k. Par la propriété (N6) de la loi normale, ceci implique que Ak X et Aj X sont indépendants pour k 6= j. 3. ) Certaines versions de ce résultat supposent aussi que A1 + ... + AJ = I. 60 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE (ii) Comme Aj est un projecteur, il existe une matrice Γ orthogonale telle que ΓAj Γ = Ij 0 0 0 ! , la matrice diagonale de valeurs propres de Aj . Comme Aj est de rang nj , on a Rang(Ij ) = nj , et donc |Aj X|2 = X T ATj Aj X = X T Aj X = (X T ΓT )Λ(ΓX) = Y T ΛY = nj X ηi2 , i=1 ou Y = (η1 , ..., ηp )T est un vecteur normal, Y = ΓX ∼ Np (0, I) (par la propriété (N4) de la loi normale). D’où on conclut |Aj X|2 ∼ χ2nj . Par la conservation de l’indépendance par transformations mesurables, |Aj X|2 et |Ak X|2 sont indépendantes pour j 6= k. 3.6 Théorème de corrélation normale et filtre de Kalman-Bucy Les considérations de la Section 3.3.5 nous permettent d’établir le résultat suivant Théorème 3.5 Soit X T = (ξ T , θT ), ξ ∈ Rk , θ ∈ Rl , p = k + l, un vecteur normal, X ∼ Np (µ, Σ), où ! Σξξ Σξθ T T T µ = (µξ , µθ ), Σ = , Σθξ Σθθ Σξξ ∈ Rk×k , Σθθ ∈ Rl×l , ΣTθξ = Σξθ ∈ Rk×l . On suppose que Σξξ > 0. Alors ∆ m = E(θ|ξ) = µθ + Σθξ Σ−1 ξξ (ξ − µξ ), (p.s.) ∆ γ = V (θ|ξ) = Σθθ − Σθξ Σ−1 ξξ Σξθ (p.s.), (3.9) et la distribution conditionnelle de θ étant donné ξ est normale : pour tout s ∈ Rl , P (θ ≤ s|ξ) est (p.s.) la f.d.r. d’une loi normale l-variée avec le vecteur de moyennes m et la matrice de covariances γ (on écrit a ≤ b pour deux vecteurs a, b ∈ Rl pour noter le système d’inégalités a1 ≤ b1 , ..., ap ≤ bl ). En outre, les vecteur aléatoires ξ et η = θ − Σθξ Σ−1 ξξ ξ sont indépendants. Remarques : 1. Le théorème donne l’expression pour la fonction de régression multivariée m = E(θ|ξ) (régression de θ sur ξ) et la matrice de covariance conditionnelle γ = V (θ|ξ) = E (θ − m)(θ − m)T . On note que cette régression est linéaire dans le cas d’un couple (ξ, θ) gaussien. 3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY 61 2. Si de plus on suppose que la matrice Σ > 0, alors la matrice γ est > 0. En effet, soit a ∈ Rk , b ∈ Rl , alors (aT bT )Σ a b ! = (aT bT ) Σξξ Σξθ Σθξ Σθθ ! a b ! > 0, ou bien aT Σξξ a + aT Σξθ b + bT Σθξ a + bT Σθθ b > 0. (3.10) Si on choisit a = −Σ−1 ξξ Σξθ b, alors (3.10) s’écrit comme T −bT Σθξ Σ−1 ξξ Σξθ b + b Σθθ b > 0, pour tout b ∈ Rl , d’où Σθθ − Σθξ Σ−1 ξξ Σξθ > 0. 3. On peut donner au Théorème de corrélation normale l’interprétation géometrique suivante : soit Lξ2 (P ) le sous-espace des vecteurs aléatoires mesurables par rapport à ξ, de matrice de covariance finie. Alors Σθξ Σ−1 ξξ ξ est la projection orthogonale de θ sur −1 2 Lξ (P ), et le vecteur η = θ − Σθξ Σξξ ξ est orthogonal à L2ξ (P ). 4. Il est utile de noter que l’on peut obtenir une version “conditionnelle” du Théorème 3.5 en supposant que la distribution conditionnelle du couple (ξ, θ) (sachant une autre v.a., disons, Z) est normale (p.s.). En effet, soit X = (ξ, θ)T = ((ξ1 , ..., ξk ), (θ1 , ..., θl ))T un vecteur aléatoire et Z un autre vecteur aléatoire défini sur le même espace de probabilité (Ω, F, P ). Supposons que la distribution conditionnelle de X sachant Z est normale (p.s.) avec le vecteur de moyennes E(X|Z)T = (E(ξ|Z)T , E(θ|Z)T ) = (µTξ|Z , µTθ|Z ), et la matrice de covariance ΣX|Z = V (ξ|Z) C(ξ, θ|Z) C(θ, ξ|Z) V (θ|Z) ! ∆ = Σξξ|Z Σθ,ξ|Z Σξ,θ|Z Σθθ|Z ! . Alors le vecteur d’espérances conditionnelles m = E(θ|ξ, Z) et la matrice de covariance conditionnelle γ = V (θ|ξ, Z) sont donnés par m = µθ|Z + Σθξ|Z Σ−1 ξξ|Z (ξ − µξ|Z ), γ = Σθθ|Z − Σθξ|Z Σ−1 ξξ|Z Σξθ|Z (3.11) et la distribution conditionnelle de θ étant donné ξ et Z est normale : pour tout s ∈ Rl , pour tout s ∈ Rl , P (θ ≤ s|ξ, Z) est (p.s.) la f.d.r. d’une loi normale l-variée avec le vecteur de moyennes m et la matrice de covariances γ. En outre, les vecteurs aléatoires ξ et η = θ − Σθξ|Z Σ−1 ξξ|Z ξ sont (conditionnellement) indépendants sachant Z. Ce résultat peut être démontré de la même façon que le Théorème 3.5 et sera utilisé dans la suite. 62 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Preuve du Théorème de corrélation normale. Etape 1. Calculons d’abord E(η) et V (η) : −1 E(η) = E(θ − Σθξ Σ−1 ξξ ξ) = µθ − Σθξ Σξξ µξ , et −1 T V (η) = E [(θ − µθ ) − Σθξ Σ−1 ξξ (ξ − µξ )][(θ − µθ ) − Σθξ Σξξ (ξ − µξ )] T = Σθθ − Σ−1 ξξ Σξθ E (ξ − µξ )(θ − µθ ) −1 −1 T T −E (θ − µθ )(ξ − µξ )T Σ−1 ξξ Σθξ + Σθξ Σξξ E(ξ − µξ )(ξ − µξ ) )Σξξ Σθξ = Σθθ − Σθξ Σ−1 ξξ Σξθ . Etape 2. Montrons que η est orthogonal à ξ : −1 C(η, ξ) = C(θ, ξ) − Σθξ Σ−1 ξξ C(ξ, ξ) = Σθξ − Σθξ Σξξ Σξξ = 0, et donc η ⊥ ξ. Etape 3. On démontre que le couple (ξ, η) est normal. Nous avons ξ η ! = AX = A ξ θ ! , où A= Ik 0 −Σθξ Σ−1 I l ξξ ! , avec ! les matrices identité Ik ∈ Rk×k et Il ∈ Rl×l . Par la propriété (N3) de la Section 3.3.5 ξ est donc un vecteur normal. η Sa matrice de covariance, V ξ η !! = V (ξ) C(ξ, η) C(η, ξ) V (η) ! = Σξξ 0 0 Σθθ − Σθξ Σ−1 ξξ Σξθ ! Comme Σξξ > 0 et Σθθ − Σθξ Σ−1 ξξ Σξθ ≥ 0 (par l’inégalité de Cauchy-Schwarz), nous avons V ξ η !! ≥ 0. Par ailleurs, V ξ η !! = AV (X)AT ≥ 0. 3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY 63 Etape 4. Maintenant la propriété (N6) implique que η et ξ sont indépendants. Mais le résultat de l’Etape 3 avec (N5) nous permet de conclure que η est un vecteur normal. En utilisant les expressions pour E(η) et V (η) ci-dessus nous avons −1 η ∼ Nl µθ − Σθξ Σ−1 ξξ µξ , Σθθ − Σθξ Σξξ Σξθ . Maintenant il suffit de remarquer que θ = η + Σθξ Σ−1 ξξ ξ, où η est indépendant de ξ. Donc la distribution conditionnelle de θ sachant ξ est la distribution de η, translatée par Σθξ Σ−1 ξξ ξ et E(θ|ξ) = E(η) + Σθξ Σ−1 ξξ ξ, V (θ|ξ) = V (η). La linéarité de la meilleure prédiction m = E(θ|ξ) du vecteur θ sachant ξ est une propriété toute particuliére de la distribution normale du couple (ξ, θ), qui permet un calcul simple de m. Il est intéressant de savoir quelle est la meilleure prédiction linéaire dans le cas où la distribution jointe de couple ξ et θ n’est pas normale. Autrement dit, comment calculer la matrice A∗ ∈ Rl×k et le vecteur b∗ ∈ Rl tels que θb = b∗ + A∗ ξ satisfasse b bT = E (θ − θ)(θ − θ) inf A∈Rl×k ,b∈Rl E (θ − Aξ − b)(θ − Aξ − b)T . La réponse est donnée par le lemme suivant qui expose l’importance du cas gaussien dans la recherche des meilleures prédictions linéaires : Lemme 3.1 Supposons que (X, Y ) est un vecteur aléatoire, X ∈ Rk , Y ∈ Rl , tel que E(|X|2 + |Y |2 ) < ∞, V (X) > 0 et (ξ, θ) un vecteur normal avec les mêmes moyennes et matrices de covariances, c.-à.-d. E(ξ) = E(X), E(θ) = E(Y ), V (ξ) = V (X), V (θ) = V (Y ), C(X, Y ) = C(ξ, θ). Soit λ(b) : Rk → Rl une fonction linéaire telle que λ(b) = E(θ|ξ = b). Alors λ(X) est une meilleure prédiction linéaire de Y sachant X. De plus, E(λ(X)) = E(Y ). Preuve : On note tout d’abord que l’existence d’une fonction linéaire λ(b) qui coı̈ncide avec E(θ|ξ = b) découle du Théorème de corrélation normale. Soit η(b) une autre estimation linéaire de θ sachant ξ, alors E (θ − λ(ξ)(θ − λ(ξ))T ≤ E (θ − η(ξ)(θ − η(ξ))T , et par linéarité des prédictions λ(·) et η(·), dans les condition du lemme, on a E (Y − λ(X))(Y − λ(X))T = E (θ − λ(ξ))(θ − λ(ξ))T ≤ E (θ − η(ξ))(θ − η(ξ))T = E (Y − η(X))(Y − η(X))T , 64 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE ce qui démontre l’optimalité de λ(X). Enfin, E(λ(X)) = E(λ(ξ)) = E (E(θ|ξ)) = E(θ) = E(Y ). Considérons l’exemple suivant (cf. Exercice 2.15) : Exemple 3.2 Soit X et Y les v.a. telles que le couple (X, Y ) suit la loi normale bivariée avec 2 = V ar(X) > 0, σ 2 = V ar(Y ) > 0 et les moyennes µX = E(X), µY = E(Y ), les variances σX Y la corrélation ρ = ρXY < 1. X Y Si on pose Σ = Var !! , alors 2 σX ρσX σY Σ= ρσX σY σY2 ! 2 σ 2 (1 − ρ2 ) > 0. Notons que si dans le Théorème 3.5 ξ = X et θ = Y , alors et Det(Σ) = σX Y Σθξ = Σξθ = ρσX σY Σθξ Σ−1 ξξ = ρ σY . σX Nous avons alors la fonction de régression m(x) = E(Y |X = x) = µY + ρ σY (x − µX ), σX γ = γ(x) = V (Y |X = x) = σY2 (1 − ρ2 ), et la densité conditionnelle de Y sachant X est ! 1 (y − m(x))2 fY |X (y|x) = √ exp − . 2πγ 2γ C’est la densité de loi N (m(x), γ 2 (x)) et la régression est linéaire ! Considérons le cas particulier de µX = µY = 0 et σX = σY = 1. Alors Σ= 1 ρ·1 ρ·1 1 ! , Σ −1 1 −ρ −ρ 1 2 −1 = (1 − ρ ) ! . Les vecteurs propres de Σ (et de Σ−1 ) sont (1, 1)T et (−1, 1)T , qui correspondent aux valeurs propres, respectivement, λ1 = 1 + ρ et λ2 = 1 − ρ. Les vecteurs propres orthonormés sont γ1 = 2−1/2 (1, 1)T et γ2 = 2−1/2 (−1, 1)T . Si on pose Γ = (γ1 , γ2 ), alors nous avons la décomposition spectrale : T Σ = ΓΛΓ = Γ 1+ρ 0 0 1−ρ ! ΓT . 3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY 65 On peut considérer les ellipses de concentration de densité jointe de (X, Y ). Soit pour C > 0 EC = {x ∈ R2 : xT Σ−1 x ≤ C 2 } = {x ∈ R2 : |y|2 ≤ C 2 }, où y = Σ−1/2 x. Si on pose y1 y2 y= alors ! x1 x2 , x= 1 y1 = p (x1 + x2 ), 2(1 + ρ) ! , 1 y2 = p (x1 − x2 ). 2(1 − ρ) Et l’ellipse de concentration devient !2 −1 T EC = {x Σ 1 x≤C }={ p (x1 + x2 ) 2(1 + ρ) 2 3 2 !2 1 p (x1 − x2 ) 2(1 − ρ) + ≤ C 2 .} 3 3 2 1 2 2 1 1 1 1 0 0 −1 −1 2 −2 −3 −3 −2 =0.75 −2 −1 0 1 2 3 −3 −3 =−0.5 −2 −1 0 1 2 3 Ellipsoı̈des de concentration : X = (ξ1 , ξ2 ), Y = (η1 , η2 ), où Y = Σ−1/2 X. 3.6.1 Filtre de Kalman-Bucy Supposons que la suite de (couples de) vecteurs aléatoires (θ, ξ) = ((θn ), (ξn )), n = 0, 1, 2, ..., θn = (θ1 (n), ..., θl (n))T ∈ Rl et ξn = (ξ1 (n), ..., ξk (n))T ∈ Rk , est gérée par les équations récursives (0) θn+1 = an+1 θn + bn+1 n+1 , (1) ξn+1 = An+1 θn + Bn+1 n+1 , (3.12) avec des conditions initiales (θ0 , ξ0 ). (0) (1) Ici n = ((01) , ..., (0l) )T et n = ((11) , ..., (0k) )T sont des vecteurs normaux indépendants (0) (1) et équidistribués, 1 ∼ Nl (0, I), 1 ∼ Nk (0, I) ; les matrices an , bn , An et Bn sont des matrices déterministes de tailles, respectivement, l × l, l × l, k × k et k × k. On suppose que les matrices (0) Bn sont de rang plein, et que les conditions initiales (θ0 , ξ0 ) ne dépendent pas des suites (n ) (1) et (n ). Dans la suite on utilisera la notation ξ0n le vecteur aléatoire “long” ξ0n = (ξ0T , ..., ξnT )T . On remarque d’abord que si E(|θ0 |2 +|ξ0 |2 ) < ∞, alors pour tout n ≥ 0, E(|θn |2 +|ξn |2 ) < ∞. Si on suppose, en plus, que le couple (θ0 , ξ0 ) est un vecteur normal, alors on vérifie facilement 66 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE (0) (1) (tous les θn et ξn sont des fonctions linéaires de vecteurs gaussiens (θ0 , ξ0 ), (i ) et (i ), i = 1, ..., n) que pour chaque n ≥ 0 le “long” vecteur Z T = (θ0T , ξ0T , ..., θnT , ξnT ) est normal. On pourrait donc utiliser le Théorème de corrélation normale pour obtenir le meilleur prédicteur de la suite (θi ), 0 ≤ i ≤ n sachant (ξi ), 0 ≤ i ≤ n. Si on veut construire le prédicteur pour n assez grand, ce calcul risque de devenir bien coûteux en mémoire et en temps de calcul. Cette observation n’est plus toute à fait valide aujourd’hui, mais dans les années 50-60, le coût algorithmique était un facteur important, surtout pour des calculateurs embarqués. C’est ce qui a motivé les recherches sur des méthodes de calcul de prédicteurs moins coûteuses, qui ont abouti en 1960 à la découverte de filtre de Kalman-Bucy qui calcule la meilleure prédiction de façon récursive. L’objectif des exercices qui suivent est d’obtenir les équations récursives pour mn = E(θn |ξ0n ), γn = V (θn |ξ0n ). Ce problème, bien complexe dans le cas général, admet une solution simple si on suppose que la distribution conditionnelle P (θ0 < a|ξ0 ) du vecteur θ0 sachant ξ0 est normale (p.s.), ce qu’on supposera dans la suite. Notre premier objectif est de montrer que dans les conditions ci-dessus la suite (θ, ξ) est conditionnellement gaussienne, autrement dit, les fonctions de répartition conditionnelles P (ξn+1 ≤ x, θn+1 ≤ a|ξ0n ) sont (p.s.) les f.d.r. d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de covariance qui dépendent de ξ0n . Exercice 3.7 Soit ζn = (ξnT , θnT )T , t ∈ Rk+l . Vérifier que la f.d.r. conditionnelle P (ζn+1 ≤ t|ξ0n , θn+1 = u) est (p.s.) normale avec le vecteur de moyenne M u, où M est une matrice (k + l) × l, et la matrice de covariance Σ (k + l) × (k + l) à déterminer. Supposons maintenant que pour n ≥ 0 la f.d.r. conditionnelle P (ζn ≤ t|ξ0n−1 ) est (p.s.) celle d’une loi normale l + k-dimensionnelle avec la moyenne et la matrice de covariance qui dépendent de ξ0n−1 . Exercice 3.8 Utiliser la version conditionnelle du Théorème de corrélation normale (avec la Remarque 4 et l’expression (3.11)) pour montrer que les f.d.r. conditionnelles P (ζn+1 ≤ t|ξ0n ), n≥0 sont (p.s.) normales avec E(ζn+1 |ξ0n ) = An+1 mn an+1 mn ! , V (ζn+1 |ξ0n ) où mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ). = T Bn+1 Bn+1 + An+1 γn ATn+1 An+1 γn aTn+1 an+1 γn ATn+1 bn+1 bTn+1 + an+1 γn aTn+1 ! 3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY 67 Indication : calculer la fonction caractéristique conditionnelle E exp(itT ζn+1 )|ξ0n , θn , t ∈ Rl+k , puis utiliser le fait que dans les conditions d’exercice la distribution de θn , étant donnés ξ0n−1 et ξn , est normale conditionnelle avec les paramètres mn et γn . Exercice 3.9 Utiliser le Théorème de corrélation normale (conditionnel) pour obtenir les équation récursives : T mn+1 = an+1 mn + an+1 γn ATn+1 (Bn+1 Bn+1 + An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn ), (3.13) T T γn+1 = an+1 γn an+1 + bn+1 bn+1 − an+1 γn ATn+1 (Bn+1 Bn+1 + An+1 γn ATn+1 )−1 An+1 γn aTn+1 T (comme la matrice Bn+1 est de rang plein, la matrice Bn+1 Bn+1 + An+1 γn ATn+1 l’est aussi et donc est inversible). Montrer que le vecteur ξn+1 et T η = θn+1 − an+1 γn ATn+1 (Bn+1 Bn+1 + An+1 γn ATn+1 )−1 (ξn+1 − an+1 mn ) sont indépendants sachant ξ0n . Exemple 3.3 Soit X = (Xn ) et ξ = (ξn ) deux suites des variables aléatoires, telles que (0) (1) Xn+1 = cXn + bn+1 , Yn+1 = Xn + Bn+1 , (3.14) où c, b et B sont des réels, (0) et (1) sont deux suite des v.a.i.i.d., mutuellement indépendantes, de loi N (0, 1). Notre objectif est de calculer la prévision mn = E(Xn |Y0n ). ((1) On peut interpréter θ comme signal utile et Bn+1 comme bruit d’observation, et nous voulons prédire Xn sachant les observations Y0 , ..., Yn . Les équations (3.13) nous permettent d’obtenir facilement les expressions de la prévision : cγn−1 (Yn − cmn−1 ) + γn−1 c2 γ 2 = c2 γn−1 + b2 − 2 n−1 . B + γn−1 mn = cmn−1 + γn B2 Exercice 3.10 Montrer que si b 6= 0, B 6= 0 et |c| < 1, alors “l’erreur limite de filtrage” γ = limn→∞ γn existe et est la racine positive de l’équation (de Riccati) : γ 2 + (B 2 (1 − c2 ) − b2 )γ − b2 B 2 = 0. Exemple 3.4 Soit θ ∈ Rl un vecteur normal avec E(θ) = 0 et V (θ) = γ (on suppose que γ est connue). On cherche la meilleure prédiction de θ à partir d’observation de la suite k-variée (ξ) = (ξn ) (1) ξn+1 = An+1 θ + Bn+1 n+1 , ξ0 = 0, (1) où An+1 , Bn+1 et n+1 satisfont les même hypothèses que dans (3.12). 68 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE On obtient de (3.13) T mn+1 = mn + γn An+1 [Bn+1 Bn+1 + An+1 γn ATn+1 ]−1 (ξn+1 − An+1 mn ), T γn+1 = γn − γn An+1 [Bn+1 Bn+1 + An+1 γn ATn+1 ]−1 ATn+1 γn . (3.15) Alors les solutions du (3.15) sont données par h mn+1 = I + γ h γn+1 = I + γ Pn T T −1 T m=0 Am+1 (Bm+1 Bm+1 ) Am+1 Pn T T −1 T m=0 Am+1 (Bm+1 Bm+1 ) Am+1 où I est une matrice k × k identité. Exercice 3.11 Démontrer la formule (3.16). i−1 i−1 γ γ, Pn T T −1 m=0 Am+1 (Bn+1 Bn+1 ) ξm+1 , (3.16) 3.6. THÉORÈME DE CORRÉLATION NORMALE ET FILTRE DE KALMAN-BUCY 3.6.2 Solutions d’exercices de la section 3.6.1 Exercice 3.7 On vérifie facilement que (p.s.) E(θn+1 |ξ0n , θn = u) V 69 (θn+1 |ξ0n , θn = an+1 u, E(ξn+1 |ξ0n , θn = u) = An+1 u, T V (ξn+1 |ξ0n , θn = u) = Bn+1 Bn+1 et C(θn+1 , ξn+1 |ξ0n , θn = u) = 0, = u) = bn+1 bTn+1 , donc ζn+1 a une distribution conditionnelle (p.s.) normale avec E(ζn+1 |ξ0n , θn = u) = Au au ! T Bn+1 Bn+1 0 0 bn+1 bTn+1 V (ζn+1 |ξ0n , θn = u) = , ! Exercice 3.8 Dans les suppositions d’exercice, par Théorème de corrélation normale, la distribution de θn sachant ξ0n est normale avec les paramètres mn = E(θn |ξ0n ) et γn = V (θn |ξ0n ) qui ne dépendent que de ξ0n . On remarque que (p.s.) E exp(it T ζk+1 )|ξ0n , θn " = exp it An+1 θn an+1 θn T ! 1 − tT 2 T Bn+1 Bn+1 0 0 bn+1 bTn+1 ! # t , et comme " E An+1 θn an+1 θn exp itT !# ! " n ξo = exp itT An+1 mn an+1 mn " ! ! 1 − tT 2 An+1 γn ATn+1 An+1 γn aTn+1 an+1 γn ATn+1 an+1 γn aTn+1 on en obtient E exp(it T ζk+1 )|ξ0n T = exp it 1 − tT 2 Exercice 3.9 An+1 mn an+1 mn 1 − tT 2 T Bn+1 Bn+1 0 0 bn+1 bTn+1 An+1 γn ATn+1 An+1 γn aTn+1 an+1 γn ATn+1 an+1 γn aTn+1 ! # t Résultat immédiat d’application du Théorème de corrélation normale. ! t ! # t , 70 3.7 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Exercices Exercice 3.12 Soit Q une matrice q × p avec q > p de rang p. 1o . Montrer que la matrice P = Q(QT Q)−1 QT est un projecteur. 2o . Quel est le sous-espace L sur lequel projette P ? Exercice 3.13 Soit (X, Y ) un vecteur aléatoire de densité f (x, y) = C exp(−x2 + xy − y 2 /2). 1o . Montrer que (X, Y ) est un vecteur aléatoire gaussien. Calculer l’espérance, la matrice de covariance et la fonction caractéristique de (X, Y ). Déterminer le coefficient ρXY de corrélation de X et Y . 2o . Déterminer la loi de X, de Y , de 2X − Y . 3o . Monter que X et Y − X sont des variables aléatoires indépendantes et de même loi. Exercice 3.14 Soit X une v.a. de loi N (0, 1) et Z une v.a. prenant les valeurs −1 ou 1 avec la probabilité 12 . On suppose X et Z indépendantes. On pose Y = ZX. 1o . Montrer que Y suit la loi N (0, 1). 2o . Calculer la covariance et la corrélation de X et Y . 3o . Calculer P (X + Y = 0). 4o . Le vecteur (X, Y ) est-il un vecteur aléatoire normal ? Exercice 3.15 Soit ξ et η v.a. indépendantes de loi U [0, 1]. Alors les v.a. X= p −2 ln ξ cos(2πη), Y = p −2 ln ξ sin(2πη) sont telle que Z = (X, Y )T ∼ N2 (0, I). Indication : soit (X, Y ) ∼ N2 (0, I). Passer en coordonnées polaires. Exercice 3.16 Soit Z = (Z1 , Z2 , Z3 )T un vecteur aléatoire normal, admettant une densité f telle que : 6z12 + 6z22 + 8z32 + 4z1 z2 1 − f (z1 , z2 , z3 ) = exp 32 4(2π)3/2 ! . 1o . Déterminer la loi de (Z2 , Z3 ) sachant Z1 = z1 . Soient X et Y les vecteurs aléatoires définis par : X= 2 0 0 1 2 2 2 5 4 10 2 4 Z et Y = 1 1 1 1 0 0 ! Z. 2o . Le vecteur (X, Y ) de dimension 6, est-il gaussien ? Le vecteur X a-t-il une densité ? Le vecteur Y a-t-il une densité ? 3o . Les vecteurs X et Y sont-ils indépendants ? 4o . Déterminer les lois des composantes de Z. 3.7. EXERCICES 71 Exercice 3.17 Soit (X, Y, Z)T un vecteur aléatoire gaussien de est 2 Σ= 1 1 moyenne nulle et dont la matrice de covariance 1 1 2 1 . 1 2 1o . On pose U = −X + Y + Z, V = X − Y + Z, W = X + Y − Z. Déterminer la loi du vecteur aléatoire (U, V, W )T . 2o . Déterminer la densité de la variable T = U 2 + V 2 + W 2 . Exercice 3.18 Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance : µ= 0 2 ! , Σ= 4 1 1 8 ! . 1o . Donner la loi de X + 4Y . 2o . Donner la loi jointe des variables Y − 2X et X + 4Y . Exercice 3.19 Soit X un vecteur aléatoire normal de dimension n, centré, de matrice de covariance Σ. Quelle est la loi de la v.a. X T Σ−1 X ? Exercice 3.20 La taille H des hommes dans un population P est modélisée par une loi de Gauss N (172, 49) (unité : le cm). Dans ce modèle : 1o . Quelle est la probabilité pour qu’un homme ait une taille inférieure à 160cm ? 2o . On admet qu’il y a environ 15 millions d’hommes dans P ; donner une estimation du nombre d’hommes de plus de 200cm. 3o . Quelle est la probabilité pour que 10 hommes rencontrés au hasard aient tous leur taille dans l’intervalle [168,188]cm ? La taille H 0 des femmes de P est modélisée par une loi de Gauss N (162, 49) (unité : le cm). 4o . Quelle est la probabilité pour qu’un homme choisi au hasard soit plus grand qu’une femme choisie au hasard ? On modélise la taille des éléments d’un couple (H, H 0 ) par un vecteur normal où le coefficient de corrélation ρ entre la taille de la femme et la taille de l’homme est 0.4 (respectivement −0.4). 5o . Calculer la probabilité p (respectivement, p0 ) que dans un couple l’homme soit plus grand que la femme (avant de faire le calcul, pouvez-vous dire dans quel ordre seront rangés p et p0 ?). Exercice 3.21 Soit Y = (η1 , ..., ηn )T un vecteur normal, Y ∼ Nn (µ, σ 2 I), Hn−J un sous-espace de Rn de dimension n−J, J > 0, et soit Hn−J−M un sous-espace de Hn−J de dimension n−J −M, M > 0. On pose dJ = min |Y − y| et dJ+M = min |Y − y|. y∈Hn−J Verifier que y∈Hn−J−M 72 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE 1. si µ ∈ Hn−J alors la loi de d2J /σ 2 est celle de χ2J (à J degrés de liberté) ; 2. si µ ∈ Hn−J−M , alors J d2J+M − d2J ∼ FM,J M d2J (la loi de Fisher à (M, J) degrés de liberté). 3.8. AUTRES EXERCICES 3.8 73 Autres Exercices Exercice 3.22 Soit m ∈ R, et {Xi }i=1,...,n des variables aléatoires indépendantes. On pose X̄ = n 1X Xi . n i=1 1o . On suppose que les Xi − m suivent la loi de Cauchy, de densité f (x) = 1 . π(1 + x2 ) Donner la loi de X̄. Cette variable admet-elle des moments d’ordre 2 ? D’ordre 1 ? Comparer les queues de la loi de Cauchy et celles de la loi N (0, 1) (on calculera par exemple P (X > 3) et P (N (0, 1) > 3)). 2o . Si X1 , . . . , Xn sont n variables aléatoires indépendantes de même loi E(θ) (loi exponentielle de paramètre θ), donner la loi de X̄. 3o . Soit Xi , i = 1, . . . , n, variables aléatoires i. i. d. de loi de Poisson de paramètre λ. Calculer la loi de nX̄ (cf. Exercice 2.11), et trouver deux suites an et bn telles que an X̄ + bn converge en loi vers une variable de loi non dégénérée. Exercice 3.23 Soit X, ε deux variables aléatoires indépendantes, ayant des moments d’ordre 2 finis, avec E(X) = E(ε) = 0. 1o . On pose Y = X 2 + ε, et on suppose que E(|X|3 ) < ∞ et que la loi de X est symétrique. Montrer que E(Y |X) = X 2 , mais que Cov(X, Y ) = 0. 2o . On suppose que Y = X 3 + σε, où X et ε sont deux variables aléatoires indépendantes de loi N (0, 1) et σ > 0. Comparer le rapport de corrélation η et le coefficient de corrélation ρ pour ce modèle. Exercice 3.24 Parmi les matrices suivantes, lesquelles peuvent être la matrice de covariance d’un vecteur aléatoire X ∈ R ? 1 2 2 1 ! , −1 −1/2 −1/2 −1 ! , 1 1/2 1/2 1 ! , 1 1/2 1/3 1 ! ? Dans la suite, on notera Σ les matrices répondant à la question, et on supposera que X est de loi N2 (0, Σ). 1o . Calculer, pour chaque matrice Σ, les valeurs propres (λ1 , λ2 ) et les vecteurs propres associés (v1 , v2 ). 2o . Donner la loi jointe de v1T X et v2T X. Exercice 3.25 74 CHAPITRE 3. VECTEURS ALÉATOIRES. LOI NORMALE MULTIVARIÉE Soit X une variable aléatoire gaussienne standard. Pour tout c > 0, on pose Xc = X (I{|X| < c} − I{|X| ≥ c}) . 1o . Déterminer la loi de Xc . 2o . Calculer Cov(X, Xc ) et montrer qu’il existe c0 tel que Cov(X, Xc0 ) = 0. 3o . Montrer que X et Xc0 ne sont pas indépendantes. Le vecteur (X, Xc0 ) est-il gaussien ? Exercice 3.26 Soit un vecteur (X, Y ) gaussien N2 (µ, Σ) de moyenne et de matrice de covariance : µ= 0 2 ! , Σ= 4 1 1 8 ! . 1o . Donner la loi de X + 4Y . 2o . Donner la loi jointe des variables Y − 2X et X + 4Y . Exercice 3.27 Soit (εY , εZ , X) un vecteur aléatoire gaussien tel que εY , εZ , X sont indépendantes de lois N (0, 1), N (0, 1), et N (0, 2). On pose : Z = 2Y − 3X + εZ , Y = X + εY . Déterminer la loi du triplet (X, Y, Z).