Mod`eles d`´equations structurelles
Transcription
Mod`eles d`´equations structurelles
Modèles d’équations structurelles Introduction à AMOS AQC, EQS, 4/3/2001GR 47 Modèle linéaire d’équations structurelles EQS : équations structurelles SEM : Structural equation model LISREL : Linear structural relations AMOS : Analysis of moment structure Références Arbuckle, J. L. and Wothke, W. (1999). Amos 4.0 Users’ Guide. SmallWaters, Chicago. Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley, New York. Goldberger, A. and Duncan, O., editors (1973). Structural Equation Models in the Social Sciences. Wiley-Interscience, New York. Jaccard, J. and Wan, C. (1996). LISREL Approaches to Interaction Effects in Multiple Regression. QASS. Sage, London. Jöreskog, K. and Sörbom, D. (1989). LISREL 7 User’s Reference Guide. Scientific Software, Mooresville, IN. AQC, EQS, 4/3/2001GR 48 AQC, EQS, 4/3/2001GR R E p n n è o n è M c H o y p é d s o è n l e o t h r m è t h s e é o a t i f s r i q u h é n o é m a è l i t é n e à é t u d i e r O w b s e C o F s n f r o Q u F M A c t i o n o a V d :- P l e r é v P r i s e e - E v l u a a m i o d t i o t i f i c l i d i s - t a n a è a n a t i o t i o n p w n u e n e t i o d n é d c e i s i o p n o D e s n i r i q t a l i t i q u e s s t a e s t i s c t i s r v t i q r i p t i q a t i o u e n t i o u e n 49 Estimation et test d’hypothèses avec les modèles linéaires d’équations structurelles (EQS). Un phénomène est schématisé sous forme d’un graphique de causalité entre variables (équations linéaires). 1. Possibilité d’effets de retour (feedbacks). 2. Hypothèses larges sur les termes d’erreurs (possibilités de corrélations entre erreurs). 3. Modélisation des erreurs de mesures (par l’introduction de variables latentes). Les schémas (hypothèses) sont testés en étudiant l’ajustement du modèle aux données. AQC, EQS, 4/3/2001GR 50 Analyse quantitative des relations de causalité Estimation et test d’hypothèses avec les modèles linéaires d’équations structurelles (EQS) plan 1. Forme générale du modèle et notations 2. Estimation et problème d’identification 3. Statistiques d’évaluation 4. Initiation au logiciel AMOS 5. Études de cas : par exemple – test de non corrélation – modèle avec variables latentes – test de comportement identique dans différents groupes AQC, EQS, 4/3/2001GR 51 Exemple de modèle simultané Données : Bank SEX AGEBEG uw 1 EDLEVEL WORK 1 ue SALBEG usa SALNOW 1 AQC, EQS, 4/3/2001GR 1 usn 52 Représentation équivalente sous forme de 4 équations (variables centrées) : edlevel = β11agebeg + β12sex + ue work = β21agebeg + β22sex + β23edlevel + uw salbeg = β32sex + β33edlevel + β34work + usa salnow = β42sex + β43edlevel + β44work + β45salbeg + usn Quantifier les influences : – Procéder à 4 régressions indépendantes (possible ici car pas d’effets de retour.) – Estimer simultanément le système (possible avec AMOS.) AQC, EQS, 4/3/2001GR 53 Forme générale du modèle et notations z e y 3 y l 3 2 h 3 g 2 2 b x l x 1 d 1 g 1 z 1 1 1 h x l 2 d AQC, EQS, 4/3/2001GR 1 y 2 2 y l 1 x 1 2 1 1 1 2 1 b x 3 e 1 1 y l 2 1 1 y 1 e 2 2 54 Systèmes d’équations EQS (ou LISREL) η = Bη + Γξ + ζ y = Λy η + ε x = Λx ξ + δ E(η) = 0, E(ξ) = 0, E(ζ) = 0 ζ non corrélé avec ξ E(ε) = 0, E(δ) = 0, ε non corrélé avec η, ξ et δ δ non corrélé avec η, ξ et ε (I − B) non-singulière. AQC, EQS, 4/3/2001GR 55 Les variables not. dim. définition η m × 1 variables endogènes latentes ξ n × 1 variables exogènes latentes y x p×1 q×1 indicateurs observés de η indicateurs observés de ξ ζ ε δ m × 1 erreurs latentes des équations p × 1 erreurs de mesures pour y q × 1 erreurs de mesures pour x Les paramètres not. dim. définition Coefficients B Γ m × m coef. des var. endogènes latentes m × n coef. des var. exogènes latentes Λy Λx p × m coef. liant y à η q × n coef. liant x à ξ Matrice de covariances Φ Ψ Θε Θδ n×n m×m p×p q×q Var(ξ) = E(ξξ 0) Var(ζ) = E(ζζ 0) Var(ε) = E(εε0) Var(δ) = E(δδ 0) AQC, EQS, 4/3/2001GR 56 Estimation du modèle EQS L’estimation du modèle exploite la relation entre - les paramètres θ (θ = vecteur des paramètres B, Γ, Λy , Λx, Φ, Ψ, Θε, Θδ ) - les variances et covariances (matrice Σ) des variables observables. Σ = Σ(θ) = " Σyy (θ) Σyx(θ) Σxy (θ) Σxx(θ) # Pour un modèle sans variables latentes (y = η et x = ξ) y = By + Γx + ζ y = (I − B)−1Γx + (I − B)−1ζ Les variances covariances des x sont simplement Σxx = E(xx0) = E(ξξ 0) = Φ AQC, EQS, 4/3/2001GR 57 Les covariances entre les x et les y sont Σyx = E(yx0) −1 ζx0 ) = E((I − B)−1Γxx0) + E((I − B) | {z } 0 = (I − B)−1ΓΦ Les variances et covariances des y sont Σyy = E(yy 0) ³ = E (I −B)−1(Γx + ζ)(x0Γ0 + ζ 0)(I − B)0−1 ³ −1 Γ E(xx0)Γ0 + Γ E(xζ 0) = (I − B) ´ 0 0 0 + E(ζx )Γ + E(ζζ ) (I − B)0−1 µ ´ ¶ = (I − B)−1 ΓΦΓ0 + Ψ (I − B)0−1 Pour un modèle sans variables latentes, Σ(θ) est donc µ ¶ −1 ΓΦΓ0 + Ψ (I −B)0−1 (I −B)−1 ΓΦ (I −B) ΦΓ0(I −B)0−1 Φ AQC, EQS, 4/3/2001GR 58 Exemple : y1 = γ11x1 + ζ1 y2 = β21y1 + ζ2 avec Cov(x1, ζ1) = 0, Cov(x1, ζ2) = 0, ψ12 = Cov(ζ1, ζ2) = 0. On a B= " Ψ= " 0 0 β21 0 # ψ11 0 0 ψ22 Γ= # " γ11 0 # Φ = [φ11] et Var(y1) Var(y2) = Cov(y2, y1) Cov(x1, y1) Cov(x1, y2) Var(x1) 2 γ11φ11 +ψ11 2 φ +ψ ) β 2 (γ 2 φ +ψ )+ψ β21(γ11 11 22 11 11 21 11 11 γ11φ11 β21γ11φ11 φ11 AQC, EQS, 4/3/2001GR 59 Procédure d’estimation Trouver les valeurs θ̂ qui génèrent la matrice Σ̂ = Σ(θ̂) la plus proche possible (selon critère à définir) de la matrice des covariances empiriques S. ´On ³ minimise une certaine fonction de S − Σ(θ) Critères usuels : - Le maximum de vraisemblance (ml) FM L = ³ ´ −1 = log|Σ(θ)| + tr SΣ (θ) − log|S| − (p+q) - Les moindres carrés simples (uls) h³ FM CS = (1/2) tr S − Σ(θ) ´2 i - Les moindres carrés généralisés (gls) FM CG = (1/2) tr ·n³ ´ S − Σ(θ) W −1 o2 ¸ où W −1 est une matrice de pondération (en général S −1). Dans tous les cas la solution est une fonction θ̂ = θ(S) AQC, EQS, 4/3/2001GR 60 Identification Le modèle est exactement identifié si la fonction Σ(θ) admet une fonction inverse θ = θ(Σ) ⇐⇒ Σ = Σ(θ) c’est-à-dire s’il existe une relation biunivoque entre les paramètres et la matrice des variances et covariances des variables observables. Si identification exacte, on a θ̂ = θ(S) ⇒ Σ̂ = Σ(θ̂) = S AQC, EQS, 4/3/2001GR 61 On peut cependant avoir Sous-identification Plus de paramètres θ que d’éléments indépendants dans Σ : les paramètres θ ne peuvent pas être tous quantifiés à partir de S. Sur-identification Moins de paramètres θ que d’éléments indépendants dans Σ : on ne peut pas générer n’importe quelle matrice Σ. Les éléments de Σ̂ doivent satisfaire les conditions imposées par Σ = Σ(θ). ⇒ Σ̂ 6= S Condition nécessaire d’identification pour le modèle sans variables latentes r≤ 1 (p + q)(p + q + 1) 2 où r est le nombre de paramètres θ libres. AQC, EQS, 4/3/2001GR 62 Exemple de modèle identifié Exemple : y1 = y 2 + x 1 y2 = β21y1 + ζ2 avec Cov(x1, ζ2) = 0. On a B= " Ψ= " 0 1 β21 0 # " Γ= 0 0 0 ψ22 # Φ = [φ11] 1 0 # et Σ(θ) = (1−β21 )−2 (φ11 +ψ22 ) 2 φ +ψ ) = (1−β21 )−2 (β21 φ11 +ψ22 ) (1−β21 )−2 (β21 11 22 (1−β21 )−1 φ11 AQC, EQS, 4/3/2001GR (1−β21 )−1 β21 φ11 φ11 63 Identification : exemple r = 3, p = 2, q = 1 r=3 < 1 (p + q)(p + q + 1) = 6 2 Condition nécessaire satisfaite. En fait la matrice Σ(θ) est singulière. La 1ère équation du modèle est une identité : connaissant deux variables, on en déduit la troisième. (La première ligne de Σ(θ) est la somme des deux autres : (1 − β21)−1φ11 = (1 − β21)−2(φ11 − β21φ11) et 2 φ )) (1−β21)−1β21φ11 = (1−β21)−2(β21φ11−β21 11 Il y a donc une ligne et, par symétrie, une colonne redondantes dans Σ(θ) ⇒ 3 (=r) éléments indépendants. ⇒ identification exacte possible. AQC, EQS, 4/3/2001GR 64 Éliminons la 2ème ligne et la 2ème colonne de Σ(θ) " Var(y1 ) sym # Cov(y1 , x1 ) Var(x1 ) = " # −2 (1 − β21 ) (φ11 + ψ22 ) sym (1 − β21 )−1 φ11 φ11 d’où φ11 = Var(x1) β21 = 1 − ψ22 = " Var(x1) Cov(x1, y1) Var(x1) Cov(x1, y1) #2 Var(y1) − Var(x1) Identification exacte : on a pu expliciter tous les paramètres de Σ(θ). AQC, EQS, 4/3/2001GR 65 Lorsque B = 0 (p équations indépendantes) le modèle est toujours identifié. " Σyy (θ) Σyx(θ) Σxy (θ) Σxx(θ) # = " ΓΦΓ0 + Ψ ΓΦ ΦΓ0 Φ # d’où Φ = Σxx Γ = ΣyxΣ−1 xx Ψ = Σyy − ΣyxΣ−1 xx Σxy AQC, EQS, 4/3/2001GR 66 AMOS Logiciel d’estimation de modèles EQS Input : – Données en format SPSS, Excel, dBase, texte, etc. – individuelles – matrice de covariances ou corrélation – Le modèle spécifié – graphiquement (module graphique) – sous formes d’équations (Basics) Résultats : – Sur le graphique – Estimations des coefficients – Estimations des variances et R2 – Fichier texte ou tableau – Estimation des paramètres (coefficients, variances et covariances) – Nombreuses aides à l’évaluation et à l’interprétation AQC, EQS, 4/3/2001GR 67 AMOS : options AMOS offre un grands choix d’options (procédures d’estimations, aides à l’évaluation, etc.) Les options peuvent être précisées – Pour une application particulière : Menu Set/Analysis Properties – Comme valeurs de défaut : En créant un template de défaut AQC, EQS, 4/3/2001GR 68 Évaluation de l’ajustement – significativité individuelle des paramètres – R2 pour les variables endogènes (équations) – ajustement global et pertinence du modèle Significativité individuelle des paramètres ti = θ̂i σ̂θ̂ i Sous les hypothèses de normalité, peut être comparé au seuil critique de la loi normale (1.96 pour un test bilatéral avec α = 5%). ⇒ θi significatif si ti > 2. (AMOS : CR) AQC, EQS, 4/3/2001GR 69 Coefficients de détermination (mesurent la qualité de la prédiction des variables endogènes) Pour chaque équation explicitant une variable endogène yj Ry2j ψ̂jj var(ŷj ) = 1− 2 = σ̂yj var(yj ) AMOS : $smc ⇒ squared multiple correlation Pour l’ensemble des équations det(Ψ̂) 2 Rglobal = 1 − det(Σ̂yy ) AMOS : non fourni AQC, EQS, 4/3/2001GR 70 Ajustement global du modèle (Cas d’un seul groupe, g = 1) q p n θ α(θ) a α0 Ĉ F̂ C0 F0 nbre de paramètres libres nbre d’éléments indépendants de Σ nbre d’observations vecteur des q paramètres (AMOS : γ) vecteur des p éléments de Σ(θ) vecteur des p éléments de S (moments empiriques) vecteur des p éléments de Σ0 (moments de la population) = C(α(θ̂), a) = F (α(θ̂), a) = C(α(θ0), α0) = F (α(θ0), α0) mesures de parcimonie – q nombre de paramètres libres à estimer – d = p − q degrés de liberté – d d ratio de parcimonie ind (AMOS : PRATIO) AQC, EQS, 4/3/2001GR 71 Mesures de l’écart entre Σ̂ et S (discrepancy) – Ĉ = (n − 1)F̂ ∼ χ2 d si modèle correct (AMOS : Cmin) – p-valeur du test de H0 : modèle correct pour la population. ⇒ devrait être > 5%. (AMOS : P) – Ĉ d devrait être petit (< 5), E(C/d | H0 ) = 1 (AMOS : Cmin/DF) 1 Ĉ – F̂ = (n−1) (AMOS : Fmin) – racine du résidu quadratique moyen : v u1 X X u RM R = t (σ̂ij − sij )2 p i j≤i AQC, EQS, 4/3/2001GR 72 Estimation de l’écart entre Σ̂ et Σ Steiger, Shapiro, Brown (1985) ont montré que sous certaines conditions : Ĉ = (n − 1) F̂ ∼ chi-2 non central avec non-centralité δ = C0 = (n − 1)F0 et d degrés de liberté. δ = C0 est l’écart entre Σ̂ et Σ. Modèle correct pour population ⇒ δ = 0. Les mesures ci-dessous estiment cet écart AQC, EQS, 4/3/2001GR 73 – δ̂ = max{Ĉ − d, 0} estimation de δ (AMOS : NCP) 1 δ̂ estimation de F – Fˆ0 = n−1 0 (AMOS : F0) Pas de pénalité pour la complexité (d petit). Diviser par d pour compenser la complexité ⇒ – Estimation de la racine de l’erreur quadratique moyenne d’approximation (RM SEA) (AMOS : RMSEA) RM SEA = s F̂0 d devrait être plus petit que 0.08 – p-valeur du test de H0 : RM SEA ≤ 0.05 (modèle presque correct pour la population) devrait être > 5% (AMOS : PCLOSE) AQC, EQS, 4/3/2001GR 74 Mesures d’information Mesures de la forme Ĉ + k q ou F̂ + k q. Tiennent compte simultanément de – Mauvaise qualité de l’ajustement (Ĉ ou F̂ ) – Complexité (k q) k constante qui détermine l’importance de la pénalité pour la complexité. Utiles uniquement pour comparer des modèles. ⇒ préférer les petites valeurs. Indices présentés selon l’importance croissante accordée à la pénalité pour la complexité. AQC, EQS, 4/3/2001GR 75 – AIC (Akaike, 1973) AIC = Ĉ + 2q – ECVI ECVI = 1 2q AIC = F̂ + (n − 1) n−1 – BCC (Browne-Cudek, 1989) BCC = Ĉ + 2q (n − 1) n−p−2 – MECVI 1 MECVI = BCC (n − 1) – CAIC (Bodzogan, 1987) Consistent AIC CAIC = Ĉ + q(ln(n) + 1) – BIC (Schwartz, 1978, Raftery, 1993) Bayes Information Criteria BIC = Ĉ + q ln(np) AQC, EQS, 4/3/2001GR 76 Goodness of Fit (GFI)) C’est la part de S reproduite par Σ̂. ³ σ̂ = 1 − s−σ̂ = 1 − s/σ̂−1 s s s/σ̂ ´ ³ tr (Σ̂−1S − I)2 ³ ´ GFIML = 1 − −1 2 tr (Σ̂ S) AGFIML = 1 − Ã ´ ! q(q + 1) (1 − GFIML) 2df Ĉb − Ĉm NFI = ∆1 = Ĉb Ĉb − Ĉm IFI = ∆2 = Ĉb − dm RFI = ρ1 = Ĉb/db − Ĉm/dm Ĉb/db TFI = ρ2 = Ĉb/db − Ĉm/dm (Ĉb/db) − 1 AQC, EQS, 4/3/2001GR 77 CN : le N critique de Hoelter (1983) (AMOS : HOELTER) Plus grande taille d’échantillon pour laquelle on accepterait l’hypothèse que le modèle est correct. CN = χ2 [(1−α),d] F̂ +1 ne varie pas avec la taille d’échantillon n. Selon Hoelter, CN devrait être au moins 200 (g · 200 si g groupes) pour un risque α = 5 % AQC, EQS, 4/3/2001GR 78 Modèles contraints 2 types de contraintes : 1. fixer la valeur de paramètres 2. imposer l’égalité de paramètres Dans AMOS, pour fixer valeur d’un paramètre – associer la valeur à l’objet (flèche pour coefficients de régression, flèche bidirectionnelle pour covariances, variable pour variances) – associer une étiquette (alpha-numérique) à l’objet et définir la contrainte dans “manage-models”. Pour imposer l’égalité entre paramètres – associer la même étiquette aux objets, – associer des étiquettes différentes et définir la (les) contrainte(s) dans “manage-models”. AQC, EQS, 4/3/2001GR 79 Modèles imbriqués Un modèle M est inclus dans le modèle M0, s’il se déduit du modèle M0 par l’imposition de contraintes supplémentaires. v EDLEVEL u a 1 SALBEG c WORK b Modèle M 1 : tous les paramètres libres Modèle M 2 : a = b Modèle M 3 : a = b, c = 0 M 2 et M 3 inclus dans M 1, M 3 inclus dans M 2. AQC, EQS, 4/3/2001GR 80 Comparaison de modèles imbriqués Test de la différence entre M et M0 (M ⊂ M0) sous H0 : M correct si M0 correct, CminM −M0 = CminM − CminM0 ∼ χ2 dM −M0 où dM −M0 = dM − dM0 ⇒ CminM −M0 petit ⇔ M ne diffère pas significativement de M0 AQC, EQS, 4/3/2001GR 81 Comparaisons de groupes AMOS : manage groups Groupes : sexe, classes d’âge, race, etc. L’estimation simultanée du même modèle – avec paramètres indépendants pour chaque groupe – avec contraintes impliquant des paramètres de différents groupes permet de tester les différences entre groupes. Les statistiques concernent l’ensemble des groupes, soit par exemple le modèle : · ¸ · ¸· ¸ · ¸· ¸ · ¸ Y1 0 B1 0 Y1 0 Γ1 0 X1 0 U1 0 = + + 0 Y2 0 B2 0 Y2 0 Γ2 0 X2 0 U2 Certaines statistiques ne sont pas calculés dans le cas de plusieurs groupes (BIC, CAIC). AQC, EQS, 4/3/2001GR 82 Groupes : exemple Groupe 1 : White Groupe 2 : Non white v2 v EDLEVEL u a SALBEG c WORK EDLEVEL 1 b u a2 1 SALBEG c2 WORK b2 4 variables exogènes (observables) 2 variables endogènes (observables) 2 termes d’erreur ⇒ nbre d’éléments indépendants dans matrice des moments empiriques : p∗(1) = p∗(2) = 6 et p = 12 4 coefficients de régressions 6 variances (4 v. exog. + 2 termes d’erreurs) 2 covariances ⇒ nbre de paramètres : q = 12 AQC, EQS, 4/3/2001GR 83
Documents pareils
Tester les relations dans les modèles d`attitude et de comportement
d’estimation, dont le maximum de vraisemblance, les moindres carrés non pondérés,
les moindres carrés généralisés, le critère
asymptotiquement indépendant de la
distribution de Browne et les moindr...