afc
Transcription
afc
STT-7620 ANALYSE FACTORIELLE CONFIRMATOIRE L’analyse factorielle exploratoire permet d’identifier des facteurs latents à partir de variables mesurées. Elle définit chaque variable latente en y associant un certain nombre de variables mesurées. L’analyse factorielle confirmatoire permet de poursuivre l’analyse en posant des paramètres (loadings) égaux à 0, en permettant aux facteurs latents d’être corrélés, et en ajoutant au besoin des corrélations supplémentaires entres les erreurs résiduelles. Elle définit de façon détaillée les facteurs latents. En principe l’analyse exploratoire et confirmatoire ne se font pas sur le même jeu de données. L’analyse confirmatoire peut chercher à déterminer si un ensemble de questions développées dans un certain contexte permet de bien caractériser un phénomène dans un contexte un peu différent. Il peut s’agir du suivi et de la validation de questionnaires mis sur pied dans la phase initiale d’un projet de recherche. -1- EXEMPLE DU MILIEU SOCIO-ECONOMIQUE Dans les données sur les étudiants américains (n=3094) on cherche à caractériser le background d’un étudiant, à savoir le milieu socio-économique de ses parents et sa performance académique à l’école secondaire. Cette dernière est mesurée par la variable HSRank. Pour caractériser le milieu socio-économique on a utilisé la variable FaEd. On va maintenant utiliser 3 variables pour cela, à savoir MoEd, FaEd et PaJntInc, (l’éducation de la mère, du père et le revenu moyen des parents). Le milieu socio-économique de l’étudiant (PaSeS) est maintenant une variable latente déterminée par 3 variables observées. On a deux variables explicatives latentes (la deuxième variable latente AcRank est confondue avec la variable observée HSRank.) . -2- EXEMPLE DU MILIEU SOCIO-ECONOMIQUE Le diagramme précédent spécifie que MoEd, FaEd et PaJntInc sont conditionnellement indépendantes de HSRank étant donné PaSeS. En d’autres termes les corrélations observées entre MoEd, FaEd, PaJntInc et HSRank sont toutes déterminées par la corrélation 12 entre les deux variables latentes du modèle et par les loadings , et . 11 21 31 Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree, alors l’analyse de régression avec variable observée où FaEd caractérise le milieu socioéconomique (voir partie 1) sous estime la force de la relation entre PaSeS et les variables dépendantes. En effet selon le diagramme, FaEd mesure PaSeS avec une erreur 2. En régression, la force de la relation entre une variable explicative mesurée avec erreurs et la variable dépendante est plus faible que si la variable explicative est mesurée sans erreur. -3- DÉFINITION DU MODÈLE Sous forme matricielle X 1 11 0 1 X 0 1 2 2 21 ,où X 3 31 0 2 3 X 0 42 4 4 21 12 est la matrice de 2 2 12 variances covariances des variables latentes et diag ( 21 , 22 , 23 , 24 ) est la matrice de variances covariances résiduelles. Ce modèle a la même forme qu’un modèle factoriel exploratoire à m=2 facteurs sauf que (i) on permet des variances quelconques et une corrélation pour les variables latentes et (ii) des loadings (paramètres ) sont fixés à 0, = = 0 . 12 -4- 22 32 41 DÉFINITION DU MODÈLE On a vu, dans l’étude des modèles d’analyse factorielle exploratoire, que d=3 variables observées donnent un modèle à une variable latente saturé (il n’y a aucun degré de liberté pour tester l’ajustement du modèle). Le modèle avec d=3 à une variable latente pour MoEd, FaEd et PaJntInc s’ajuste donc parfaitement. Le modèle étudié ici spécifie en plus que les trois corrélations entre HSrank et (MoEd, FaEd, PaJntInc) s’expliquent toutes par la corrélation entre PaSES et HSrank. Etudier l’ajustement du modèle c’est évaluer la véracité de cette hypothèse. -5- ÉCRITURE DE LA MATRICE DE VARIANCES-COVARIANCES THÉORIQUE. La matrice de variances-covariances de X est une matrice 4x4 (note d=4=NX dans la notation de LISREL). Pour la calculer on utilise le fait que les erreurs sont indépendantes des variables latentes et donc que E(=0. Ainsi, en général, ( ) a une forme semblable à celle rencontrée en analyse factorielle exploratoire, ( ) x E ( ') x ' E ( ') Pour le modèle à l’étude, 21 0 0 0 11 0 2 2 0 0 0 0 0 2 12 11 21 31 1 ( ) 21 2 0 3 0 0 0 42 0 31 0 12 22 0 0 2 0 0 4 42 0 En effectuant les produits matriciels on obtient l’expression suivante. 112 21 21 1121 21 1131 21 1142 12 2 2 2 2 2 11 21 21 21 31 21 42 1 1 2 1 1 2 ( ) 2 2 2 2 2 1131 2131 1 31 1 3 3142 12 1 2 2 2 1142 2142 12 3142 12 42 2 4 1 2 -6- DÉFINITION DES VARIABLES LATENTES Les paramètres du modèle précédent ne sont pas tous identifiables car les variables latentes peuvent être définies de plusieurs façons : 1. On peut faire comme dans l’analyse exploratoire et standardiser les variables latentes en imposant 21 22 1 . Le seul paramètre non estimable dans le modèle précédent est alors 24 car la deuxième variable latente est proportionnelle à une variable observée 2. Pour donner des unités de mesure à chaque variable latente, on peut fixer un loading égal à 1 pour chaque construit. Si on pose 1, la première variable latente a les mêmes unités que PaJntInc alors que la deuxième est égale à HSRank. Évidemment 24 n’est toujours pas estimable dans ces conditions. 3. On a en d(d+1)/2 =4x5/2=10 degrés de liberté dans une matrice de variancescovariances 4x4 et 8 paramètres à estimer. Il reste donc 2 degrés de liberté pour tester l’ajustement du modèle. 31 -7- 42 ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE Le modèle postule que les Xi suivent une loi normale de moyenne (un vecteur 4x1) et de matrice de variances covariances ( ) où est les vecteurs des 8 paramètres de la matrice de variances covariances (on pose 1 et 24 0 ) : 31 21 21 2 21 1 ( ) 31 2 1 1 2 42 21 2 212 2 2 2131 2 31 2 2131 2 312 2 2 21 31 1 1 2 1 1 2 1 1 1 3 1 2 21 31 1 2 . 1 2 2 2 1 2 Notons que ( ) satisfait les deux égalités 2 2 ( )13 ( ) 24 31 1 21 12 ( )12 ( )34 21 1 31 12 1 et 1. 2 2 ( )23 ( )14 2131 1 12 ( )13 ( ) 24 31 1 21 12 La matrice de variances covariances empiriques S ne satisfait pas ces égalités, il faut donc utiliser un algorithme itératif pour trouver une matrice ( ) qui soit le plus prêt possible de S. -8- ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE Moins la log-vraisemblance des données s’écrit ( ) n 1 log | ( ) | log | S | tr[S( ) 1 ] d 2 où d est le nombre de variables X observées et S est la matrice de variances-covariances. Dans l’exemple on a d=4 variables (MoEd, FaEd, PaJntInc, HSRank ) de plus 1.510 1.133 S= 1.452 0.110 1.133 1.452 0.110 2.283 2.125 0.150 et (ˆ)= 2.125 7.017 0.113 0.150 0.113 0.604 1.510 1.135 1.447 0.098 1.135 1.447 0.098 2.283 2.122 0.144 , 2.122 7.017 0.183 0.144 0.183 0.604 où (ˆ) représente la matrice ( ) évaluée à l’estimateur du maximum de vraisemblance ˆ . Cet estimateur est obtenu en minimisant ( ) à l’aide d’un algorithme itératif (attention des problèmes de convergence sont possibles!). -9- TESTS D’AJUSTEMENT Notons que (ˆ) mesure l’écart entre la matrice de variances covariances empirique S et son estimateur (ˆ) . En fait (ˆ) 0 si S (ˆ) . La magnitude de (ˆ) permet de juger de l’ajustement du modèle CFA à l’étude. La statistique du chi-deux pour tester l’ajustement du modèle est d2( d 1)/2 p 2 (ˆ) (n 1) F S , (ˆ) . On rejette au seuil l’hypothèse que le modèle s’ajuste bien si 2 (ˆ) d2( d 1)/2 p ,1 , le percentile 100(1-) du chi deux à d(d+1)/2-p degrés de liberté (ici 2 degrés de libertés sont associés à ce test). Notons qu’il n’y a pas de correction de Bartlett pour un modèle CFA quelconque. Dans la sortie LISREL, F S , (ˆ) log | ( ) | log | S | tr[S( ) 1 ] d est le Minimum fit function pour le modèle. En fait le test du rapport de vraisemblance n’est pas suffisant pour juger de la qualité d’un ajustement et plusieurs autres statistiques on été mises de l’avant pour ce faire. - 10 - ETUDE DES RÉSULTATS Dans la sortie on regarde : 1. Les variances estimées de variables latentes (une variable latente intéressante varie!) 2. Les tests pour H0 : ji=0 pour savoir si les variables mesurées contribuent de façon significative aux variables latentes construites; 3. Les R2 de chaque variable observée pour voir le pourcentage de sa variabilité expliquée par les variables latentes; 4. Les estimations ˆ s des loadings standardisés pour déterminer les variables les plus ij associées à chaque variable latente; 5. Les indices d’ajustement pour vérifier si le modèle s’ajuste bien aux données; - 11 - AJUSTEMENT DU MODELE PROGRAMME R PROGRAMMATION SAS : library(sem) cov<-matrix( c(1.510,1.133,1.452,0.110, 1.133, 2.283, 2.125, 0.150, 1.452, 2.125, 7.017, 0.113, 0.110, 0.150, 0.113, 0.604), byrow=T, nrow=4, ncol=4, dimnames=list(c("MoEd","FaEd","PaJntInc","HSRan k"),c("MoEd","FaEd","PaJntInc","HSRank"))) data afc(type=cov); _type_="COV"; infile cards missover; input _name_ $ MoEd FaEd PaJntInc HSRank; datalines; MoEd 1.510 FaEd 1.133 2.283 PaJntInc 1.452 2.125 7.017 HSRank 0.110 0.150 0.113 0.604 ; model1<- specify.model() PaSES -> MoEd, NA, 1 PaSES -> FaEd, lam21, NA PaSES -> PaJntInc, lam31, NA AcRank -> HSRank, NA, 1 MoEd <-> MoEd, e1, NA FaEd <-> FaEd, e2, NA PaJntInc <-> PaJntInc, e3, NA HSRank <-> HSRank, NA, 0 PaSES <-> PaSES, vf1, NA AcRank <-> AcRank, vf2, NA PaSES <-> AcRank, covF1F2, NA proc calis data=afc cov pcorr nobs=3094; LINEQS MoEd = F_PaSES + E1, FaEd = lambda_21 F_PaSES + E2, PaJntInc = lambda_31 F_PaSES + E3, HSRank = F_AcRank; STD F_PaSES = var_PaSES, F_AcRank = var_AcRank, E1-E3 = var_e1-var_e3; COV F_PaSES F_AcRank = cov; VAR MoEd FaEd PaJntInc HSRank; run; afc <- sem(model1, cov, 3094) summary(afc) - 12 - PROGRAMME SIMPLIS Quatre variables pour le statut parental et la performance scolaire Observed Variables MoEd FaEd PaJntInc HSRank Correlation Matrix 1 .610 1 .446 .531 1 .115 .128 .055 1 Standard deviations 1.229 1.511 2.649 .777 Sample Size 3094 Latent Variables: PaSES ACRank Relationships: MoEd = 1*PaSES FaEd PaJntInc = PaSES HSRank = 1*ACRank Set the error Variance of HSRank to 0 Number of Decimals = 3 Wide Print Path Diagram End of Problem Programme LISREL TI Quatre variables pour le statut parental et la performance scolaire !DA NI=4 NO=3094 MA=CM SY='C:\Documents and Settings\***\CFA02-06.DSF' MO NX=4 NK=2 TD=SY LK PaSES ACRank FI TD(4,4) FR LX(2,1) LX(3,1) VA 1 LX(1,1) VA 1 LX(4,2) PD OU SC ND=3 Note : LK Donne le nom des variables latentes TD=Theta Delta SY= Symmetric FI=fixe des paramètres FR= spécifie les paramètres libres VA=donne une valeur spécifique à un paramètre (Ce programme pose 1) 31 42 - 13 - SORTIE SAS : Matrice de variances covariances empirique (S): MoEd MoEd 1.510 FaEd 1.133 PaJntInc 1.452 HSRank 0.110 FaEd 1.133 2.283 2.125 0.150 PaJntInc 1.452 2.125 7.017 0.113 HSRank 0.110 0.150 0.113 0.604 Manifest Variable Equations with Estimates MoEd FaEd Std Err t Value PaJntInc Std Err t Value HSRank = = = = 1.0000 F_PaSES 1.4665*F_PaSES 0.0483 lambda_21 30.3663 1.8692*F_PaSES 0.0627 lambda_31 29.7994 1.0000 F_AcRank + + 1.0000 E1 1.0000 E2 + 1.0000 E3 1 1.467 ˆx 1.869 0 0 0 0 1 Cette partie de la sortie SAS donne les éléments de la matrice des coefficients structuraux ˆij (loadings). Tous les coefficients sont significatifs. - 14 - Variances of Exogenous Variables Variable F_PaSES F_AcRank E1 E2 E3 Parameter var_PaSES var_AcRank var_e1 var_e2 var_e3 Estimate 0.77398 0.60400 0.73602 0.61850 4.31268 StdErr tValue 0.03984 19.43 0.01536 39.33 0.02852 25.81 0.04875 12.69 0.13323 32.37 Covariances Among Exogenous Variables Var1 Var2 Parameter F_PaSES F_AcRank cov Estimate Stderr tValue 0.09814 0.01392 7.05 0.7740 0.0981 ˆ = 0.0981 0.6040 0 0 0 0.7360 0 Ces parties de la sortie SAS renseigne sur les éléments de la matrice de 0.6185 0 0 ˆ variances covariances des variables latentes ( ̂ ) et sur les éléments de 0 0 4.3127 0 la matrice de variances covariances des erreurs pour les variables 0 0 0 0 ˆ observées ( ). Comme en régression, le modèle décompose la variance de chaque variable en une partie prédite par le modèle et une partie résiduelle. Par exemple, var( FaEd ) ˆ212 ˆ2 ˆ2 1.4672 0.774 0.6185 2.283 1 1 - 15 - Manifest Variable Equations with Standardized Estimates MoEd = 0.7159 F_PaSES + 0.6982 E1 FaEd = 0.8539*F_PaSES + 0.5205 E2 lambda_21 PaJntInc = 0.6208*F_PaSES + 0.7840 E3 lambda_31 HSRank = 1.0000 F_AcRank ˆijs Squared Multiple Correlations Error Total Variable Variance Variance R-Square 1 2 3 4 MoEd FaEd PaJntInc HSRank 0.73602 0.61850 4.31268 . 1.51000 2.28300 7.01700 0.60400 0.5126 0.7291 0.3854 . Correlations Among Exogenous Variables Var1 F_PaSES Var2 Parameter F_AcRank cov Estimate 0.14354 Ces parties de la sortie SAS donne les loadings standardisés qui sont les corrélations entre les variables observées et les variables latentes. Par exemple, la corrélation entre MoEd et PaSES est de ˆ11s 0.7159 . De plus, le R2 de la régression de PaSES sur MoEd est de 51.26%. La dernière statistique nous renseigne sur la corrélation entre les deux variables latentes, soit r=0.14354. - 16 - L’information sur l’ajustement du modèle peut être résumée dans le diagramme de cheminement suivant : Diagramme de cheminement des variables latentes Effets standardisés d’origine Estimateurs des paramètres - 17 - Interprétation des sorties Le loading standardisé (standardized solution) est défini comme étant ˆijs ˆ2j ˆij , c’est le loading qu’on aurait obtenu si on avait fixé la variance de la variable latente à 1. Dans l’exemple précédent, le loading standardisé pour FaEd est ˆijs .774 1.467 1.290 Par contre le loading complètement standardisé (completely standardized solution) est celui qui tient également compte de la variance de la variable ˆijcs ˆ2j / si2 ˆij Dans l’exemple précédent, le loading complètement standardisé pour FaEd est ˆijs .774 / 2.283 1.467 0.854 Dans LISREL les effets standardisés donnent les loadings complètement standardisés. Standardized Solution Completely Standardized Solution LAMBDA-X LAMBDA-X MoEd FaEd PaJntInc HSRank PaSES 0.880 1.290 1.645 -- ACRank ---0.777 MoEd FaEd PaJntInc HSRank - 18 - PaSES 0.716 0.854 0.621 -- ACRank ---1.000 INDICES D’AJUSTEMENT Tous les programmes pour les modèles d’équations structurelles rapportent plus d’une trentaine d’indices pour évaluer l’ajustement d’un modèle. Le principal défaut du test d’ajustement du rapport de vraisemblance est qu’il dépend de n. Il a tendance à être significatif lorsque n est grand même si le modèle s’ajuste relativement bien. Plusieurs alternatives au test du chi-deux ont été mises de l’avant pour évaluer l’ajustement. On a, par exemple, essayer de généraliser le R2 de la régression qui s’écrit : ( yi yˆ i )2 SSres 2 . R 1 1 2 ( y y ) SS i tot En mot, c’est un moins la proportion de la variabilité de y qui n’est pas expliquée par le modèle de régression. Le GFI (goodness of fit index) reprend cette formule avec SSres F S , (ˆ) et SStot F S , (0) , où (0) est une matrice de variance covariances de référence dont tous les paramètre sont fixes (peut-être que (0) est la matrice identité). Comme valeur de SStot le NFI (normed fit index) prend plutôt SStot F S ,diag(ˆ12 ,...,ˆ d2 ) où F S ,diag(ˆ12 ,...,ˆ d2 ) Fi est proportionnelle à la statistique du chi-deux pour tester l’hypothèse d’indépendance, - 19 - d2( d 1)/2 (n 1) F S ,diag(ˆ12 ,..., ˆ d2 ) (n 1) Fi . Rappelons que si cette statistique est petite, disons du même ordre de grandeur que ses degrés de liberté, l’hypothèse d’indépendance entre les d variables est acceptable. Il est inutile de poursuivre l’analyse. Le Normed fit index est donc 1 moins la proportion du chi-deux d’indépendance qui reste une fois que le modèle a été ajusté, Fi F S , (ˆ) F S , (ˆ) . NFI 1 Fi Fi (attention : peut être inférieur à 1 même si le modèle s’ajuste bien ; cet indice peut sousestimer la qualité de l’ajustement !) Certaines mesures, comme le adjusted goodness of fit index (AGFI) s’inspirent du R2 ajusté, n 1 2 Radj 1 (1 R 2 ) n p 1 (on rappelle que p est le nombre de paramètres du modèle d’équations structurelles). Une version un peu compliquée du NFI, le non normed fit index (NNFI), compare les indices 2 divisés par leur degré de liberté pour le modèle d’indépendance et le modèle à l’étude : - 20 - NNFI Fi / [d ( d 1) / 2 d ] F S , (ˆ) / [d ( d 1) / 2 p] Fi / [d (d 1) / 2 d ] n . Le comparative fit index de Bentler est max ( n 1) F S , (ˆ) d ( d 1) / 2 p,0 . CFI 1 ˆ max (n 1) F S , ( ) d ( d 1) / 2 p,( n 1) Fi d ( d 1) / 2,0 L’ajustement du modèle est jugé satisfaisant si ces indices sont supérieurs à environ 90%. Le « parsimonious normed fit index », PNFI, multiplie le NFI par {d(d+1)/2-p}/{d(d1)/2}, la proportion des paramètres de dépendance non utilisée par le modèle. Une valeur faible indique que le modèle utilise un pourcentage important des paramètres disponibles. Un autre indice mesure le manque d’ajustement. Le root mean squared error approximation (RMSEA), F S , (ˆ) 1 RMSEA max ,0 d (d 1) / 2 p n 1 qui doit être inférieur à 6%. - 21 - Goodness of Fit Statistics (LISREL) ECVI for Saturated Model = 0.00647 ECVI for Independence Model = 0.888 Degrees of Freedom = 2 =d(d+1)/2-p Minimum Fit Function Chi-Square = 7.405 (P = 0.0247) Test d’ajustement du modèle (Hypothèse nulle: le modèle postulé décrit bien la relation entre les variables, Alternative : le modèle ne décrit pas bien cette relation) Normal Theory Weighted Least Squares Chi-Square = 7.372 (P = 0.0251) Estimated Non-centrality Parameter (NCP) = 5.372 90 Percent Confidence Interval for NCP = (0.491 ; 17.733) Minimum Fit Function Value F S , (ˆ) =0.00239 Chi-Square for Independence Model with 6 Degrees of Freedom = 2739.195 Test d’indépendance, Hypothèse nulle: Les 4 variables du modèle sont indépendantes (les 6 paramètres de covariance sont nuls) Independence AIC = 2747.195 Model AIC = 23.372 Saturated AIC = 20.000 Independence CAIC = 2775.344 Model CAIC = 79.670 Saturated CAIC = 90.372 (AIC=Akaike Information Criterion) Normed Fit Index (NFI) = 0.997 Non-Normed Fit Index (NNFI) = 0.994 Parsimony Normed Fit Index (PNFI) = 0.332 Comparative Fit Index (CFI) = 0.998 Incremental Fit Index (IFI) = 0.998 Relative Fit Index (RFI) = 0.992 (livre p. 89-90) =7.405/3093 Population Discrepancy Function Value (F0) = 0.00174 90 Percent Confidence Interval for F0 = (0.000159 ; 0.00573) Root Mean Square Error of Approximation (RMSEA) = 0.0295 .00239 / 2 1/ 3093 90 Percent Confidence Interval for RMSEA = (0.00891 ; 0.0535) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.915 Critical N (CN) = 3848.465 Root Mean Square Residual (RMR) = 0.0228 Standardized RMR = 0.0116 Goodness of Fit Index (GFI) = 0.999 Adjusted Goodness of Fit Index (AGFI) = 0.994 Parsimony Goodness of Fit Index (PGFI) = 0.200 Expected Cross-Validation Index (ECVI) = 0.00756 90 Percent Confidence Interval for ECVI = (0.00598 ; 0.0116) - 22 - Bentler's Comparative Fit Index 0.9979 Normal Theory Reweighted LS Chi-Square 7.3963 Akaike's Information Criterion 3.4288 Bozdogan's (1987) CAIC -10.6457 Schwarz's Bayesian Criterion -8.6457 McDonald's (1989) Centrality 0.9991 Bentler & Bonett's (1980) Non-normed Index 0.9938 Bentler & Bonett's (1980) NFI 0.9972 James, Mulaik, & Brett (1982) Parsimonious NFI 0.3324 Z-Test of Wilson & Hilferty (1931) 1.9794 Bollen (1986) Normed Index Rho1 0.9915 Bollen (1988) Non-normed Index Delta2 0.9979 Hoelter's (1983) Critical N 2496 INDICE D’AJUSTEMENT DE LA SORTIE SAS (LISTE ÉCOURTÉE) Fit Function 0.0024 Goodness of Fit Index (GFI) 0.9988 GFI Adjusted for Degrees of Freedom (AGFI) 0.9940 Root Mean Square Residual (RMR) 0.0228 Parsimonious GFI (Mulaik, 1989) 0.3329 Chi-Square 7.4288 Chi-Square DF 2 Pr > Chi-Square 0.0244 Independence Model Chi-Square 2628.6 Independence Model Chi-Square DF 6 RMSEA Estimate 0.0296 RMSEA 90% Lower Confidence Limit 0.0091 RMSEA 90% Upper Confidence Limit 0.0537 ECVI Estimate 0.0076 ECVI 90% Lower Confidence Limit 0.0060 ECVI 90% Upper Confidence Limit 0.0116 Probability of Close Fit 0.9133 - 23 - CONCLUSIONS POUR LE PREMIER EXEMPLE: 2 Statistique du chi deux (et obs / 2 =3.71) un peu grande ; ceci est sans doute attribuable à la grande taille d’échantillon ; Cette grande valeur vient du fait que la corrélation observée de 0.055 entre PaJntInc et HSRank est beaucoup plus petite que la corrélation prédite .089. En fait PaJntInc mesure le volet économique du milieu socio économique parental alors que les deux autres variables sont associés à l’aspect académique de ce milieu. HSRank qui mesure la performance académique est plus corrélée avec MoEd et FaEd qu’avec PaJntInc. On pourrait raffiner le modèle en distinguant deux aspects, académique et économique, au milieu parental. Les indices d’ajustement sont bons, cependant les indices de parcimonie sont faibles ; le modèle utilise beaucoup de paramètres pour modéliser 10 degrés de liberté ; Le R2 de .386 pour PaJntInc est faible et pose la question à savoir si cette variable est vraiment utile pour caractériser le niveau socio-économique des parents. Notons cependant que le loading associé à cette variable, ˆ13 1.869 , est significativement différent de 0 (t=30). Ceci suggère de conserver cette variable dans le modèle. Le alpha de Cronbach pour la variable latente PaSES est de .77. Les 3 items sousjacents sont bien associés à un même construit latent. - 24 - ANALYSE FACTOREILLE CONFIRMATOIRE : QUE FAIRE SI L’AJUSTEMENT EST MAUVAIS Le bon ajustement d’un modèle d’analyse factorielle confirmatoire signifie que l’analyste a identifié une structure plausible pour le phénomène étudié. Évidemment, cette structure plausible n’est pas unique et il est possible qu’une analyse des mêmes données avec un autre modèle donne des résultats aussi bons! Que faire si le modèle postulé ne s’ajuste pas bien? On peut 1. Rejeter le modèle étudié comme étant incapable de bien représenter la structure des données à l’étude. 2. Choisir le modèle qui s’ajuste le mieux parmi une liste dressée a priori des modèles susceptibles de bien expliquer les données. 3. Modifier le modèle en se basant sur des mesures d’ajustement et sur des statistiques diagnostiques dont nous allons discuter maintenant. On distingue souvent deux types d’erreurs, externes et internes. L’oubli d’une variable importante pour l’analyse est une erreur externe alors que l’omission d’un lien entre deux variables de l’analyse est une erreur interne. Une bonne connaissance du domaine d’application des équations structurelles offre une certaine protection contre les erreurs externes. Des outils statistiques sont disponibles pour mettre en lumière les erreurs internes. - 25 - Modification Indices (MI) et Expected Parameter Change (EPC) Ces deux classes de statistiques sont des outils pour détecter et corriger les erreurs internes pour un modèle. On peut ajouter au modèle des paramètres structuraux ou éventuellement des covariances entre les variables observées, c’est-à-dire des éléments non nuls hors de la diagonale de la matrice . Si un paramètre est fixé à 0 dans la spécification initiale du modèle on peut étudier le bien fondé de cette décision en testant l’hypothèse H0 :=0. Une statistique score, souvent appelé test du multiplicateur de Lagrange, peut être utilisée dans ce cas. L’intérêt d’un test score est qu’il peut être calculé sans faire un nouvel ajustement du modèle, en y ajoutant un nouveau possiblement non nul. En analyse d’équations structurelles les MI sont les statistiques chi-deux observées, à un degré de liberté, pour les tests scores de paramètres fixés à 0 lors de l’ajustement initial du modèle. On va maintenant construire des variables latentes pour les variables endogènes dans l’exemple du milieu socio-économique. Dans l’exemple de diagramme de cheminement avec variables observée, on avait trois variables endogènes DegreAsp → Selctvty → Degree. On va chercher à mieux caractériser l’ambition et le milieu socio-économique en les définissant à partir de plusieurs variables observées. - 26 - CFA POUR LA MOTIVATION ACADEMIQUE, LE PRESTIGE DU COLLEGE ET LE STATUT SOCIO-ECONOMIQUE On a 7 variables observées X1=AcAbilty, X2=SelfConf, X3=DegreAsp, X4=Selctvty, X5=Degree, X6=OcPrestg X7=Income. La matrice de variances covariances à modéliser est AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income AcAbilty 0.554 0.283 0.178 0.566 0.173 0.193 0.077 SelfConf DegreAsp Selctvty Degree OcPrestg Income 0.612 0.163 0.336 0.135 0.112 0.051 1.028 0.432 0.247 0.202 0.041 3.960 0.486 0.491 0.240 0.925 0.736 0.166 2.531 0.352 2.647 On veut exprimer ces variables en terme de trois variables latentes, à savoir 1= Motivation académique, 2= Prestige du collège et 3= Statut socio-économique de la façon suivante, X1=AcAbilty, X2=SelfConf, X3=DegreAsp → 1= Motivation académique,( AcMotiv ) X4=Selctvty → 2= Prestige du collège (ColgPres ) X5=Degree, X6=OcPrestg X7=Income → 3=Statut socio-économique (SES) - 27 - UN PROBLEME POTENTIEL En principe, dans un modèle d’analyse factorielle confirmatoire, deux variables associées à une même variable latente devraient être plus corrélées entre elles que si elles étaient associées à deux variables latentes différentes. En effet, dans ce dernier cas la corrélation entre les deux variables vient seulement de la corrélation entre les deux variables latentes. Dans cet exemple, les corrélations entre Degree et Income est de .106 alors que la corrélation Degree DegreAsp est de .253. Ces corrélations contreviennent à la règle générale énoncée plus haut. Elle laisse planer un doute concernant la qualité du modèle postulé. On note également la faible corrélation de Income avec toutes les autres variables. AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income AcAbilty 1 0.487 0.236 0.382 0.242 0.163 0.064 SelfConf DegreAsp Selctvty Degree OcPrestg Income 1 0.206 0.216 0.179 0.090 0.040 1 0.214 0.253 0.125 0.025 1 0.254 0.155 0.074 1 0.481 0.106 1 0.136 1 Note: les de Cronbach pour Degree , OcPrestg ,Income (correlation moyenne rm=.241, s=0.49) et AcAbilty, SelfConf, DegreAsp (rm=.310, s=0.57) ne satisfont pas le critère 3rm s 0.7 . 1 2rm - 28 - Le modèle de CFA est décrit par les matrices suivantes 11 0 0 21 31 0 x 0 42 0 0 0 0 0 0 0 0 2 0 1 0 12 53 13 63 73 2 2 1 2 2 2 3 1 3 2 3 3 21 0 2 0 2 0 0 et 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 2 0 0 0 0 2 0 0 0 0 2 0 0 0 0 3 4 5 6 0 0 0 0 0 0 2 7 Sample Size 3094 Latent Variables: AcMotiv ColgPres SES Relationships: AcAbilty = 1*AcMotiv SelfConf = AcMotiv DegreAsp = AcMotiv Selctvty = 1*ColgPres Degree = 1*SES OcPrestg =SES Income=SES Set the error Variance of Selctvty to 0 Number of Decimals = 3 Wide Print Path Diagram End of Problem Le programme SIMPLIS et sa sortie sont : Observed Variables AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income Correlation Matrix 1 .487 1 .236 .206 1 .382 .216 .214 1 .242 .179 .253 .254 1 .163 .090 .125 .155 .481 1 .064 .040 .025 .074 .106 .136 1 Standard deviations .744 .782 1.014 1.990 .962 1.591 1.627 - 29 - LISREL Estimates (Maximum Likelihood) Goodness of Fit Statistics Measurement Equations AcAbilty = 1.000*AcMotiv, Errorvar.= 0.193 R=0.651 (0.0161) 11.972 Degrees of Freedom = 12 Minimum Fit Function Chi-Square = 155.501 (P = 0.0) Minimum Fit Function Value = 0.0503 Population Discrepancy Function Value (F0) = 0.0459 90 Percent Confidence Interval for F0 = (0.0341 ; 0.0600) Root Mean Square Error of Approximation (RMSEA) = 0.0618 90 Percent Confidence Interval for RMSEA = (0.0533 ; 0.0707) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.0116 SelfConf = 0.765*AcMotiv, Errorvar.= 0.401 R²=0.345 (0.0371) (0.0138) 20.605 29.045 DegreAsp = 0.568*AcMotiv, Errorvar.= .912 R²=0.113 (0.0387) (0.0244) 14.671 37.415 Selctvty = 1.000*ColgPres,, R² = 1.000 Degree = 1.000*SES, Errorvar.= 0.287 (0.0430) 6.671 , R² = 0.690 Expected Cross-Validation Index (ECVI) = 0.0601 (ou .0606 selon le livre p.107) 90 Percent Confidence Interval for ECVI = (0.0483 ; 0.0742) OcPrestg = 1.151*SES, Errorvar.= 1.685 , R² =0.334 (0.0808) (0.0708) 14.254 23.801 .5 CS= 1.151(.639/2.531) =.578 Income = 0.309*SES, Errorvar.= 2.586 , R² = 0.0230 (0.0452) (0.0663) 6.833 38.985 Chi-Square for Independence Model with 21 Degrees of Freedom = 3526.069 Independence AIC = 3540.069 Model AIC = 185.852 Saturated AIC = 56.000 Independence CAIC = 3589.330 Model CAIC = 298.447 Saturated CAIC = 253.042 On note le petit R2 de 2.3% Covariance Matrix of Independent Variables AcMotiv ColgPres AcMotiv 0.360 (0.020) 17.784 ColgPres 0.549 3.960 (0.028) (0.101) 19.604 39.326 SES 0.184 0.478 (0.013) (0.035) 14.377 13.631 Normed Fit Index (NFI) = 0.956 Non-Normed Fit Index (NNFI) = 0.928 Parsimony Normed Fit Index (PNFI) = 0.546 Comparative Fit Index (CFI) = 0.959 Incremental Fit Index (IFI) = 0.959 Relative Fit Index (RFI) = 0.923 Critical N (CN) = 522.490 Root Mean Square Residual (RMR) = 0.0540 Standardized RMR = 0.0370 Goodness of Fit Index (GFI) = 0.986 Adjusted Goodness of Fit Index (AGFI) = 0.967 Parsimony Goodness of Fit Index (PGFI) = 0.423 SES 0.639 (0.048) 13.325 - 30 - Faits saillants de l’analyse : 1-Income contribue très peu à la variable SES (R² = 0.0230) 2 2- Mauvais ajustement 12 153.85 . Les degrés de liberté sont calculés de la façon suivante dl =7*8/2-6-4- 6 = 12 où 6= # variances résiduelles, 4= # paramètres qui varient, 6= # de paramètres dans la matrice . En fait ce modèle compte 6+4+6=16 paramètres. On va chercher les aspects les plus problématiques du modèle à l’aide des indices de modification (MI) et ajouter certains paramètres au modèle - 31 - The Modification Indices Suggest to Add the Path to AcAbilty AcAbilty SelfConf DegreAsp DegreAsp OcPrestg from Decrease in Chi-Square ColgPres 12.5 SES 12.1 ColgPres 43.4 ColgPres 19.5 SES 85.3 AcMotiv 8.6 New Estimate 0.05 -0.10 -0.07 0.05 0.27 -0.31 La suggestion qui baisse le plus la statistique chi-deux ne respecte pas la construction du modèle: DegreAsp est un déterminant de AcMotiv. SES ne peut contribuer à cette variable. The Modification Indices Suggest to Add an Error Covariance Between #1 SelfConf #3 DegreAsp #7 Selctvty #4 Selctvty #9 Selctvty #8 Degree #2 Degree #5 Income #6 Income and Decrease in Chi-Square AcAbilty 70.9 AcAbilty 56.7 AcAbilty 14.5 SelfConf 35.7 DegreAsp 10.2 AcAbilty 13.6 DegreAsp 70.8 Degree 20.5 OcPrestg 15.2 Note : LISREL sort ces statistiques par défaut. - 32 - New Estimate 0.23 -0.12 0.14 -0.18 0.11 -0.04 0.12 -0.16 0.17 #1 SelfConf AcAbilty #2 Degree DegreAsp DegreAsp SES 70.9 70.8 85.3 Stratégie d’analyse 1- On libère un paramètre s’il a un grand MI et si son EPC est grand s’il respect la logique du modèle. 2- On peut régler un problème de deux façons différentes, en ajoutant un nouveau ou en permettant à certaines erreurs de covarier. - 33 - Suggestions pour la suite : 1- Laisser tomber Income et utiliser seulement deux variables pour définir la variable latente SES ; 2- On ajoute des covariances entres les erreurs résiduelles pour (1) SelfConf et AcAbilty et (2) Degree et DegreAsp Programme SIMPLIS avec ces changements Observed Variables AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Correlation Matrix 1 .487 1 .236 .206 1 .382 .216 .214 1 .242 .179 .253 .254 1 .163 .090 .125 .155 .481 1 Standard deviations .744 .782 1.014 1.990 .962 1.591 Sample Size 3094 Latent Variables: AcMotiv ColgPres SES Relationships: AcAbilty = 1*AcMotiv SelfConf = AcMotiv DegreAsp = AcMotiv Selctvty = 1*ColgPres Degree = 1*SES OcPrestg =SES Set the error Variance of Selctvty to 0 Set the error Covariance of AcAbilty and SelfConf free Set the error Covariance of Degree and DegreAsp free Number of Decimals = 3 Wide Print Path Diagram End of Problem 6.6in.02in LISREL Estimates (Maximum Likelihood) Measurement Equations AcAbilty = 1.000*AcMotiv, Errorvar.= 0.323,R²=0.416 (0.0206) 15.713 SelfConf = 0.683*AcMotiv, Errorvar.= 0.504,R²=0.176 (0.0389) (0.0174) 17.551 28.999 DegreAsp = 0.811*AcMotiv, Errorvar.= 0.877,R²=0.147 (0.0652) (0.0255) 12.440 34.451 Selctvty = 1.000*ColgPres,, R² = 1.000 Degree = 1.000*SES, Errorvar.= 0.237 (0.0527) 4.492 - 34 - , R² = 0.743 OcPrestg = 1.066*SES, Errorvar.= 1.751 (0.0856) (0.0748) 12.450 23.428 90 Percent Confidence Interval for F0 = (0.00306 ; 0.0137) Root Mean Square Error of Approximation (RMSEA) = 0.0379 90 Percent Confidence Interval for RMSEA = (0.0247 ; 0.0524) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.912 ,R² = 0.308 Error Covariance for SelfConf and AcAbilty = 0.126 (0.0156) 8.069 Error Covariance for Degree and DegreAsp = 0.0895 (0.0161) 5.558 Expected Cross-Validation Index (ECVI) = 0.0191 90 Percent Confidence Interval for ECVI = (0.0150 ; 0.0257) ECVI for Saturated Model = 0.0136 ECVI for Independence Model = 1.102 La variance de AcMotiv a baissé de .360 à .230 ! Les R2 associés à cette variable ont diminués, sans doute parce que l’on permet une corrélation entre SelfConf and AcAbilty. Normed Fit Index (NFI) = 0.992 Non-Normed Fit Index (NNFI) = 0.980 Parsimony Normed Fit Index (PNFI) = 0.331 Goodness of Fit Index (GFI) = 0.997 Adjusted Goodness of Fit Index (AGFI) = 0.988 Parsimony Goodness of Fit Index (PGFI) = 0.237 Covariance Matrix of Independent Variables AcMotiv ColgPres SES AcMotiv 0.230 (0.022) 10.438 0.551 (0.028) 19.541 0.181 (0.013) 13.980 ColgPres 3.960 (0.101) 39.326 0.484 (0.035) 13.725 SES Evidemment, l’ajustement est meilleur qu’avant, cependant le construit AcMotiv manque de stabilité. Sa variance relativement est faible de AcMotiv .230 . Un Intervalle de confiance à 95% est (.186, .274). 0.686 (0.057) 12.062 Goodness of Fit Statistics Degrees of Freedom = 5 Minimum Fit Function Chi-Square = 27.464 (P = 0.000) Minimum Fit Function Value = 0.00888 Population Discrepancy Function Value (F0) = 0.00718 - 35 - Les estimés et les estimés standardisés 36 DISCUSSION DES RESULTATS 1-L’instrument mis au point répond-il aux attentes ? Mesure-t-il ce pourquoi il a été développé ? Les valeurs possibles de l’instrument couvrent-elles une plage suffisamment large ? (Note : Instrument = Variable latente construite) Validité = corrélation avec d’autres variables censées mesurées la même chose. L’analyse confirmatoire permet de définir 3 dimensions à validité : 1- Bon ajustement statistique du modèle aux données ; 2- Des coefficients assez grands (pour comparer 2 jeux de données on utilise les coefficients non standardisés alors que pour comparer les variables entre elles on utilise les coefficients standardisés) ; 3- Une correspondance entre les relations estimées et espérées entre les variables latentes. Fiabilité 1- Stabilité temporelle (corrélation entre deux temps de collecte, carry-over effect ?) 2- Cohérence interne (corrélation entre les 2 composantes d’un construit ou alpha de Cronbach) 3- Les R2 qui donnent la proportion de variance expliquée par les construits sont grands 37 4- ANALYSE FACTORIELLE CONFIRMATOIRE : ÉVALUATION DES POLICIERS Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien 262 34.94 CommSk LearnAbi Judgment ObserSk WillConP IntPeop InterPer DesiSelf Depend Inegrety Factor 1 0.457 0.187 0.639 0.134 0.103 0.886 0.901 0.414 0.580 0.768 Factor 2 0.575 0.708 0.382 0.862 0.797 0.159 0.048 0.644 0.551 0.321 Unique Var 0.460 0.464 0.446 0.239 0.353 0.190 0.186 0.415 0.361 0.307 Facteur 1 : Relations interpersonnelles Facteur 2 : Habilités individuelles En général un item n’est associé qu’à un seul construit latent. On peut donc 5 items à chacun des deux construit sur la base du plus grand jis .Ceci donne un modèle d’AFC dont nous allons maintenant évalué l’ajustement. 38 Programme Simplis CFA: donnees sur les policiers; estimation des variables latentes Raw data from file job13AFE.lSF Reorder variables: ObserSk CommSk DesiSelf LearnAbi WillConP IntPeop Judgment InterPer Depend Inegrety Latent variables: Perso Rela Relationships: ObserSk =1*Perso CommSk DesiSelf LearnAbi WillConP = Perso IntPeop =1*Rela Judgment InterPer Depend Inegrety =Rela path diagram Number of Decimals=3 End of Program Clairement le modèle proposé ne s’ajuste pas bien Goodness of Fit Statistics Degrees of Freedom for (C1)-(C2) 34 Maximum Likelihood Ratio Chi-Square (C1) 121.396 (P = 0.0000) Browne's (1984) ADF Chi-Square (C2\_NT) 130.842 (P = 0.0000) Estimated Non-centrality Parameter (NCP) 87.396 90 Percent Confidence Interval for NCP (57.505 ; 124.877) Minimum Fit Function Value 1.179 Population Discrepancy Function Value (F0) 0.849 90 Percent Confidence Interval for F0 (0.558 ; 1.212) Root Mean Square Error of Approximation (RMSEA) 0.158 90 Percent Confidence Interval for RMSEA (0.128 ; 0.189) P-Value for Test of Close Fit (RMSEA $<$ 0.05) 0.000 Expected Cross-Validation Index (ECVI) 1.586 90 Percent Confidence Interval for ECVI (1.296 ; 1.950) ECVI for Saturated Model 1.068 ECVI for Independence Model 12.310 Chi-Square for Independence Model (45 df) 1247.947 39 Normed Fit Index (NFI) 0.902 Non-Normed Fit Index (NNFI) 0.903 Parsimony Normed Fit Index (PNFI) 0.681 Comparative Fit Index (CFI) 0.927 Incremental Fit Index (IFI) 0.927 Relative Fit Index (RFI) 0.870 Covariance Matrix of Independent Variables Perso Rela -------- -------Perso 2.101 (0.429) 4.896 Critical N (CN) 48.104 Rela 1.429 2.822 (0.321) (0.500) 4.449 5.641 On inclut dans le modèle des covariances entre certaines variables observes pour obtenir un meilleur ajustement. Les indices de modifications suggérent d’ajouter un lien de Perso à Depen. Cette modification pourrait également être envisagée. Notons que l’ajout des trois covariances résiduelles augmente la corrélation entre les deux facteurs latents qui passe de 0.59 à 0.71. Il faut aussi noter que l’ajout de covariance diminue les R2 car la variable latente n’est plus la seule explication pour la variabilité d’une variable observée. Elle diminue aussi la variance des variables latentes. Par exemple, celle de Rela passe de 2.82 à 2.39. Dans le modèle retenu le RMSEA est élevé. Peut-être qu’identifier Depen à un seul construit n’est pas approprié. C’est toutefois ce modèle que nous allons utiliser pour construire un modèle de prédiction pour le score global. 40 Sortie SIMPLIS pour le modèle choisi Measurement Equations ObserSk = 1.000*Perso, Errorvar.= 1.331 , R\² = 0.571 Standerr (0.233) Z-values 5.726 CommSk = 1.055*Perso, Errorvar.= 1.335 , R\² = 0.596 Standerr (0.137) (0.240) Z-values 7.675 5.572 DesiSelf = 1.031*Perso, Errorvar.= 1.110 , R\² = 0.629 41 Standerr (0.132) (0.206) Z-values 7.810 5.378 LearnAbi = 0.747*Perso, Errorvar.= 0.805 , R\² = 0.551 Standerr (0.102) (0.137) Z-values 7.307 5.885 WillConP = 0.783*Perso, Errorvar.= 1.239 , R\² = 0.467 Standerr (0.0866) (0.201) Z-values 9.040 6.159 IntPeop = 1.000*Rela, Errorvar.= 1.186 , R\² = 0.669 Standerr (0.222) Z-values 5.340 Judgment = 0.821*Rela, Errorvar.= 1.383 , R\² = 0.539 Standerr (0.103) (0.225) Z-values 8.004 6.154 InterPer = 0.833*Rela, Errorvar.= 1.370 , R\² = 0.548 Standerr (0.0711) (0.220) Z-values 11.706 6.222 Depend = 0.967*Rela, Errorvar.= 1.437 , R\² = 0.609 Standerr (0.112) (0.248) Z-values 8.654 5.801 Inegrety = 1.021*Rela, Errorvar.= 0.907 , R\² = 0.734 Standerr (0.105) (0.192) 42 Z-values 9.688 4.722 Error Covariance for WillConP and ObserSk = 0.573 (0.174) 3.295 Error Covariance for InterPer and CommSk = 0.493 (0.139) 3.547 Error Covariance for InterPer and IntPeop = 0.642 (0.178) 3.609 Covariance Matrix of Independent Variables Perso Rela -------- -------Perso 1.772 (0.413) 4.290 Rela 1.472 2.395 (0.315) (0.491) 4.679 4.876 43
Documents pareils
Équations structurelles : Devoir long
deuxième groupe. Dans le deuxième groupe tous les paramètres associés au temps 1 sont
identiques à ceux du premier groupe. Puisqu’il n’y a pas de données au temps 2, fixez les
loadings pour ce temp...