Équations structurelles : Devoir long
Transcription
Équations structurelles : Devoir long
1 STT-7620 Le 6 novembre 2013 Devoir 4 1-Comparaison fille-garçon du modèle pour la construction des variables latente explicatives dans l’exemple sur le milieu socio économique de l’étudiant. Dans l’exemple SES en plus des données sur les 3094 garçons analysées au cours, on dispose de données pour 3833 filles. Les énoncés Simplis permettant de lire les 4 variables pour les deux groupes sont : Group 1: garcon Observed Variables MoEd FaEd PaJntInc HSRank Correlation Matrix 1 .610 1 .446 .531 1 .115 .128 .055 1 Standard deviations 1.229 1.511 2.649 .777 Sample Size 3094 Group 2: fille Observed Variables MoEd FaEd PaJntInc HSRank Correlation Matrix 1 .605 1 .418 .522 1 .092 .104 .082 1 Standard deviations 1.254 1.526 2.619 .681 Sample Size 3833 On veut comparer la stabilité de la définition des variables latentes entre les deux groupes. a) Ajuster les modèles suivants et mettre dans un tableau les degrés de liberté et la statistique chi-deux pour l’ajustement: Les deux modèles CFA ont exactement les mêmes paramètres Seules les variances résiduelles ( 21 , 22 , 23 ) varient d’un groupe à l’autre; Les variances résiduelles ( 21 , 22 , 23 ) et les variances des deux variables latentes varient d’un groupe à l’autre; Les deux modèles CFA n’ont aucun paramètre en commun; Seule la matrice varie d’un groupe à l’autre; Toute les caractéristiques (loadings, variances et variance résiduelles) associées à la définition de PaSES sont les mêmes dans le deux groupes (et les autres paramètres changent) Seule la variance de ACRank varie entre les deux groupes b) Conclure votre analyse en des termes non techniques : Les modèles pour les deux groupes sont-ils identiques? Quelles sont, le cas échéant, les différences les plus importantes entre les deux groupes. c) La variance de HSRank change d’un goupe à l’autre. Elle est de .47 pour les filles et de .60 pour les garçons. C’est la seule différence entre les deux groupes. 2 Modèle Min fit f. dl seuil o. 1 73.68 12 0 2 70.23 9 0 3 70.22 8 0 4 8.20 4 8% 5 13.50 9 14% 6 13.61 10 19% 7 15.33 11 16% 2-Erreurs de mesure Soient et deux variables, disons des indicateurs du niveau de scolarité (FAED) et d’accomplissements professionnels (FAOC) du père. On suppose que et suivent une distribution normale, 2 N 2 , 2 On veut mesurer la corrélation entre et , ou encore faire la régression de l’une sur l’autre. Les mesures de ces indicateurs sont entachées d’erreur. On observe X= + et Y= + où et les erreurs de mesure, sont des variables aléatoires indépendantes, de distribution N(0, 2 ) et N(0, 2 ), qui sont indépendantes de et . a) Montrer que la corrélation entre X et Y sous estime la corrélation entre et . Qu’en est-il du coefficient de la régression de Y sur X? (pour évaluer les coefficients de régression, utiliser la version théorique vue dans la partie 0 des notes de cours.) On a ( X , Y ) / ( 2 2 ) (2 2 ) qui est inférieur à . De même le coefficient de la régression de Y sur X est / ( 2 2 ) il est plus petit que / le coefficient de la régression de sur . b) Une solution au problème des erreurs de mesure utilise une deuxième observation, prise indépendamment de la première après un certain intervalle de temps pour chacun des sujets de l’échantillon. On a par exemple X1= + et X2= + deux observations indépendantes de FAED pour le même sujet (on suppose que les erreurs de mesure et sont indépendantes); on observe également Y1= + et Y2= + auprès de chaque sujet. Formuler un modèle AFC pour (X1, X2, Y1, Y2) qui fasse intervenir la matrice de variances covariances comme étant un des paramètres. Quels sont les paramètres estimables du modèle? combien y a-t-il de degrés de liberté pour l’erreur? 1 0 1 0 avec aucun paramètre libre, la matrice On a un modèle CFA qui implique 0 1 0 1 diagonale 4x4 des variances des erreurs de mesures et . Il y a en tout 7 paramètres libres et 3 degrés de liberté pour l’erreur c) Ajuster le modèle suggéré en b) aux données suivantes Observed Variables Faoc1 Faoc2 Faed1 Faed2 Covariance Matrix 180.9 3 126.77 217.56 23.96 30.20 16.24 22.86 30.47 14.36 15.13 Sample Size 348 Ajuster différents modèles pour évaluer s’il est approprié de fixer tous les loadings égaux à 1. Évaluer le biais de la corrélation entre X1 et Y1 comme estimateur de la corrélation entre et . Avec tous les loadings non nuls égaux à 1, on a un minimum fit chi square de 10.38 pour 3 dl (seuil obs. 1.6%). Par contre si on permet des valeurs différentes aux deux loadings de Faoc on obtient un minimum fit chi square de 1.98 pour 2 dl (seuil obs. 37%). On conserve donc ce modèle. La corrélation entre X1 et Y1 est de 23.96 r1 0.44 alors que celle entre les 2 variables latentes 180.9 16.24 23.19 est r 0.62 . 96.74 14.35 d) En fait les 348 réinterrogées une deuxième fois constituent un échantillon de personnes interrogées au temps 1; 1672 personnes n’ont pas été réinterrogées au temps 2. Les données pour les personnes peuvent s’écrire (les valeurs 1 et 0 sont arbitraires) Observed Variables Faoc1 Faoc2 Faed1 Faed2 Covariance Matrix 217.27 0 1 25.57 0 16.16 0 0 0 1 Sample Size 1672 Refaire l’analyse présentée en c) en incluant ces nouvelles données comme provenant d’un deuxième groupe. Dans le deuxième groupe tous les paramètres associés au temps 1 sont identiques à ceux du premier groupe. Puisqu’il n’y a pas de données au temps 2, fixez les loadings pour ce temps à 0 et les variances des erreurs à 1. Notez que ceci donne des variances de 1 et des covariances de 0 pour le temps 2 tel que spécifié dans la matrice de données. e) Validez le calcul des degrés de liberté (attention LISREL considère les variances de 1 et les covariances de 0 comme de vraies données). Vérifiez la statistique du chi-deux et faire un test d’ajustement. L’ajout du deuxième jeu de données permet-il d’améliorer la précision de l’estimation de la covariance entre les deux variables latentes ? De combien ? LISREL rapporte un minimum fit function chisquare de 7.11 pour 12 degré de liberté. Il y a en fait 10+3=13 paramètres libres au départ et on ajuste un modèle avec 8 degrés de liberté. Il reste donc 5 degrés de liberté, et non pas 12, pour l’erreur. Lisrel interprète les 7 variances et covariances bidon comme des vrais paramètres ! L’estimation de la covariance passe de 23.19 à 25.19 quand on ajoute le deuxième groupe. Sa variance va de3.05 à 1.41. Cette réduction d’environ 50% est appréciable ! 4 3- Le fichier psych.PSF contient des données sur la présence ou l’absence de 10 comportements chez 518 enfants en garderie. Les données sont codée 1=souvent, 2=quelquefois et 3=jamais. a) Calculez la matrice de corrélation en traitant les données comme étant (i) continues et (ii) ordinales. Expliquez brièvement comment les corrélations polychoriques sont calculées dans ce deuxième cas. Observez-vous un phénomène d’atténuation selon lequel traiter des données ordinales comme étant continues donne des corrélations plus proches de 0 ? b) Combien de facteurs latents sont-ils nécessaires pour bien modéliser ces données ? Utilisez une l’AFE pour données ordinales pour répondre à cette question. Ajustez ensuite un modèle AFC pour le nombre de facteurs trouvés, où chaque variable observée est associée à un seul construit latent. Utilisez les corrélations polychoriques et l’analyse de la matrice de variances covariances asymptotiques fournie par LISREL dans vos calculs. c) Réajusatez le modèle AFC de b) en traitant les données comme étant continues. Comparez les R2 pour les variables observées et la corrélation entre les deux variables latentes avec celles calculées en b). Discuter. Quelle analyse semble être la plus intéressante ? Correlation Matrix (données ordinales sous la diagonale et données continues au dessus de la diagonale ) G_taquin G_colere G_agcont G_faitma G_compag G_pretej 0.668 0.708 0.662 -0.136 -0.079 G_taquin 1.000 0.804 0.654 -0.181 -0.137 0.836 G_colere 1.000 0.668 -0.166 -0.127 0.877 0.930 G_agcont 1.000 -0.149 -0.072 0.836 0.824 0.838 G_faitma 1.000 -0.242 -0.207 -0.281 -0.257 -0.243 G_compag 1.000 -0.118 -0.199 -0.181 -0.112 0.726 G_pretej 1.000 -0.435 -0.428 -0.445 -0.398 0.652 0.528 G_bonent 0.189 0.138 0.161 0.219 -0.712 -0.571 G_amuse -0.265 -0.257 -0.253 -0.240 0.836 0.718 G_conten -0.156 -0.268 -0.198 -0.231 0.670 0.744 G_moment G_bonent G_amuse G_conten G_moment -0.285 0.105 -0.171 -0.116 G_taquin -0.273 0.073 -0.161 -0.189 G_colere -0.279 0.090 -0.157 -0.146 G_agcont -0.242 0.114 -0.137 -0.160 G_faitma 0.467 -0.281 -0.257 -0.243 G_compag 0.362 -0.410 0.531 0.608 G_pretej 0.590 0.404 -0.462 G_bonent 1.000 -0.685 -0.427 -0.653 G_amuse 1.000 0.555 0.777 -0.830 G_conten 1.000 0.591 -0.590 0.768 G_moment 1.000 L’atténuation des corrélations par un facteur d’environ 30% est remaquable. Analyse ordinale (analyse continue entre paranthèses) LISREL Estimates (Robust Maximum Likelihood) 5 Measurement Equations G_taquin = 0.90*confli, Errorvar.= 0.19 , Rý = 0.81 (0.62) (0.020) (0.057) 45.01 3.31 G_colere = 0.95*confli, Errorvar.= 0.100 , Rý = 0.90 (0.77) (0.017) (0.054) 56.30 1.84 G_agcont = 0.97*confli, Errorvar.= 0.050 , Rý = 0.95 (0.82) (0.013) (0.051) 75.00 0.98 G_faitma = 0.87*confli, Errorvar.= 0.24 , Rý = 0.76 (0.58) (0.024) (0.061) 35.70 3.94 G_compag = 0.86*ami, Errorvar.= 0.27 , Rý = 0.73 (0.59) (0.026) (0.063) 32.36 4.25 G_pretej = 0.75*ami, Errorvar.= 0.44 , Rý = 0.56 (0.42) (0.032) (0.065) 23.13 6.84 G_bonent = 0.79*ami, Errorvar.= 0.38 , Rý = 0.62 (0.41) (0.041) (0.077) 19.40 4.94 G_amuse = - 0.84*ami, Errorvar.= 0.30 , Rý = 0.70 (0.53) (0.039) (0.078) -21.68 3.85 G_conten = 0.98*ami, Errorvar.= 0.037 , Rý = 0.96 (0.78) (0.014) (0.052) 67.90 0.71 G_moment = 0.78*ami, Errorvar.= 0.39 , Rý = 0.61 (0.43) (0.030) (0.065) 25.75 5.94 Correlation Matrix of Independent Variables confli ami --------------confli 1.00 ami -0.29 1.00 corrélation continue: -0.24 (0.06) -4.60 Goodness of Fit Statistics (données ordinales) Degrees of Freedom = 34 Minimum Fit Function Chi-Square = 516.99 (P = 0.0) Normal Theory Weighted Least Squares Chi-Square = 506.93 (P =0.0) 6 Satorra-Bentler Scaled Chi-Square = 71.98 (P = 0.00015) Root Mean Square Error of Approximation (RMSEA) = 0.046 Goodness of Fit Statistics (données continues) Degrees of Freedom = 34 Minimum Fit Function Chi-Square = 172.51 (P = 0.0) Normal Theory Weighted Least Squares Chi-Square = 179.60 (P = 0.0)Root Mean Square Error of Approximation (RMSEA) = 0.091 Le traitement des données ordinales avec les corrélations polychoriques donne de meilleurs résultats. 4- Le fichier kjudd.psf contient les données concernant 5 variables pour n=1000 sujet. La variable y est la variable dépendante alors que les quatre variables x sont explicatives. On utilise x1 et x2 pour former un premier construit latent xsi1 et x3 et x4 pour former ksi4. On veut étudier si un modèle quadratique en ksi1 et ksi2 s’ajuste bien à ces données. i) Faire un graphique de y en fonction de x1. Voyez-vous un effet non linéaire ? oui on voit un effet quadratique. ii) Faire une régression de y sur les quatre variables x observées. Plot of Y on X1 6 5 4 Y 3 2 1 0 N = 10 00 r = 0 .2 67 -1 (Pro d u c t M o m e n t) -2 -4 -3 -2 -1 0 1 2 3 4 X1 Estimated Equations Y = 1.173 + 0.122*X1 + 0.0580*X2 + 0.235*X3 + 0.163*X4 Standerr (0.0221) (0.0239) (0.0258) (0.0262) (0.0275) Z-values 53.180 5.091 2.248 9.003 5.920 P-values 0.000 0.000 0.025 0.000 0.000 + Error, R² = 0.237 Error Variance = 0.483 iii) Utiliser le programme LISREL suivant pour estimer les variables latentes et pour faire une régression de Y sur les deux variables latentes Raw data from file kjudd.psf Latent Variables: Ksi1 Ksi2 Relationships Y=Ksi1 Ksi2 X1=1*Ksi1 X2=Ksi1 X3=1*Ksi2 X4=Ksi2 Path Diagram PSFfile KJUDD.PSF 7 lisrel output: FS Estimate Residuals End of Problem (noter que la ligne Estimate Residuals ajoute 5 variables au fichier PSF, un résidu pour chaque variable observée) Noter que le fichier KJUDDnew.psf contient les estimations des deux variables latentes de même que les résidus pour les 5 variables observées. iv)La variable dépendante Y contribue-t-elle à l’estimation des deux variables latentes ? La sortie LISREL les coefficients suivants : Y contribue à l’estimation des variabbles latentes Y X1 X2 X3 X4 -------- -------- -------- -------- -------Ksi1 0.12 0.43 0.19 0.05 0.02 Ksi2 0.20 0.04 0.02 0.44 0.21 v) Faire le graphique de RY (le résidu pour Y) vs Ksi1. Notez-vous un effet quadratique ? Oui vi) A l’aide de la commande compute de l’onglet transformation, créer une nouvelle variable prod égale au produit des deux variables latentes et faire la régression de Y sur Ksi1 Ksi2 et prod . Cette nouvelle variable contribue-t-elle de façon significative à la régression ? Faire le graphique des résidus de ce modèle vs ksi1. Notez-vous encore un effet quadratique ? Plot of R_Y on Ksi1 4 3 R_Y 2 1 0 N = 10 00 -1 r = 0 .0 70 (Pro d u c t M o m e n t) -2 -3 -2 -1 0 1 2 3 4 Ksi1 Estimated Equations Y = 1.085 + 0.198*Ksi1 + 0.482*Ksi2 + 0.458*prod + Error, R² = 0.572 Standerr (0.0174) (0.0246) (0.0242) (0.0263) Z-values 62.380 8.032 19.918 17.410 P-values 0.000 0.000 0.000 0.000 Error Variance = 0.271 L’ajout de prod améliore le modèle. Plot of R_Y on Ksi1 4 3 R_Y 2 1 0 N = 10 00 -1 r = 0 .0 00 (Pro d u c t M o m e n t) -2 -3 -2 -1 0 1 2 3 4 Ksi1 Le graphique des résidus ne démontre plus d’effet quadratique
Documents pareils
afc
Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une
variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree,
alors l’analyse de régre...