Partie 7
Transcription
Partie 7
1 MATÉRIEL ADDITIONNEL : CORRÉLATIONS TÉTRACHORIQUES ET POLYCHORIQUES Mise en situation : Tous les modèles que nous avons ajustés jusqu’à présent utilise la matrice de variances covariances empirique, s s S ... s 2 1 s 21 s p1 12 2 2 ... s ... s ... s 1 n 1 n 2 2 ( x ji x j ) et s jk ( x ji x j )( xki xk ) . ... ... où s j n 1 n 1 i 1 i 1 ... s 1p 2p 2 p2 p Le critère d’estimation utilisé est de maximiser la vraisemblance obtenue à l’aide d’une densité normale multidimensionnelle, n 1 ( ) log | S | log | ( ) | tr( S( ) 1 ) d . 2 où ( ) représente la matrice de variances covariances sous le modèle qui est fonction d’un vecteur de p paramètres inconnus. Que faire si l’hypothèse de normalité est violée ou si l’algorithme d’estimation ne converge pas? Lorsque les données y sont discrètes, on va changer la façon de calculer S. On va travailler avec la matrice des corrélations polychoriques (aussi appelées tétrachoriques pour des données dichotomiques). Évidemment maximiser ( ) ne donne plus un estimateur du maximum de vraisemblance et il faut changer la méthode d’estimation. 2 METHODE DES MOINDRES CARRES PONDERES Il y a plusieurs alternatives à la méthode du maximum de vraisemblance sous distribution normale pour estimer les paramètres d’un modèle d’équations structurelles. On peut par exemple utiliser un critère des moindres carrés simples et minimiser d i d g d i F ( ) {sij ij ( )} w gh ,ij {sgh gh ( )}{sij ij ( )} 2 i 1 j 1 g 1 h 1 i 1 j 1 où les w gh ,ij sont les éléments, égaux à 0 ou 1, de la matrice identité de dimension {d(d+1)/2}{d(d+1)/2} et ij ( ) est l’élément (i,j) de ( ) . Dans PRELIS ce critère d’estimation s’appelle MINRES alors que dans SIMPLIS il s’apelle ULS pour unweighted least squares. Ce critère n’est pas un critère du maximum de vraisemblance et le calcul des erreurs-types des estimations est relativement complexe car on ne peut pas calculer de matrices d’information de Fisher dans ce contexte. LISREL ne fournit pas d’erreurs-types lorsqu’il utilise ces méthodes d’estimation (des méthodes de rééchantillonnage comme le bootstrap pourraient en principe être utilisées pour les estimer). D’un point de vue théorique, les estimateurs des moindres carrés ordinaires ne sont pas à variance minimale asymptotiquement et on peut faire mieux. Le problème avec ce critère est que tous les éléments de S reçoivent le même poids, même si certains sont des estimateurs plus précis que d’autres. 3 D’un point de vue théorique, on peut construire un meilleur estimateur de si la matrice {d(d+1)/2}{d(d+1)/2} de variances covariances W des éléments distincts de S était connue. Si W était diagonale, il faudrait pondérer les sij par l’inverse de leurs variances Wij. Ici W n’est pas forcément diagonale et critère des moindres carrés pondérés (WLS pour weighted least squatres) estime le vecteur θ de paramètres inconnus en minimisant la fonction suivante : d g d i F ( ) (s σ) W (s σ) w gh ,ij {sgh gh ( )}{sij ij ( )} T 1 g 1 h 1 i 1 j 1 w gh ,ij est l’élément ((g,h),(i,j)) de l’inverse W-1 de W. La « somme » pondérée des carrés des résidus, F (ˆ) (s σˆ )T W1 (s σˆ ) est approximativement distribuée comme une χ2 avec d(d+1)/2 – p degrés où p=nombres de paramètres du modèle, c’est la Satorra-Bentler scaled Chi-Square de la sortie LISREL (à un facteur de correction prêt développé par Satorra & Bentler). C’est sur la base de cette statistique que l’on évalue l’ajustement du modèle. Le calcul des erreurs types des estimations utilisent la théorie des moindres carrés généralisés. La matrice de variances 1 T 1 ˆ ˆ ˆ ˆ covariances de est estimée par F ( ) X W X où X̂ est la matrice des dérivées partielles de ij ( ) par rapport à évaluées à ˆ . En pratique la matrice W est inconnue et il faut l’estimer. Les résultats théoriques précédent, concernant la distribution asymptotique de F (ˆ) et l’estimation des 4 variances de ˆ demeurent valides. De grandes tailles d’échantillon sont requises pour mettre en œuvre ces méthodes car Ŵ doit être inversible. La méthode des moindres carrés pondérés s’appliquent dans plusieurs cas. Par exemple, Si on traite des données comme étant continue et si l’hypothèse de normalité est douteuse on peut estimer la matrice W avec LISREL et minimiser F(θ) pour ajuster le modèle. Cette estimation non-paramétrique de W implique des moments d’ordre 4 et une très grande taille d’échantillon est souvent requise pour obtenir une estimation W stable facile à inverser; Si les données sont normales, la matrice W s’écrit en fonction de la matrice de variances covariances Σ. On peut évaluer explicitement la covariance entre tous les éléments sgh et sij de la matrice de variances covariances échantillonnales. On peut donc calculer F (ˆ) à l’aide d’une estimation paramétrique de W. C’est le « Normal Theory Weighted Least Squares Chi-Square » de la sortie LISREL. On va utiliser cette méthode lorsque l’on travaille avec des corrélations polychoriques 5 VARIABLES ORDINALES : CORRÉLATIONS TÉTRACHORIQUE ET POLYCHORIQUE. La corrélation de Pearson n’est pas un bon estimateur de la relation entre deux variables dichotomiques ou ordinales. On présente ici un nouvel estimateur de corrélation, obtenu en maximisant la vraisemblance pour un modèle particulier. A-Données dichotomiques On traite d’abord du cas où les deux variables à l’étude ont deux modalités. Les données se présentent dans le tableau suivant : y1 \y2 0 1 total 0 n00 n01 n0+ 1 n10 n11 n1+ total n+0 n+1 n++ Les modalités des 2 variables ordinales sont codées 0 et 1. La corrélation de Pearson entre les deux variables s’écrit n n n n r n n n n C’est la racine de la statistique du chi-deux pour l’indépendance dans le tableau 2×2.La min(n , n ) min(n , n ) valeur maximale de n11 est min(n1+,n+1) et r , ce qui est max(n , n ) max(n , n ) loin de 1 lorsque les marges du tableau sont débalancées. 1 11 0 1 0 1 1 1 1 1 1 2 2 2 2 6 1-Construction d’un modèle bivarié à l’aide d’une copule normale. Une copule C(u,v)est une fonction définie de [0,1]2 dans [0,1] qui satisfait C(0,0)=0, C(1,v)= C(v,1)=v et C(u2,v2)- C(u1,v2)- C(u2,v1)+ C(u1,v1)≥0 pour tout u2>u1 et v2>v1 . En d’autres termes C(u,v) est une fonction de répartition pour un couple de variables aléatoires dont les marges sont uniformes. On s’intéresse ici à la copule normale définie comme étant 1 x 2 2 xy y 2 1 ( u ) 1 ( v ) exp 2 1 2 dxdy C ( u, v ) 2 1 2 où 1(u ) est la fonction quantile d’une loi N(0,1). Les copules sont utiles car elles permettent de distinguer la modélisation des marges de la modélisation de la dépendance dans la construction d’un modèle statistique. Par exemple si FX(x) et FY(y) sont deux fonctions de répartition unidimensionnelles et si C(u,v) est une copule alors C(FX(x), FY(y))est une fonction de répartition bidimensionnelle avec distributions marginales FX(x) et FY(y) . Pour les données dichotomiques, la distribution marginale de la variable ligne (y1) est x0 0 FX ( x ) 1 x 0 x 1 1 1 x 7 De même la distribution marginale Fy(y) de la variable y2 s’écrit en fonction d’une probabilité de succès πy. Le modèle théorique postule que la distribution conjointe des deux variables du tableau est Cρ{FX(x), FY(y)}. Les probabilités prédites pour les 4 cellules du tableau sont Var1 \Var2 0 1 total 0 Cρ(1- πx, 1- πy) 1- πy- Cρ(1- πx, 1- πy) 1- πy 1 1- πx- Cρ(1- πx, 1- πy) -1+ πx+ πy+ Cρ(1- πx, 1- πy) πy total 1- πx πx 1 On a un modèle saturé avec 3 paramètres et 3 degrés de liberté disponibles pour la modélisation. Les estimateurs des paramètres sont obtenus en posant les fréquences prédites pour le tableau égales aux fréquences observées. On obtient n n ˆ x 1 , ˆ y 1 et ρ est choisi de telle sorte que, n n n C (1 ˆ x ,1 ˆ y ) 00 . n La solution de cette équation est ̂ , le coefficient de corrélation tétrachorique entre les deux variables. On peut estimer la variance de cette statistique par linéarisation. 2-Construction du modèle à l’aide de variables latentes continues. Considérons des variables non observées (z1,z2) telles que 8 0 1 z1 N 2 , z 0 1 2 Les variables observées y1, y2 sont déduites de (z1,z2) à l’aide des seuils s1,s2 de la façon suivante : 0 z1 s1 0 z2 s2 y1 et y2 1 z1 s1 1 z2 s2 Ce modèle comporte trois paramètres (s1, s2 et ρ). Il est identique au précédent. La correspondance entre les deux paramétrisations est πx=1-(s1) et πy=1-(s2) et ρ garde la même signification dans les deux modèles. Lorsque l’on a d variables dichotomiques, on est en présence de d variables latentes z et de la copule normale d-dimensionnelle qui dépend d’une matrice de corrélation R de dimension d×d. L’estimation de R à l’aide d’une vraisemblance impliquant simultanément les d variables du modèle est compliquée sur le plan numérique. En pratique on estime des corrélations tétrachoriques en appliquant la procédure d’estimation vue plus haut aux d(d-1)/2 paires de variables, une à la fois. A la fin de l’exercice on a une matrice de corrélation estimée d×d R̂ et une matrice de variance covariance échantillonnale pour les d(d-1)/2 corrélations de R̂ . Cette matrice est de dimension [d(d-1)/2]× [d(d-1)/2]. Ce sont ces deux matrices qui sont mises en entrée lorsqu’on utilise LISREL pour ajuster un modèle d’équations structurelles à ces corrélations. 9 B-Données polythomiques La procédure est très semblable à celle présentée en a) lorsqu’on a des variables ordinales avec plus de deux modalités. On estime la corrélation pour une paire de variables à la fois. Soient r et c le nombre de modalités pour chaque variables. Les données forment un tableau de fréquences r×c. Le modèle a r+c-1 paramètres qui sont : r-1 paramètres pour la distribution marginale (ou pour les seuils) de la première variable c-1 paramètres pour la distribution marginale (ou pour les seuils) de la deuxième variable un paramètre (ρ) pour la corrélation entre les deux variables. Le modèle avec variables latentes comporte r-1 seuils s11,…,s1r-1associée aux modalités de y1 et c-1 seuils pour les modalités de y2. En fait y1=j si la variable latente z1 est dans l’intervalle [s1j-1,s1j) pour j=1,2,..,r où s10=- et s1r=+. Dans le tableau de fréquences il y a (r-1)×(c-1) degrés de liberté pour la dépendance entre les deux variables. Cette dernière est modélisée avec un seul paramètre (ρ). Il reste donc (r-1)×(c-1)-1 degrés de liberté pour tester l’ajustement de la copule normale aux données. Pour estimer les paramètres on peut calculer les estimateurs du maximum de vraisemblance des r+c-1 paramètres à partir de la vraisemblance multinomiale. LISREL utilise une méthode en deux étapes. On estime d’abord les r+c-2 paramètres pour les marges (ou seuil) à l’aide des 2 distributions marginales. Le seuil s1j est ainsi obtenu en résolvant l’équation 10 (s1j)= proportion des unités ayant une modalité inférieure ou égale à la jième pour la première variable. On estime ensuite ρ en maximisant la vraisemblance multinomiale pour le tableau r×c où les paramètres pour les marges sont égaux aux estimations obtenues à l’étape 1. Contrairement à la corrélation de Pearson standard, cette corrélation polychorique ne dépend pas du codage de la variable ordinale. On obtient la même corrélation peu importe le codage. Exemple : Sondage sur l’action politique Une étude a été réalisée de 1973 à 1975 dans 8 pays différents, dont les États-Unis. Le but de ce sondage était d’obtenir de l’information sur les différentes formes de participation politique dans les sociétés industrielles. Les données ont été recueillies à partir d’un échantillon représentatif de 1719 personnes (n=1554 réponses complètes) âgées de 16 ans et plus. Dans cette enquête, il y a une centaine de variables, mais pour illustrer le traitement des données ordinales on va en utiliser seulement 6. Ces variables tentent d’expliquer l’efficacité politique. On définit l’efficacité comme étant le sentiment que nos actions politiques peuvent avoir un impact sur le processus politique. Il y a donc 6 variables observées : NOSAY : Les gens comme moi ne peuvent pas exprimer leurs opinions en ce qui concerne les gestes du gouvernement. VOTING : Voter est la seule façon qu’ont les gens comme moi de s’exprimer sur 11 la façon dont le gouvernement gère les choses. COMPLEX : Parfois le gouvernement semble tellement compliqué qu’une personne comme moi ne peut pas vraiment comprendre tout ce qui se passe. NOCARE : Je ne pense pas que les fonctionnaires se soucient de ce que les gens comme moi pensent. TOUCH : Généralement parlant, ceux que nous élisons aux congrès de Washington perdent le contact avec les gens assez rapidement. INTEREST : Les partis sont seulement intéressés par les votes des gens et non par leurs opinions. Pour chacune de ces variables, les gens peuvent choisir (les non-répondants et ne savent pas ont été éliminés) . Les 6 variables sont ordinales et codées de la façon suivante AS (1) : Fortement en accord A (2) : En accord D (3) : En désaccord DS (4) : Fortement en désaccord Il y a des valeurs manquantes qui sont codées 8.00 ou 9.00 dans le jeu de données efficacy.lsf. Plusieurs stratégies d’analyse sont disponibles en présence de valeurs manquantes. On peut 1-Ajuster un modèle en maximisant la vraisemblance; la contribution d’une unité à la vraisemblance est égale à la densité des variables non manquantes pour cette unité. 12 C’est la méthode FIML pour full information maximum likelihood. 2-Lorsque l’on estime la corrélation entre deux variables on conserve toutes les unités pour lesquelles ces deux variables sont observées et on retire les autres. Ainsi le nombre d’unités utilisées pour estimer une corrélation varie d’une corrélation à l’autre. C’est le « pairwise delition » en anglais. 3-On retire de l’échantillon toutes les unités ayant au moins une variable manquante. Les données sont donc complètes pour les unités restantes. C’est le « listwise delition ». Ici on veut estimer des corrélations polychoriques. On ne maximise pas une grosse vraisemblance car on procède paire par paire. Les options 2 et 3 sont donc disponibles. Analyse PRELIS : 1-AFE pour données ordinales qui utilise le « pairwise deletion » 2-AFE pour données ordinales qui estime la matrice de variance covariance des corrélations polychoriques. Attention il faut faire du « listwise deletion » dans ce cas. Analyse de données Pour la variable NOSAY les fréquences sont NOSAY Frequency Percentage Bar Chart AS 160 10.3 • • • • • • • • • A 471 30.3 • • • • • • • • • • • • • • • • • • • • • • • • • • • • D 804 51.7 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • DS 119 7.7 • • • • • • • Les seuils sj pour NOSAY sont donc -1(.103)=-1.264, -1(.406)=-0.238, -1(.923)= 1.426. Extrait de la sortie PRELIS - 13 Univariate Marginal Parameters Variable Mean St. Dev. Thresholds -------- ---- -------- ---------NOSAY 0.000 1.000 -1.265 -0.238 1.428 VOTING 0.000 1.000 -0.937 0.210 1.682 COMPLEX 0.000 1.000 -0.846 0.725 1.767 NOCARE 0.000 1.000 -1.023 0.155 1.807 TOUCH 0.000 1.000 -0.973 0.527 2.142 INTEREST 0.000 1.000 -0.978 0.323 2.082 Correlations and Test Statistics (PC=Polychoric, PS=Polyserial) Test of Model Test of Close Fit Variable vs. Variable Correlation Chi-Squ. D.F. P-Value RMSEA P-Value 0.331 (PC) 216.041 8 0.000 0.129 0.001 VOTING vs. NOSAY W_A_R_N_I_N_G: Underlying bivariate normality may not hold, see BTS-file COMPLEX vs. NOSAY 0.337 (PC) 76.385 8 0.000 0.074 0.997 COMPLEX vs. VOTING 0.284 (PC) 41.882 8 0.000 0.052 1.000 NOCARE vs. NOSAY 0.557 (PC) 79.008 8 0.000 0.076 0.996 NOCARE vs. VOTING 0.275 (PC) 77.722 8 0.000 0.075 0.996 NOCARE vs. COMPLEX 0.459 (PC) 63.037 8 0.000 0.067 1.000 TOUCH vs. NOSAY 0.398 (PC) 84.954 8 0.000 0.079 0.989 TOUCH vs. VOTING 0.246 (PC) 59.739 8 0.000 0.065 1.000 TOUCH vs. COMPLEX 0.357 (PC) 88.841 8 0.000 0.081 0.981 TOUCH vs. NOCARE 0.646 (PC) 89.942 8 0.000 0.081 0.978 INTEREST vs. NOSAY 0.456 (PC) 79.526 8 0.000 0.076 0.995 INTEREST vs. VOTING 0.240 (PC) 76.987 8 0.000 0.074 0.997 INTEREST vs. COMPLEX 0.380 (PC) 63.819 8 0.000 0.067 1.000 INTEREST vs. NOCARE 0.683 (PC) 116.841 8 0.000 0.094 0.745 INTEREST vs. TOUCH 0.686 (PC) 90.641 8 0.000 0.082 0.976 On utilise PROC FREQ de SAS pour examiner le tableau pour les deux premières variables : Table of NOSAY by VOTING NOSAY Frequency‚ VOTING 14 Percent ‚ ‚ 1‚ 2‚ 3‚ 4‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 69 ‚ 51 ‚ 27 ‚ 13 ‚ 160 ‚ 4.44 ‚ 3.28 ‚ 1.74 ‚ 0.84 ‚ 10.30 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 80 ‚ 297 ‚ 85 ‚ 9 ‚ 471 ‚ 5.15 ‚ 19.11 ‚ 5.47 ‚ 0.58 ‚ 30.31 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 92 ‚ 275 ‚ 413 ‚ 24 ‚ 804 ‚ 5.92 ‚ 17.70 ‚ 26.58 ‚ 1.54 ‚ 51.74 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 4 ‚ 30 ‚ 12 ‚ 51 ‚ 26 ‚ 119 ‚ 1.93 ‚ 0.77 ‚ 3.28 ‚ 1.67 ‚ 7.66 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 271 635 576 72 1554 17.44 40.86 37.07 4.63 100.00 Statistics for Table of NOSAY by VOTING Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 9 379.1318 <.0001 Likelihood Ratio Chi-Square 9 343.9860 <.0001 La statistique du rapport de vraisemblance passe de 344 à 216 lorsque l’on ajoute le paramètre ρ pour la dépendance. Le mauvais ajustement (chi-deux de 216) du modèle normal s’explique par une asymétrie des données : NOSAY est souvent inférieur ou égal à VOTING. On poursuit l’analyse même si la copule normale ne représente pas bien le lien entre ces deux variables. En général la matrice de corrélations montre que la variable VOTING est peu associée aux autres. Correlation Matrix NOSAY NOSAY 1.000 VOTING COMPLEX NOCARE TOUCH INTEREST 15 VOTING COMPLEX NOCARE TOUCH INTEREST 0.331 0.337 0.557 0.398 0.456 1.000 0.284 0.275 0.246 0.240 1.000 0.459 0.357 0.380 1.000 0.646 0.683 1.000 0.686 1.000 On peut réaliser une analyse factorielle exploratoire à partir de cette matrice en choisissant « ordinal factor analysis » dans le menu déroulant PRELIS. Il s’agit d’une analyse exploratoire qui ne produit aucun test chi-deux (le critère d’estimation est le même que pour des données continues). On peut, par la même occasion, mettre dans un fichier la matrice de corrélations et la matrice de covariance asymptotique. Il suffit de cliquer sur Output Options et enregistrer les 2 matrices dans des fichiers. On doit mettre la matrice de corrélation dans un fichier .CM (ici effi.CM) et la matrice de covariance asymptotique dans un fichier .ACM (ici effi.ACM) ; vous pouvez également demandé l’impression de cette dernière matrice. Le modèle à deux facteurs est le suivant, Varimax-Rotated Factor Loadings NOSAY VOTING COMPLEX NOCARE TOUCH INTEREST Factor 1 0.622 0.450 0.455 0.529 0.271 0.312 Factor 2 0.329 0.126 0.315 0.667 0.762 0.791 Unique Var 0.505 0.782 0.694 0.276 0.346 0.277 On note que VOTING est mal représentée; on va l’exclure des analyses. Cette analyse suggère de distinguer deux type d’efficacité, interne et externe. L’efficacité interne (facteur 1) que l’on nomme Efficacy, représente la perception qu’une personne a d’elle-même à propos de sa capacité à comprendre la politique et de 16 sa compétence pour participer à des actes politiques comme le vote. Le facteur 2 Respons, qui vient de responsiveness, est l’efficacité externe que l’on définit comme la conviction que le public ne peut pas influencer les résultats politiques. Suite de l’exemple « sondage et action politique » Programme SIMPLIS pour une analyse à l’aide des corrélations tétrachoriques et DAG avec estimations standardisées Observed Variables: NOSAY VOTING COMPLEX NOCARE TOUCH INTEREST Correlation Matrix from File effi.CM Asymptotic Covariance Matrix from File effi.ACM Sample size: 1554 Latent Variable : Efficacy Respons Relationships: NOSAY COMPLEX NOCARE = Efficacy NOCARE TOUCH INTEREST = Respons Path Diagram End of Problem LISREL Estimates (Robust Maximum Likelihood) Measurement Equations NOSAY = 0.64*Efficacy, Errorvar.= 0.60 , Rý = 0.40 (0.038) (0.054) 16.84 10.96 COMPLEX = 0.53*Efficacy, Errorvar.= 0.72 , Rý = 0.28 (0.034) (0.044) 15.52 16.33 NOCARE = 0.66*Efficacy + 0.26*Respons, Errorvar.= 0.22 , Rý = 0.78 (0.16) (0.16) (0.049) 4.14 1.58 4.41 TOUCH = 0.80*Respons, Errorvar.= 0.36 , Rý = 0.64 (0.023) (0.044) 35.54 8.04 17 INTEREST = 0.85*Respons, Errorvar.= 0.27 , Rý = 0.73 (0.023) (0.047) 37.02 5.77 Les variables observées sont en fait les variables continues sous-jacentes aux variables observées ordinales. Dans ce contexte la calibration des variables latentes n’a pas de sens car les variables continues sous-jacentes aux variables observées ont une moyenne de 0 et une variance de 1. Un des paramètres λ n’est pas significativement différentes de 0. On peut calculer toutes les statistiques d’ajustement du modèle à partir de de la matrice de corrélation de départ et de sa valeur prédite par le modèle. Les statistiques en rouge ne sont pas pertinentes dans ce contexte car elle s’appuie sur l’hypothèse de normalité. Goodness of Fit Statistics Degrees of Freedom for (C1)-(C3) 3 Maximum Likelihood Ratio Chi-Square (C1) 5.052 (P = 0.1680) Browne's (1984) ADF Chi-Square (C2_NT) 5.029 (P = 0.1697) Browne's (1984) ADF Chi-Square (C2_NNT) 1.794 (P = 0.6163) Satorra-Bentler (1988) Scaled Chi-square (C3) 1.890 (P = 0.5955) Satorra-Bentler (1988) Adjusted Chi-square (C4) 1.880 (P = 0.5946) Variantes de la statistique du chi-deux associées à la fonction de perte des moindres carrés pondérés et calculer à l’aide de W. Degrees of Freedom for C4 2.984 Estimated Non-centrality Parameter (NCP) 2.052 90 Percent Confidence Interval for F0 (0.0 ; 0.00803) Root Mean Square Error of Approximation (RMSEA) 0.0210 90 Percent Confidence Interval for RMSEA (0.0 ; 0.0517) P-Value for Test of Close Fit (RMSEA < 0.05) 0.994 Chi-Square for Independence Model (10 df) Normed Fit Index (NFI) Non-Normed Fit Index (NNFI) Parsimony Normed Fit Index (PNFI) Comparative Fit Index (CFI) 4081.247 1.00 1.001 0.300 1.000 18 Incremental Fit Index (IFI) Relative Fit Index (RFI) 1.000 0.998 Analyse qui traite les données en continues et qui utilise la méthode des moindres carrés pondérés pour estimer les paramètres Observed Variables: NOSAY VOTING COMPLEX NOCARE TOUCH INTEREST Covariance Matrix from File efficon.PM Asymptotic Covariance Matrix from File efficon.ACM Sample size: 1554 Latent Variable : Efficacy Respons Relationships: NOSAY=1* Efficacy COMPLEX NOCARE = Efficacy INTEREST = 1*Respons NOCARE TOUCH = Respons Path Diagram End of Problem Les résultats sont NOSAY = 1.00*Efficacy, Errorvar.= 0.40 , R² = 0.35 (0.027) 14.71 COMPLEX = 0.76*Efficacy, Errorvar.= 0.42 , R² = 0.22 (0.060) (0.021) 12.80 20.00 NOCARE = 1.02*Efficacy + 0.34*Respons, Errorvar.= 0.19 , R² = 0.68 (0.28) (0.18) (0.021) 3.66 1.86 9.05 TOUCH = 0.88*Respons, Errorvar.= 0.22 , R² = 0.54 (0.037) (0.014) 23.77 16.13 INTEREST = 1.00*Respons, Errorvar.= 0.20 , R² = 0.64 (0.017) 11.84 Les R2 sont systématiquement plus petits que ceux de l’analyse basée sur les corrélations polychoriques. 19 En comparant les deux matrices de corrélation (Pearson vs Polychorique) on note le phénomène d’atténuation. Traiter des variables ordinales comme si elles étaient continues donne des corrélations moins élevées que l’estimation des corrélations polychoriques. Correlation Matrix (Pearson) NOSAY VOTING COMPLEX NOCARE TOUCH INTEREST NOSAY 1.000 VOTING 0.284 1.000 COMPLEX 0.278 0.239 1.000 NOCARE 0.480 0.234 0.383 1.000 TOUCH 0.341 0.211 0.289 0.557 1.000 INTEREST 0.389 0.205 0.313 0.598 0.589 1.000 COMPLEX NOCARE TOUCH INTEREST Correlation Matrix (polychorique) NOSAY VOTING NOSAY 1.000 VOTING 0.331 1.000 COMPLEX 0.337 0.284 1.000 NOCARE 0.557 0.275 0.459 1.000 TOUCH 0.398 0.246 0.357 0.646 1.000 INTEREST 0.456 0.240 0.380 0.683 0.686 1.000 L’utilisation de corrélations polychoriques donne donc un modèle un peu meilleur que celui obtenu en traitant les données en continues. 20 Si on met la ligne « Asymptotic Covariance Matrix from File efficon.ACM » en commentaire on obtient une troisième analyse qui maximise la vraisemblance normale (et non pas la fonction F(θ)) et qui fait les calculs d’erreurs type sous l’hypothèse (erronnée?) que les données sont normales. On obtient NOSAY = 1.00*Efficacy, Errorvar.= 0.40 , R² = 0.35 (0.021) 18.73 COMPLEX = 0.76*Efficacy, Errorvar.= 0.42 , R² = 0.22 (0.053) (0.018) 14.41 23.89 NOCARE = 1.02*Efficacy + 0.34*Respons, Errorvar.= 0.19 , R² = 0.68 (0.23) (0.15) (0.020) 4.33 2.20 9.49 TOUCH = 0.88*Respons, Errorvar.= 0.22 , R² = 0.54 (0.034) (0.011) 25.58 19.55 INTEREST = 1.00*Respons, Errorvar.= 0.20 , R² = 0.64 (0.013) 15.47 On note que les erreurs-types calculées sous l’hypothèse de normalité sont systématiquement plus petites que celles obtenues avec l’approche non paramétrique. Notons finalement que LISREL permet d’étudier des données longitudinales discrètes avec des corrélations polychoriques lorsque la prise de mesure est répétée dans le temps. L’utilisation des mêmes seuils (equal threshold) permet d’étudier les fluctuations temporelles des variables latentes. 21 AJUSTEMENT DE MODELES HIERARCHIQUES AVEC DES MODELES D’EQUATIONS STRUCTURELLES Le fichier os.lsf contient des données sur 20 garçons en croissance. On y retrouve la longueur de l’os Ramu à quatre temps différents : 8 ans, 8.5 ans, 9 ans et 9.5 ans. On a donc 4 variables mesurées sur un échantillon de n=20 garçons. Ces données constituent un exemple de modèle hiérarchique. On retrouve deux niveaux d’observation, le temps (qui est intra garçon) et le garçon lui-même. L’objectif de l’analyse est de modéliser la croissance de l’os en fonction du temps. On pourrait, par exemple, considérer un modèle de régression linéaire simple, yij= tj+ ij, avec ij~N(0,2) Ce modèle suppose que le taux de croissance est le même pour tous les 20 garçons de l’échantillon. Un modèle plus souple permet à et à de changer d’un garçon à l’autre. Ce modèle s’écrit yij=a0i + a1i) tj+ ij, avec ij~N(0,2) et (a0i, a1i ) suivent une loi normale bivariée de moyenne 0 et de matrice de variance covariance a. Cette dernière matrice caractérise les variations inter garçon des paramètres de croissance. 22 50 48 46 Longueur 52 54 Représentation graphique des 20 profils des garçons de l’échantillon. La croissance est à peu près linéaire, cependant la pente et l’ordonnée à l’origine varient beaucoup d’un garçon à l’autre. 8.0 8.5 9.0 Age 1 1 yi 1 1 Les modèles de régression multiniveaux peuvent s’écrire comme des modèles AFC avec des loadings connus. On peut utiliser LISREL pour ajuster ce type de modèle. En effet, les deux variables latentes sont l’ordonnée à l’origine et la pente. Sous forme 9.5 vectorielle le vecteur des mesures prises sur un enfant s’écrit 8 i1 8.5 0 a0i i 2 . 9 1 a1i i 3 9.5 i4 23 LISREL permet de tester l’homogénéité des variances résiduelles pour les 4 temps et de vérifier si une pente aléatoire est bien nécessaire. Le programme SIMPLIS est raw data from file os.psf latent variables: ord pent relationships: VAR2 = 1*ord + 8*pent VAR3 = 1*ord + 8.5*pent VAR4 = 1*ord + 9*pent VAR5 = 1*ord + 9.5*pent ord=constant pent=constant set the error variance of VAR2 VAR3 VAR4 VAR5 equal !set the covariance between ord and pent to 0 !set the error variance of pent to 0 path diagram end of problem Dans cette analyse on trouve les résultats suivants : Covariance Matrix of Independent Variables ord pent --------------ord 91.30 (33.86) 2.70 pent -10.07 1.19 (3.81) (0.44) -2.64 2.70 Mean Vector of Independent Variables ord pent --------------33.77 1.86 (2.34) (0.27) 14.44 6.97 24 La pente moyenne est donc de 1.86, avec une déviation standard de 1.1. Pour l’ordonnée à l’origine, la moyenne est de 91.3 avec une déviation standard de 5.8. Un modèle identique pour tous les garçons est donc contre-indiquer. Même si on peut faire ces analyses avec LISREL, les logiciels standards tels SAS et SPSS offrent des programmes beaucoup plus souples pour ajuster des modèles de ce type d’analyse. L’utilisation de LISREL n’est pas conseillée dans ce cas. Estimation des variances et des moyennes obtenues avec LISREL pour le modèle final. 25 TRAITEMENT DES DONNÉES MANQUANTES Description des données : On veut étudier la dépendance spatiale entre les écoulements annuels dans les 22 bassins versants des rivières du Québec. On dispose de 39 années de données (n=39) d’écoulement en volume par unité de surface. Des données sont manquantes pour certains bassins versants. On étude la partie sud-ouest des bassins-versants, GRB, LGR, RUP, WAS, SAG, BOM, BEL, RDO, STM. Il y a en tout 30 valeurs manquantes sur 30/351=8.55% de valeurs manquantes comme le montre la sortie PRELIS suivante. BEL BOM GRB 3 0 0 Frequency PerCent Pattern 25 64.1 0 1 2.6 0 4 10.3 0 1 2.6 1 LGR 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 RDO 8 0 0 0 0 0 0 0 0 0 0 1 1 RUP 1 0 0 0 0 1 2 3 2 SAG 0 2.6 5.1 7.7 5.1 STM 11 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 WAS 7 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 1 26 Analyse obtenue en enlevant les données manquantes paire par paire Univariate Summary Statistics for Continuous Variables Variable BEL BOM GRB LGR RDO RUP SAG STM WAS Mean 1.520 1.949 1.345 1.606 1.234 1.759 1.725 1.539 1.605 St. De. 0.264 0.234 0.167 0.248 0.170 0.218 0.209 0.234 0.204 T-Val 34.500 52.113 50.445 40.417 40.425 49.744 51.633 34.765 44.513 Skewne 1.404 0.677 -0.138 0.410 0.177 0.292 0.060 0.478 0.546 Kurtosi 3.167 0.203 0.519 -0.466 -0.475 0.923 -0.749 0.702 0.279 Minimu 1.190 1.596 0.920 1.234 0.910 1.240 1.350 1.053 1.230 Freq 2 1 1 1 1 1 1 1 1 Maximu 2.460 2.575 1.740 2.175 1.583 2.330 2.130 2.171 2.080 Freq 1 1 1 1 1 1 1 1 1 Covariance Matrix (Attention : cette matrice n’est pas forcément définie positive : vérification faite celle-ci l’est !) BEL BOM GRB LGR RDO RUP SAG STM WAS BEL 0.070 0.029 0.014 0.033 0.023 0.039 0.033 0.043 0.044 BOM GRB LGR RDO RUP SAG STM WAS 0.055 0.020 0.038 0.016 0.035 0.038 0.026 0.019 0.028 0.030 0.005 0.017 0.014 0.002 0.006 0.062 0.004 0.040 0.025 0.006 0.021 0.029 0.010 0.016 0.030 0.011 0.048 0.030 0.018 0.022 0.044 0.027 0.029 0.055 0.019 0.042 La covariance entre STM et WAS est basée sur 39-13=26 données. 27 LISREL permet également d’estimer la matrice de variance covariance à l’aide de l’algorithme EM. Il s’agit d’un algorithme itératif qui fonctionne comme suit : 1) On débute avec une estimation préliminaire de (peut-être avec celle basée sur les corrélations paires par paires) 2) On impute les valeurs manquantes pour une unité par leur espérance conditionnelle étant donné les valeurs observées pour cette unité (ce calcul fait intervenir ) 3) On ré-estime avec un jeu de données complets comprenant valeurs imputées et valeurs observées ; 4) On répète 2) et 3) jusqu’à ce qu’il n’y ait plus de changements d’une itération à l’autre Cet algorithme permet de calculer l’estimateur du maximum de vraisemblance de lorsque des données sont manquantes. On obtient cet estimateur en calculant la matrice de variances covariances du jeu données complétés comprenant les valeurs imputées et les données observées (LISREL permet de créer un jeu de données PRELIS avec les valeurs imputées). Evidemment si on considère l’échantillon complété comme un échantillon standard de taille n, on va surestimer la précision des statistiques calculées. L’imputation multiple permet de régler ce problème. Elle consiste à imputer plusieurs valeurs différentes (disons M) pour une donnée manquante avec un algorithme de type MCMC. On peut donc faire M ajustements différents d’un modèle statistique, un pour chaque ensemble de valeurs imputées. Les M valeurs d’une statistique permettent de calculer la variabilité additionnelle associée à l’imputation des valeurs manquantes. 28 Résultats obtenus avec l’algorithme EM (Note BOM, GRB, LGR ont des échantillons complets, les statistiques pour ces bassins ne changent pas selon la méthode d’estimation retenue) Univariate Summary Statistics for Continuous Variables Variable BEL BOM GRB LGR RDO RUP SAG STM WAS Mean 1.508 1.949 1.345 1.606 1.235 1.753 1.725 1.525 1.590 St. De 0.271 0.234 0.167 0.248 0.163 0.219 0.209 0.211 0.218 T-Valu 34.736 52.113 50.445 40.417 47.345 49.975 51.633 45.203 45.520 Skewne 1.212 0.677 -0.138 0.410 0.204 0.331 0.060 0.596 0.293 Kurtosi 2.560 0.203 0.519 -0.466 -0.518 0.824 -0.749 1.154 -0.126 Minimu 1.098 1.596 0.920 1.234 0.910 1.240 1.350 1.053 1.196 Freq 1 1 1 1 1 1 1 1 1 Maximu 2.460 2.575 1.740 2.175 1.583 2.330 2.130 2.171 2.080 Freq 1 1 1 1 1 1 1 1 1 Covariance Matrix BEL BOM GRB LGR RDO RUP SAG STM WAS BEL 0.073 0.032 0.016 0.035 0.025 0.041 0.038 0.039 0.051 BOM GRB LGR RDO RUP SAG STM WAS 0.055 0.020 0.038 0.018 0.035 0.038 0.023 0.027 0.028 0.030 0.006 0.019 0.014 0.006 0.012 0.062 0.008 0.041 0.025 0.009 0.033 0.027 0.017 0.018 0.026 0.014 0.048 0.030 0.019 0.034 0.044 0.027 0.036 0.044 0.024 0.048 L’analyse précédente a été réalisée avec les menus déroulant de PRELIS, voir 29 http://www.ssicentral.com/lisrel/techdocs/Session5.pdf La procédure est la suivante : Lire les données à partir d’un fichier Excel où les têtes de colonne sont les noms de variables Définir les variables comme étant continues (et non pas ordinales) Donner le code pour les valeurs manquantes dans la définition des variables Dans Statistics choisir l’onglet Multiple Imputation en sélectionnant toutes les variables et la méthode algorithme EM Dans Output options , cliquer la case « Save the transformed data to file » et donner un nom au jeu de données avec valeurs imputées, avec l’extension .LSF pour en faire un jeu de données PRELIS. 30 VALIDATION DES GROUPES PRÉSENTÉS DU DÉBUT À L’AIDE D’UNE AFE. Avec l’estimateur terme à terme de la matrice de variances covariances, la méthode du maximum de vraisemblance ne converge pas. La solutions MINRES donne les facteurs suivants Varimax-Rotated Factor Loadings BEL BOM GRB LGR RDO RUP SAG STM WAS Factor 1 0.694 0.159 0.044 0.267 0.159 0.375 0.420 0.234 0.951 Factor 2 0.325 0.719 0.716 0.913 0.106 0.693 0.521 0.050 0.200 Factor 3 0.479 0.436 0.032 -0.052 0.719 0.254 0.478 0.964 0.199 Unique Var 0.183 0.268 0.485 0.092 0.446 0.315 0.324 0.014 0.015 31 Si on utilise l’estimateur EM de la matrice de variances-covariances, l’ajustement est mauvais 122 42.84 . De plus la solution n’est pas admissible (Heywood Case), Varimax-Rotated Factor Loadings Factor 1 Factor 2 Factor 3 BEL 0.335 0.123 0.836 BOM 0.499 0.819 0.275 GRB 0.708 0.153 0.093 LGR 0.965 0.132 0.213 RDO 0.047 0.395 0.498 RUP 0.625 0.282 0.513 SAG 0.264 0.568 0.681 STM -0.006 0.362 0.646 WAS 0.422 0.101 0.848 Unique Var 0.173 0.000 0.466 0.000 0.594 0.266 0.144 0.451 0.093 Avec l’algorithme MINRES on a Varimax-Rotated Factor Loadings Factor 1 Factor 2 Factor 3 BEL 0.639 0.309 0.514 BOM 0.209 0.651 0.461 GRB 0.096 0.715 0.104 LGR 0.308 0.918 0.009 RDO 0.141 0.165 0.805 RUP 0.432 0.665 0.338 SAG 0.476 0.435 0.537 STM 0.285 0.062 0.860 WAS 0.927 0.287 0.239 Unique Var 0.232 0.320 0.469 0.063 0.305 0.257 0.297 0.175 0.000 32 Correlation Matrix BEL BOM GRB LGR RDO RUP SAG STM WAS BEL 1.000 0.498 0.349 0.518 0.569 0.698 0.674 0.684 0.860 BOM GRB LGR RDO RUP SAG STM 1.000 0.502 0.648 0.483 0.684 0.784 0.471 0.526 1.000 0.725 0.226 0.532 0.392 0.182 0.343 1.000 0.204 0.750 0.474 0.181 0.602 1.000 0.475 0.527 0.763 0.399 1.000 0.665 0.411 0.715 1.000 0.604 0.788 1.000 0.525 On va poursuivre l’analyse en ajustant des modèles CFA aux données complétées avec l’algorithme EM. 33 Validation du regroupement de bassins suggéré au début : Mauvais ajustement (NFI=71%...). Notez un 1-R2 négatif dans le schéma. 34 Méthode FIML (Full information maximum likelihood) pour estimer les paramètres. Les calculs précédents traitent les valeurs manquantes en deux étapes : 1. Estimation des données manquantes avec la méthode EM 2. Ajustement d’un modèle aux données complètes qui ne tient pas compte de l’estimation des valeurs manquantes. La méthode FIML combine les deux étapes et produit une analyse qui tient compte, dans ses statistiques d’ajustement de l’estimation des valeurs manquantes. Pour mettre cette analyse en œuvre il suffit de lire les données brutes à partir d’un fichier .lsf qui contient des données manquantes. Pour l’analyse précédente, l’énoncé raw data from file Obser3G.psf génère automatiquement une analyse FIML, avec le diagramme standardisé ci-contre. 35 Une analyse alternative : on va essayer de travailler avec une seule variable latente, pour l’effet « taille », en ajoutant des corrélations résiduelles entre les erreurs de bassins adjacents (qui se touchent). On v ensuite enlever les corrélations non significatives. A la fin du processus on obtient le modèle associé au schéma ci-contre, avec 8 covariances inter bassins. On note que l’ajustement est bien meilleur que celui du modèle CFA. Il est intéressant de ré-estimer les paramètres avec la méthode FIML. On note que les variables numériques sont semblables, cependant les erreurs-types FIML sont inférieures à celles calculées avec EM. Ceci est contre-intuitif. LISREL calcule-t-il bien les erreurs-types en présence de données manquantes ? Error Covariance SAG and BOM LGR and SAG LGR and GRB WAS and SAG BEL and WAS STM and BEL RDO and BEL RDO and STM EM FIML 0.012 (0.0039) -0.01 (0.0022) 0.011 (0.0039 0.0085 (0.0026) 0.0090 (0.0029) 0.014 (0.0049) 0.0084 (0.0036) 0.018 (0.0054) 0.011 (0.0020) -0.01 (0.0011) 0.011 (0.0020) 0.0084 (0.0014) 0.0098 (0.0017) 0.015 (0.0031) 0.0093 (0.0022) 0.020 (0.0034) 36 Méthode ML+EM Méthode FIML Les corrélations obtenues avec les deux modèles sont très voisines. 37 Les corrélations sont représentées sur la figure de gauche. Ainsi les 3 bassins les plus nordiques sont à peu prêt indépendants des 6 bassins plus au sud, étant donné la variable latente. Ces bassins montrent des corrélations est–ouest. 38 METHODE DE CALCUL POUR AJUSTER DES MODELES D’EQUATIONS STRUCTURELLES La méthode du maximum de vraisemblance est la plus utilisée pour estimer les paramètres d’un modèle SEM. La méthode Weighted Least Squares (WLS) et Unweighted Least Squares (ULS ou MINRES pour l’analyse factorielle) sont également disponibles dans LISREL. Toutes ces méthodes sont basées sur des algorithmes itératifs et il y a un risque de non convergence. Deux autres méthodes non itératives sont disponibles : Two Stage Least Squares (TSLS) et Instrumental Variables (IV). La méthode du maximum de vraisemblance utilise la méthode TSLS pour calculer des valeurs initiales. Les deux méthodes non itératives sont utiles pour obtenir des ajustements approximatifs pour trouver la cause d’un problème de convergence dans l’algorithme. Extrait d’un programme Simplis qui fait les calculs selon plusieurs méthodes !Method: Two stage Least Squares LISREL Output Method: Instrumental variable Lorsque qu’un algorithme itératif est utilisé, LISREL vérifie que les estimateurs obtenus sont admissibles (i.e. pas de variances négatives) après 20 ou 50 itérations et arrête si ce n’est pas le cas. On peut modifier ceci en spécifiant Options: AD=OFF dans LISREL. On peut également jouer avec le nombre maximal d’itérations (50 par défaut). 39 SPECIFICATION DES VALEURS INITIALES DES PARAMETRES. Dans certaines situations, si la méthode d’ajustement par défaut ne converge pas, on peut changer la méthode de calcul, ou les valeurs initiales de l’algorithme. Avec Simplis on spécifie des valeurs initiales en écrivant le modèle avec ces valeurs entre parenthèse. Les paramètres avec une valeur numérique qui n’est pas entre parenthèse sont considérés comme étant connus. Dans l’exemple sur l’évaluation des policiers le programme Simplis suivant: Relationships: Appear=1*lappear Overall=1* loverall ObserSk =1*Perso CommSk=(.659)*Perso + (.406)*rela Judgment=(.341)*Perso + (.668)*rela LearnAbi=(.681)*Perso WillConP=(.831)*Perso Depend=(.629)*Perso + (.637)*rela DesiSelf =(.985)*Perso+ (.359)*rela InterPer =1*rela IntPeop =(1.101)*rela Inegrety=(.983)*rela loverall = Perso rela lappear Utilise .659 comme valeur initiale du « loading » de Commsk sur Perso. La variable latente rela est définie par InterPer. Le paramètre correspondant est donc fixé à 1. 40 COMPARAISON DES ESTIMATEURS OBTENUS AVEC LES METHODES ML, TSLS ET IV POUR LE MODELE SEM AJUSTÉS AUX POLICIERS. Loadings CommSk LearnAbi Judgment ObserSk WillConP IntPeop InterPer DesiSelf Depend Inegrety Maximum likelihood Perso 0.659 (0.105) 6.282 0.681 (0.081) 8.413 0.341 (0.096) 3.533 1.000 0.831 (0.090) 9.245 1.101 (0.088) 12.561 1.000 0.695 (0.103) 6.752 0.629 (0.101) 6.199 rela 0.406 (0.094) 4.342 - Two-stage least squares Perso rela 0.686 0.350 Instrumental variable Perso 0.706 rela 0.348 0.609 - 0.701 - 0.668 (0.095) 7.067 - 0.456 0.592 0.455 0.586 1.000 0.755 - 1.000 0.780 - - 1.031 - - 1.15- - 0.359 (0.090) 3.978 0.637 (0.094) 6.773 0.983 (0.092) 10.737 1.000 0.706 0.359 1.000 0.692 0.376 0.671 0.580 0.646 0.612 0.916 1.108 41 GAMMA loverall TSLS IV Perso 0.524 (0.077) 6.796 0.539 0.549 rela 0.481 (0.062) 7.755 0.452 0.481 lappear 0.093 (0.051) 1.811 0.086 0.084 On note qu’avec TSLS et IV on n’obtient seulement des estimations, sans erreur-types ou estimations standardisées. Les R2 de la régression pour loverall valent respectivement 81.2% (TLS) et 81.3% (IV) alors que le R2 ML est de 80%. Dans ce cas les résultats obtenus avec les deux algorithmes non itératifs sont très semblables aux résultats définitifs. Les solutions obtenues avec les 2 algorithmes non itératifs sont des estimateurs convergents des vrais paramètres, si le modèle est vrai. 42 Quelques conseils concernant l’utilisation de LISREL : Les messages d’erreur sont parfois absents, parfois difficiles à interpréter, surtout en ce qui concerne des choses simples comme la lecture des données. Soyez patients ! Dans un fichier de données PRELIS les changements effectués (dans le type d’une variable, ou par des manipulations de données) doivent être sauvegardés pour être implémentés. Chaque exécution d’un programme LISREL créé un très grand nombre de fichiers (.ls8 pour les fichiers de syntaxe, .out avec les résultats, .pth avec le diagramme de cheminement, .dsf pour usage interne et d’autres encore). Suggestion : Utilisez une chemise différente pour chaque analyse. Attention : Si vous écrivez un programme en SIMPLIS et que vous allez sélectionner quelque chose dans un menu déroulant, votre programme est converti en LISREL. Les énoncés SIMPLIS sont perdus ! On peut mettre des commentaires dans un programme en faisant précéder la ligne du symbole « ! ».