afc

Transcription

afc

STT-7620
ANALYSE FACTORIELLE CONFIRMATOIRE
L’analyse factorielle exploratoire permet d’identifier des facteurs latents à partir de
variables mesurées. Elle définit chaque variable latente en y associant un certain nombre
de variables mesurées. L’analyse factorielle confirmatoire permet de poursuivre
l’analyse en posant des paramètres  (loadings) égaux à 0, en permettant aux facteurs
latents d’être corrélés, et en ajoutant au besoin des corrélations supplémentaires entres les
erreurs résiduelles. Elle définit de façon détaillée les facteurs latents.
En principe l’analyse exploratoire et confirmatoire ne se font pas sur le même jeu de
données. L’analyse confirmatoire peut chercher à déterminer si un ensemble de questions
développées dans un certain contexte permet de bien caractériser un phénomène dans un
contexte un peu différent. Il peut s’agir du suivi et de la validation de questionnaires mis
sur pied dans la phase initiale d’un projet de recherche.
-1-
EXEMPLE DU MILIEU SOCIO-ECONOMIQUE
Dans les données sur les étudiants américains (n=3094) on cherche à caractériser le
background d’un étudiant, à savoir le milieu socio-économique de ses parents et sa
performance académique à l’école secondaire. Cette dernière est mesurée par la variable
HSRank. Pour caractériser le milieu socio-économique on a utilisé la variable FaEd. On
va maintenant utiliser 3 variables
pour cela, à savoir MoEd, FaEd et
PaJntInc, (l’éducation de la mère, du
père et le revenu moyen des parents).
Le milieu socio-économique de
l’étudiant (PaSeS) est maintenant
une variable latente déterminée par 3
variables observées. On a deux
variables explicatives latentes (la
deuxième variable latente AcRank est
confondue avec la variable observée
HSRank.)
.
-2-
EXEMPLE DU MILIEU SOCIO-ECONOMIQUE
Le diagramme précédent spécifie que MoEd, FaEd et PaJntInc sont conditionnellement
indépendantes de HSRank étant donné PaSeS. En d’autres termes les corrélations
observées entre MoEd, FaEd, PaJntInc et HSRank sont toutes déterminées par la
corrélation 12 entre les deux variables latentes du modèle et par les loadings  ,  et  .
11
21
31
Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une
variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree,
alors l’analyse de régression avec variable observée où FaEd caractérise le milieu socioéconomique (voir partie 1) sous estime la force de la relation entre PaSeS et les variables
dépendantes. En effet selon le diagramme, FaEd mesure PaSeS avec une erreur 2.
En régression, la force de la relation entre une variable explicative mesurée avec erreurs
et la variable dépendante est plus faible que si la variable explicative est mesurée sans
erreur.
-3-
DÉFINITION DU MODÈLE
Sous forme matricielle
 X 1   11 0 
 1 
 X  
0   1    2 
2
21
 

   ,où


 X 3   31 0   2    3 
X   0  
 
42 
 4 
 4
  21  12 

est la matrice de
     2 
2 
 12
variances covariances des variables
latentes et
  diag ( 21 , 22 , 23 , 24 ) est la
matrice de variances covariances
résiduelles.
Ce modèle a la même forme qu’un modèle factoriel exploratoire à m=2 facteurs sauf que
(i) on permet des variances quelconques et une corrélation pour les variables latentes et
(ii) des loadings (paramètres ) sont fixés à 0,    = =   0 .
12
-4-
22
32
41
DÉFINITION DU MODÈLE
On a vu, dans l’étude des modèles d’analyse factorielle exploratoire, que d=3 variables
observées donnent un modèle à une variable latente saturé (il n’y a aucun degré de liberté
pour tester l’ajustement du modèle). Le modèle avec d=3 à une variable latente pour
MoEd, FaEd et PaJntInc s’ajuste donc parfaitement.
Le modèle étudié ici spécifie en plus que les trois corrélations entre HSrank et (MoEd,
FaEd, PaJntInc) s’expliquent toutes par la corrélation entre PaSES et HSrank. Etudier
l’ajustement du modèle c’est évaluer la véracité de cette hypothèse.
-5-
ÉCRITURE DE LA MATRICE DE VARIANCES-COVARIANCES THÉORIQUE.
La matrice de variances-covariances de X est une matrice 4x4 (note d=4=NX dans la
notation de LISREL). Pour la calculer on utilise le fait que les erreurs sont
indépendantes des variables latentes  et donc que E(=0. Ainsi, en général, ( ) a
une forme semblable à celle rencontrée en analyse factorielle exploratoire,
( )   x E ( ') x ' E ( ')
Pour le modèle à l’étude,
  21 0
0
0 
 11 0 


2

  2    
0

0
0
0

0


2
12
11
21
31


  1
( )   21


2
0  3 0 
0
0 42   0
 31 0    12  22   0


 0  
2 

0
0  4 
42 

 0
En effectuant les produits matriciels on obtient l’expression suivante.
 112  21   21
1121 21
1131 21
1142 12 


2
2
2
2
2













11
21

21


21
31

21
42


1
1
2
1
1 2 
( )  
2
2
2
2
2
 1131 
2131 1
31 1   3 3142 12 
1


2
2
2 
 1142  
2142 12
3142 12 42 2   4 
1 2

-6-
DÉFINITION DES VARIABLES LATENTES
Les paramètres du modèle précédent ne sont pas tous identifiables car les variables
latentes peuvent être définies de plusieurs façons :
1. On peut faire comme dans l’analyse exploratoire et standardiser les variables
latentes en imposant  21   22  1 . Le seul paramètre non estimable dans le modèle
précédent est alors  24 car la deuxième variable latente est proportionnelle à une
variable observée
2. Pour donner des unités de mesure à chaque variable latente, on peut fixer un loading
égal à 1 pour chaque construit. Si on pose     1, la première variable latente a
les mêmes unités que PaJntInc alors que la deuxième est égale à HSRank.
Évidemment  24 n’est toujours pas estimable dans ces conditions.
3. On a en d(d+1)/2 =4x5/2=10 degrés de liberté dans une matrice de variancescovariances 4x4 et 8 paramètres à estimer. Il reste donc 2 degrés de liberté pour
tester l’ajustement du modèle.
31
-7-
42
ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE
Le modèle postule que les Xi suivent une loi normale de moyenne  (un vecteur 4x1) et
de matrice de variances covariances ( ) où  est les vecteurs des 8 paramètres de la
matrice de variances covariances (on pose     1 et  24  0 ) :
31
  21   21

2


21 1
( )  
 31 2
1

  
1 2

42
21 2
212  2   2
2131 2
31 2
2131 2
312  2   2
21  
31  
1
1
2
1
1 2
1
1
1
3
1 2
 
21  
31  


1 2 
.

1 2

2
 2 
1 2
Notons que ( ) satisfait les deux égalités
2
2
( )13  ( ) 24 31 1  21 12
( )12  ( )34 21 1  31 12

 1 et

 1.
2
2
( )23  ( )14 2131 1   12
( )13  ( ) 24 31 1  21 12
La matrice de variances covariances empiriques S ne satisfait pas ces égalités, il faut donc
utiliser un algorithme itératif pour trouver une matrice ( ) qui soit le plus prêt possible
de S.
-8-
ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE
Moins la log-vraisemblance des données s’écrit
( ) 
n 1
log | ( ) |  log | S |  tr[S( ) 1 ]  d 

2
où d est le nombre de variables X observées et S est la matrice de variances-covariances.
Dans l’exemple on a d=4 variables (MoEd, FaEd, PaJntInc, HSRank ) de plus
 1.510
 1.133
S= 
 1.452
 0.110

1.133 1.452 0.110 
2.283 2.125 0.150 
 et (ˆ)=
2.125 7.017 0.113 
0.150 0.113 0.604 
 1.510
 1.135

 1.447
 0.098

1.135 1.447 0.098 
2.283 2.122 0.144 
,
2.122 7.017 0.183 
0.144 0.183 0.604 
où (ˆ) représente la matrice ( ) évaluée à l’estimateur du maximum de vraisemblance
ˆ . Cet estimateur est obtenu en minimisant ( ) à l’aide d’un algorithme itératif
(attention des problèmes de convergence sont possibles!).
-9-
TESTS D’AJUSTEMENT
Notons que (ˆ) mesure l’écart entre la matrice de variances covariances empirique S et
son estimateur (ˆ) . En fait (ˆ)  0 si S  (ˆ) . La magnitude de (ˆ) permet de
juger de l’ajustement du modèle CFA à l’étude. La statistique du chi-deux pour tester
l’ajustement du modèle est
 d2( d 1)/2 p  2 (ˆ)  (n  1) F  S , (ˆ)  .
On rejette au seuil  l’hypothèse que le modèle s’ajuste bien si 2 (ˆ)   d2( d 1)/2 p ,1 , le
percentile 100(1-) du chi deux à d(d+1)/2-p degrés de liberté (ici 2 degrés de libertés
sont associés à ce test). Notons qu’il n’y a pas de correction de Bartlett pour un modèle
CFA quelconque. Dans la sortie LISREL,
F  S , (ˆ)   log | ( ) |  log | S |  tr[S( ) 1 ]  d
est le Minimum fit function pour le modèle. En fait le test du rapport de vraisemblance
n’est pas suffisant pour juger de la qualité d’un ajustement et plusieurs autres statistiques
on été mises de l’avant pour ce faire.
- 10 -
ETUDE DES RÉSULTATS
Dans la sortie on regarde :
1. Les variances estimées de variables latentes (une variable latente intéressante varie!)
2. Les tests pour H0 : ji=0 pour savoir si les variables mesurées contribuent de façon
significative aux variables latentes construites;
3. Les R2 de chaque variable observée pour voir le pourcentage de sa variabilité
expliquée par les variables latentes;
4. Les estimations ˆ s des loadings standardisés pour déterminer les variables les plus
ij
associées à chaque variable latente;
5. Les indices d’ajustement pour vérifier si le modèle s’ajuste bien aux données;
- 11 -
AJUSTEMENT DU MODELE
PROGRAMME R
PROGRAMMATION SAS :
library(sem)
cov<-matrix(
c(1.510,1.133,1.452,0.110,
1.133, 2.283, 2.125, 0.150,
1.452, 2.125, 7.017, 0.113,
0.110, 0.150, 0.113, 0.604),
byrow=T, nrow=4, ncol=4,
dimnames=list(c("MoEd","FaEd","PaJntInc","HSRan
k"),c("MoEd","FaEd","PaJntInc","HSRank")))
data afc(type=cov);
_type_="COV";
infile cards missover;
input _name_ $ MoEd FaEd PaJntInc HSRank;
datalines;
MoEd
1.510
FaEd
1.133 2.283
PaJntInc 1.452 2.125 7.017
HSRank
0.110 0.150 0.113 0.604
;
model1<- specify.model()
PaSES -> MoEd, NA, 1
PaSES -> FaEd, lam21, NA
PaSES -> PaJntInc, lam31, NA
AcRank -> HSRank, NA, 1
MoEd <-> MoEd, e1, NA
FaEd <-> FaEd, e2, NA
PaJntInc <-> PaJntInc, e3, NA
HSRank <-> HSRank, NA, 0
PaSES <-> PaSES, vf1, NA
AcRank <-> AcRank, vf2, NA
PaSES <-> AcRank, covF1F2, NA
proc calis data=afc cov pcorr nobs=3094;
LINEQS
MoEd = F_PaSES + E1,
FaEd = lambda_21 F_PaSES + E2,
PaJntInc = lambda_31 F_PaSES + E3,
HSRank = F_AcRank;
STD
F_PaSES = var_PaSES,
F_AcRank = var_AcRank,
E1-E3 = var_e1-var_e3;
COV
F_PaSES F_AcRank = cov;
VAR MoEd FaEd PaJntInc HSRank;
run;
afc <- sem(model1, cov, 3094)
summary(afc)
- 12 -
PROGRAMME SIMPLIS
Quatre variables pour le statut parental et la
performance scolaire
Observed Variables
MoEd FaEd PaJntInc HSRank
Correlation Matrix
1
.610 1
.446 .531 1
.115 .128 .055 1
Standard deviations
1.229 1.511 2.649 .777
Sample Size 3094
Latent Variables: PaSES ACRank
Relationships:
MoEd = 1*PaSES
FaEd PaJntInc = PaSES
HSRank = 1*ACRank
Set the error Variance of HSRank to 0
Number of Decimals = 3
Wide Print
Path Diagram
End of Problem
Programme LISREL
TI Quatre variables pour le statut parental et la
performance scolaire
!DA NI=4 NO=3094 MA=CM
SY='C:\Documents and Settings\***\CFA02-06.DSF'
MO NX=4 NK=2 TD=SY
LK
PaSES ACRank
FI TD(4,4)
FR LX(2,1) LX(3,1)
VA 1 LX(1,1)
VA 1 LX(4,2)
PD
OU SC ND=3
Note :
LK Donne le nom des variables latentes
TD=Theta Delta
SY= Symmetric
FI=fixe des paramètres
FR= spécifie les paramètres libres
VA=donne une valeur spécifique à un
paramètre
(Ce programme pose     1)
31
42
- 13 -
SORTIE SAS :
Matrice de variances covariances empirique (S):
MoEd
MoEd
1.510
FaEd
1.133
PaJntInc 1.452
HSRank
0.110
FaEd
1.133
2.283
2.125
0.150
PaJntInc
1.452
2.125
7.017
0.113
HSRank
0.110
0.150
0.113
0.604
Manifest Variable Equations with Estimates
MoEd
FaEd
Std Err
t Value
PaJntInc
Std Err
t Value
HSRank
=
=
=
=
1.0000 F_PaSES
1.4665*F_PaSES
0.0483 lambda_21
30.3663
1.8692*F_PaSES
0.0627 lambda_31
29.7994
1.0000 F_AcRank
+
+
1.0000 E1
1.0000 E2
+
1.0000 E3
 1

1.467
ˆx 

1.869

 0
0
0 
0
1 
Cette partie de la sortie SAS donne les éléments de la matrice des coefficients structuraux îj
(loadings). Tous les coefficients sont significatifs.
- 14 -
Variances of Exogenous Variables
Variable
F_PaSES
F_AcRank
E1
E2
E3
Parameter
var_PaSES
var_AcRank
var_e1
var_e2
var_e3
Estimate
0.77398
0.60400
0.73602
0.61850
4.31268
StdErr tValue
0.03984 19.43
0.01536 39.33
0.02852 25.81
0.04875 12.69
0.13323 32.37
Covariances Among Exogenous Variables
Var1
Var2
Parameter
F_PaSES
F_AcRank cov
Estimate
Stderr
tValue
0.09814
0.01392 7.05
0.7740 0.0981 
ˆ =

 0.0981 0.6040 


0
0
0
 0.7360
 0
Ces parties de la sortie SAS renseigne sur les éléments de la matrice de
0.6185
0
0
ˆ

  
variances covariances des variables latentes ( ̂ ) et sur les éléments de 
0
0
4.3127
0


la matrice de variances covariances des erreurs pour les variables
 0
0
0
0 

ˆ
observées (  ).
Comme en régression, le modèle décompose la variance de chaque variable en une partie prédite par
le modèle et une partie résiduelle. Par exemple,
var( FaEd )  ˆ212  ˆ2  ˆ2  1.4672  0.774  0.6185  2.283
1
1
- 15 -
Manifest Variable Equations with Standardized Estimates
MoEd
=
0.7159 F_PaSES
+ 0.6982 E1
FaEd
=
0.8539*F_PaSES
+ 0.5205 E2
lambda_21
PaJntInc =
0.6208*F_PaSES
+ 0.7840 E3
lambda_31
HSRank
=
1.0000 F_AcRank
îjs
Squared Multiple Correlations
Error
Total
Variable
Variance
Variance R-Square
1
2
3
4
MoEd
FaEd
PaJntInc
HSRank
0.73602
0.61850
4.31268
.
1.51000
2.28300
7.01700
0.60400
0.5126
0.7291
0.3854
.
Correlations Among Exogenous Variables
Var1
F_PaSES
Var2
Parameter
F_AcRank cov
Estimate
0.14354
Ces parties de la sortie SAS donne les loadings standardisés qui sont les corrélations entre les
variables observées et les variables latentes. Par exemple, la corrélation entre MoEd et PaSES est de
ˆ11s  0.7159 . De plus, le R2 de la régression de PaSES sur MoEd est de 51.26%. La dernière
statistique nous renseigne sur la corrélation entre les deux variables latentes, soit r=0.14354.
- 16 -
L’information sur l’ajustement du modèle peut être résumée dans le diagramme de cheminement
suivant :
Diagramme de cheminement des variables latentes
Effets standardisés
d’origine
Estimateurs des paramètres
- 17 -
Interprétation des sorties
Le loading standardisé (standardized solution) est défini comme étant
îjs  ˆ2j îj ,
c’est le loading qu’on aurait obtenu si on avait fixé la variance de la variable latente à 1.
Dans l’exemple précédent, le loading standardisé pour FaEd est
îjs  .774  1.467  1.290
Par contre le loading complètement standardisé (completely standardized solution) est
celui qui tient également compte de la variance de la variable
îjcs  ˆ2j / si2 îj
Dans l’exemple précédent, le loading complètement standardisé pour FaEd est
îjs  .774 / 2.283  1.467  0.854
Dans LISREL les effets standardisés donnent les loadings complètement standardisés.
Standardized Solution
Completely Standardized Solution
LAMBDA-X
LAMBDA-X
MoEd
FaEd
PaJntInc
HSRank
PaSES
0.880
1.290
1.645
--
ACRank
---0.777
MoEd
FaEd
PaJntInc
HSRank
- 18 -
PaSES
0.716
0.854
0.621
--
ACRank
---1.000
INDICES D’AJUSTEMENT
Tous les programmes pour les modèles d’équations structurelles rapportent plus d’une
trentaine d’indices pour évaluer l’ajustement d’un modèle. Le principal défaut du test
d’ajustement du rapport de vraisemblance est qu’il dépend de n. Il a tendance à être
significatif lorsque n est grand même si le modèle s’ajuste relativement bien. Plusieurs
alternatives au test du chi-deux ont été mises de l’avant pour évaluer l’ajustement. On a,
par exemple, essayer de généraliser le R2 de la régression qui s’écrit :
( yi  yˆ i )2
SSres

2
.
R  1

1

2
(
y

y
)
SS
 i
tot
En mot, c’est un moins la proportion de la variabilité de y qui n’est pas expliquée par le
modèle de régression.
Le GFI (goodness of fit index) reprend cette formule avec SSres  F  S , (ˆ)  et
SStot  F  S , (0) , où (0) est une matrice de variance covariances de référence dont
tous les paramètre sont fixes (peut-être que (0) est la matrice identité). Comme valeur
de SStot le NFI (normed fit index) prend plutôt SStot  F  S ,diag(ˆ12 ,...,ˆ d2 )  où
F  S ,diag(ˆ12 ,...,ˆ d2 )   Fi est proportionnelle à la statistique du chi-deux pour tester
l’hypothèse d’indépendance,
- 19 -
 d2( d 1)/2  (n  1) F  S ,diag(ˆ12 ,..., ˆ d2 )   (n  1) Fi .
Rappelons que si cette statistique est petite, disons du même ordre de grandeur que ses
degrés de liberté, l’hypothèse d’indépendance entre les d variables est acceptable. Il est
inutile de poursuivre l’analyse.
Le Normed fit index est donc 1 moins la proportion du chi-deux d’indépendance qui reste
une fois que le modèle a été ajusté,
Fi  F  S , (ˆ) 
F  S , (ˆ) 
.
NFI 
 1
Fi
Fi
(attention : peut être inférieur à 1 même si le modèle s’ajuste bien ; cet indice peut sousestimer la qualité de l’ajustement !)
Certaines mesures, comme le adjusted goodness of fit index (AGFI) s’inspirent du R2
ajusté,
n 1
2
Radj
 1
(1  R 2 )
n  p 1
(on rappelle que p est le nombre de paramètres du modèle d’équations structurelles).
Une version un peu compliquée du NFI, le non normed fit index (NNFI), compare les
indices 2 divisés par leur degré de liberté pour le modèle d’indépendance et le modèle à
l’étude :
- 20 -
NNFI 
Fi / [d ( d  1) / 2  d ]  F  S , (ˆ)  / [d ( d  1) / 2  p]
Fi / [d (d  1) / 2  d ]   n 
.
Le comparative fit index de Bentler est
max ( n  1) F  S , (ˆ)   d ( d  1) / 2  p,0


.
CFI  1 
ˆ
max (n  1) F  S , ( )   d ( d  1) / 2  p,( n  1) Fi  d ( d  1) / 2,0 


L’ajustement du modèle est jugé satisfaisant si ces indices sont supérieurs à environ 90%.
Le « parsimonious normed fit index », PNFI, multiplie le NFI par {d(d+1)/2-p}/{d(d1)/2}, la proportion des paramètres de dépendance non utilisée par le modèle. Une valeur
faible indique que le modèle utilise un pourcentage important des paramètres disponibles.
Un autre indice mesure le manque d’ajustement. Le root mean squared error
approximation (RMSEA),
 F  S , (ˆ) 

1


RMSEA  max 

,0 
 d (d  1) / 2  p n  1 


qui doit être inférieur à 6%.
- 21 -
Goodness of Fit Statistics (LISREL)
ECVI for Saturated Model = 0.00647 ECVI for
Independence Model = 0.888
Degrees of Freedom = 2 =d(d+1)/2-p
Minimum Fit Function Chi-Square = 7.405 (P =
0.0247) Test d’ajustement du modèle (Hypothèse
nulle: le modèle postulé décrit bien la relation entre
les variables, Alternative : le modèle ne décrit pas
bien cette relation)
Normal Theory Weighted Least Squares Chi-Square =
7.372 (P = 0.0251)
Estimated Non-centrality Parameter (NCP) = 5.372
90 Percent Confidence Interval for NCP = (0.491 ;
17.733)
Minimum Fit Function Value F  S , (ˆ)  =0.00239
Chi-Square for Independence Model with 6 Degrees
of Freedom = 2739.195
Test d’indépendance, Hypothèse nulle: Les 4
variables du modèle sont indépendantes (les 6
paramètres de covariance sont nuls)
Independence AIC = 2747.195 Model AIC = 23.372
Saturated AIC = 20.000 Independence CAIC =
2775.344 Model CAIC = 79.670 Saturated CAIC =
90.372
(AIC=Akaike Information Criterion)
Normed Fit Index (NFI) = 0.997
Non-Normed Fit Index (NNFI) = 0.994
Parsimony Normed Fit Index (PNFI) = 0.332
Comparative Fit Index (CFI) = 0.998
Incremental Fit Index (IFI) = 0.998
Relative Fit Index (RFI) = 0.992
(livre p. 89-90)
=7.405/3093
Population Discrepancy Function Value (F0) =
0.00174
90 Percent Confidence Interval for F0 = (0.000159 ;
0.00573)
Root Mean Square Error of Approximation (RMSEA)
= 0.0295  .00239 / 2  1/ 3093
90 Percent Confidence Interval for RMSEA =
(0.00891 ; 0.0535) P-Value for Test of Close Fit
(RMSEA < 0.05) = 0.915
Critical N (CN) = 3848.465
Root Mean Square Residual (RMR) = 0.0228
Standardized RMR = 0.0116
Goodness of Fit Index (GFI) = 0.999
Adjusted Goodness of Fit Index (AGFI) = 0.994
Parsimony Goodness of Fit Index (PGFI) = 0.200
Expected Cross-Validation Index (ECVI) = 0.00756
90 Percent Confidence Interval for ECVI = (0.00598 ;
0.0116)
- 22 -
Bentler's Comparative Fit Index
0.9979
Normal Theory Reweighted LS Chi-Square 7.3963
Akaike's Information Criterion
3.4288
Bozdogan's (1987) CAIC
-10.6457
Schwarz's Bayesian Criterion
-8.6457
McDonald's (1989) Centrality
0.9991
Bentler & Bonett's (1980) Non-normed Index
0.9938
Bentler & Bonett's (1980) NFI 0.9972
James, Mulaik, & Brett (1982) Parsimonious NFI
0.3324
Z-Test of Wilson & Hilferty (1931) 1.9794
Bollen (1986) Normed Index Rho1 0.9915
Bollen (1988) Non-normed Index Delta2 0.9979
Hoelter's (1983) Critical N
2496
INDICE D’AJUSTEMENT DE LA SORTIE SAS
(LISTE ÉCOURTÉE)
Fit Function
0.0024
Goodness of Fit Index (GFI)
0.9988
GFI Adjusted for Degrees of Freedom (AGFI)
0.9940
Root Mean Square Residual (RMR)
0.0228
Parsimonious GFI (Mulaik, 1989)
0.3329
Chi-Square
7.4288
Chi-Square DF
2
Pr > Chi-Square
0.0244
Independence Model Chi-Square
2628.6
Independence Model Chi-Square DF
6
RMSEA Estimate
0.0296
RMSEA 90% Lower Confidence Limit
0.0091
RMSEA 90% Upper Confidence Limit
0.0537
ECVI Estimate
0.0076
ECVI 90% Lower Confidence Limit
0.0060
ECVI 90% Upper Confidence Limit
0.0116
Probability of Close Fit
0.9133
- 23 -





CONCLUSIONS POUR LE PREMIER EXEMPLE:
2
Statistique du chi deux (et obs
/ 2 =3.71) un peu grande ; ceci est sans doute
attribuable à la grande taille d’échantillon ;
Cette grande valeur vient du fait que la corrélation observée de 0.055 entre PaJntInc
et HSRank est beaucoup plus petite que la corrélation prédite .089. En fait PaJntInc
mesure le volet économique du milieu socio économique parental alors que les deux
autres variables sont associés à l’aspect académique de ce milieu. HSRank qui
mesure la performance académique est plus corrélée avec MoEd et FaEd qu’avec
PaJntInc. On pourrait raffiner le modèle en distinguant deux aspects, académique et
économique, au milieu parental.
Les indices d’ajustement sont bons, cependant les indices de parcimonie sont
faibles ; le modèle utilise beaucoup de paramètres pour modéliser 10 degrés de
liberté ;
Le R2 de .386 pour PaJntInc est faible et pose la question à savoir si cette variable
est vraiment utile pour caractériser le niveau socio-économique des parents. Notons
cependant que le loading associé à cette variable, ˆ13  1.869 , est significativement
différent de 0 (t=30). Ceci suggère de conserver cette variable dans le modèle.
Le alpha de Cronbach pour la variable latente PaSES est de .77. Les 3 items sousjacents sont bien associés à un même construit latent.
- 24 -
ANALYSE FACTOREILLE CONFIRMATOIRE : QUE FAIRE SI
L’AJUSTEMENT EST MAUVAIS
Le bon ajustement d’un modèle d’analyse factorielle confirmatoire signifie que l’analyste
a identifié une structure plausible pour le phénomène étudié. Évidemment, cette structure
plausible n’est pas unique et il est possible qu’une analyse des mêmes données avec un
autre modèle donne des résultats aussi bons!
Que faire si le modèle postulé ne s’ajuste pas bien? On peut
1. Rejeter le modèle étudié comme étant incapable de bien représenter la structure des
données à l’étude.
2. Choisir le modèle qui s’ajuste le mieux parmi une liste dressée a priori des modèles
susceptibles de bien expliquer les données.
3. Modifier le modèle en se basant sur des mesures d’ajustement et sur des statistiques
diagnostiques dont nous allons discuter maintenant.
On distingue souvent deux types d’erreurs, externes et internes. L’oubli d’une variable
importante pour l’analyse est une erreur externe alors que l’omission d’un lien entre deux
variables de l’analyse est une erreur interne. Une bonne connaissance du domaine
d’application des équations structurelles offre une certaine protection contre les erreurs
externes. Des outils statistiques sont disponibles pour mettre en lumière les erreurs
internes.
- 25 -
Modification Indices (MI) et Expected Parameter Change (EPC)
Ces deux classes de statistiques sont des outils pour détecter et corriger les erreurs
internes pour un modèle.
On peut ajouter au modèle des paramètres structuraux  ou éventuellement des
covariances entre les variables observées, c’est-à-dire des éléments non nuls hors de la
diagonale de la matrice .
Si un paramètre  est fixé à 0 dans la spécification initiale du modèle on peut étudier le
bien fondé de cette décision en testant l’hypothèse H0 :=0. Une statistique score,
souvent appelé test du multiplicateur de Lagrange, peut être utilisée dans ce cas.
L’intérêt d’un test score est qu’il peut être calculé sans faire un nouvel ajustement du
modèle, en y ajoutant un nouveau  possiblement non nul. En analyse d’équations
structurelles les MI sont les statistiques chi-deux observées, à un degré de liberté, pour les
tests scores de paramètres fixés à 0 lors de l’ajustement initial du modèle.
On va maintenant construire des variables latentes pour les variables endogènes dans
l’exemple du milieu socio-économique. Dans l’exemple de diagramme de cheminement
avec variables observée, on avait trois variables endogènes DegreAsp → Selctvty →
Degree. On va chercher à mieux caractériser l’ambition et le milieu socio-économique en
les définissant à partir de plusieurs variables observées.
- 26 -
CFA POUR LA MOTIVATION ACADEMIQUE, LE PRESTIGE DU COLLEGE ET
LE STATUT SOCIO-ECONOMIQUE
On a 7 variables observées X1=AcAbilty, X2=SelfConf, X3=DegreAsp, X4=Selctvty,
X5=Degree, X6=OcPrestg X7=Income. La matrice de variances covariances à modéliser
est
AcAbilty
SelfConf
DegreAsp
Selctvty
Degree
OcPrestg
Income
AcAbilty
0.554
0.283
0.178
0.566
0.173
0.193
0.077
SelfConf
DegreAsp
Selctvty
Degree
OcPrestg
Income
0.612
0.163
0.336
0.135
0.112
0.051
1.028
0.432
0.247
0.202
0.041
3.960
0.486
0.491
0.240
0.925
0.736
0.166
2.531
0.352
2.647
On veut exprimer ces variables en terme de trois variables latentes, à savoir 1=
Motivation académique, 2= Prestige du collège et 3= Statut socio-économique de la
façon suivante,
X1=AcAbilty, X2=SelfConf, X3=DegreAsp → 1= Motivation académique,( AcMotiv )
X4=Selctvty → 2= Prestige du collège (ColgPres )
X5=Degree, X6=OcPrestg X7=Income → 3=Statut socio-économique (SES)
- 27 -
UN PROBLEME POTENTIEL
En principe, dans un modèle d’analyse factorielle confirmatoire, deux variables associées
à une même variable latente devraient être plus corrélées entre elles que si elles étaient
associées à deux variables latentes différentes. En effet, dans ce dernier cas la corrélation
entre les deux variables vient seulement de la corrélation entre les deux variables latentes.
Dans cet exemple, les corrélations entre Degree et Income est de .106 alors que la
corrélation Degree DegreAsp est de .253. Ces corrélations contreviennent à la règle
générale énoncée plus haut. Elle laisse planer un doute concernant la qualité du modèle
postulé. On note également la faible corrélation de Income avec toutes les autres
variables.
AcAbilty
SelfConf
DegreAsp
Selctvty
Degree
OcPrestg
Income
AcAbilty
1
0.487
0.236
0.382
0.242
0.163
0.064
SelfConf
DegreAsp
Selctvty
Degree
OcPrestg
Income
1
0.206
0.216
0.179
0.090
0.040
1
0.214
0.253
0.125
0.025
1
0.254
0.155
0.074
1
0.481
0.106
1
0.136
1
Note: les de Cronbach pour Degree , OcPrestg ,Income (correlation moyenne rm=.241,
s=0.49) et AcAbilty, SelfConf, DegreAsp (rm=.310, s=0.57) ne satisfont pas le critère
3rm
s 
 0.7 .
1  2rm
- 28 -
Le modèle de CFA est décrit par les matrices suivantes
 11 0

0
 21
 31 0
 x   0 42
 0
0

0
 0
 0
0

0 
0 

2



0 
 1
0      12

53 
 13

63 
73 
 
  
 2
  
 2 
1 2
2
 
2 3
1 3

2 3
3
  21 0

2
0


2

 0
0

et    0
0
 0
0

 0
0

 0
0

0
0
0
0
0
0
0
0
 2
0
0
0
0
 2
0
0
0
0
 2
0
0
0
0
 2
0
0
0
0
3
4
5
6
0 

0 
0 

0 
0 

0 
2 
 7 
Sample Size 3094
Latent Variables: AcMotiv ColgPres SES
Relationships:
AcAbilty = 1*AcMotiv
SelfConf = AcMotiv
DegreAsp = AcMotiv
Selctvty = 1*ColgPres
Degree = 1*SES
OcPrestg =SES
Income=SES
Set the error Variance of Selctvty to 0
Wide Print
Path Diagram
End of Problem
Le programme SIMPLIS et sa sortie sont :
Observed Variables
AcAbilty SelfConf DegreAsp Selctvty
Degree OcPrestg Income
Correlation Matrix
1
.487 1
.236 .206 1
.382 .216 .214 1
.242 .179 .253 .254 1
.163 .090 .125 .155 .481 1
.064 .040 .025 .074 .106 .136 1
Standard deviations
.744 .782 1.014 1.990 .962 1.591 1.627
- 29 -
LISREL Estimates (Maximum Likelihood)
Goodness of Fit Statistics
Measurement Equations
AcAbilty = 1.000*AcMotiv, Errorvar.= 0.193 R=0.651
(0.0161)
11.972
Degrees of Freedom = 12
Minimum Fit Function Chi-Square = 155.501 (P = 0.0)
Minimum Fit Function Value = 0.0503
Population Discrepancy Function Value (F0) = 0.0459
0.0600)
Root Mean Square Error of Approximation (RMSEA) =
0.0618
90 Percent Confidence Interval for RMSEA = (0.0533
; 0.0707)
P-Value for Test of Close Fit (RMSEA < 0.05) =
0.0116
SelfConf = 0.765*AcMotiv, Errorvar.= 0.401 R²=0.345
(0.0371)
(0.0138)
20.605
29.045
DegreAsp = 0.568*AcMotiv, Errorvar.= .912 R²=0.113
(0.0387)
(0.0244)
14.671
37.415
Selctvty = 1.000*ColgPres,, R² = 1.000
Degree = 1.000*SES, Errorvar.= 0.287
(0.0430) 6.671
, R² = 0.690
Expected Cross-Validation Index (ECVI) = 0.0601 (ou
.0606 selon le livre p.107)
0.0742)
OcPrestg = 1.151*SES, Errorvar.= 1.685 , R² =0.334
(0.0808)
(0.0708)
14.254
23.801
.5
CS= 1.151(.639/2.531) =.578
Income = 0.309*SES, Errorvar.= 2.586 , R² = 0.0230
(0.0452)
(0.0663)
6.833
38.985
Chi-Square for Independence Model with 21 Degrees
of Freedom = 3526.069
Independence AIC = 3540.069
Model AIC = 185.852 Saturated AIC = 56.000
Independence CAIC = 3589.330
Model CAIC = 298.447 Saturated CAIC = 253.042
On note le petit R2 de 2.3%
Covariance Matrix of Independent Variables
AcMotiv
ColgPres
AcMotiv
0.360
(0.020)
17.784
ColgPres
0.549
3.960
(0.028)
(0.101)
19.604
39.326
SES
0.184
0.478
(0.013)
(0.035)
14.377
13.631
Comparative Fit Index (CFI) = 0.959
Incremental Fit Index (IFI) = 0.959
Relative Fit Index (RFI) = 0.923
Critical N (CN) = 522.490
Root Mean Square Residual (RMR) = 0.0540
Standardized RMR = 0.0370
SES
0.639
(0.048)
13.325
- 30 -
Faits saillants de l’analyse :
1-Income contribue très peu à la variable SES (R² = 0.0230)
2
2- Mauvais ajustement 12  153.85 .
Les degrés de liberté sont calculés de la façon suivante dl =7*8/2-6-4- 6 = 12 où 6= #
variances résiduelles, 4= # paramètres  qui varient, 6= # de paramètres dans la matrice
. En fait ce modèle compte 6+4+6=16 paramètres.
On va chercher les aspects les plus problématiques du modèle à l’aide des indices de
modification (MI) et ajouter certains paramètres au modèle
- 31 -
The Modification Indices Suggest to Add the
Path to
AcAbilty
AcAbilty
SelfConf
DegreAsp
DegreAsp
OcPrestg
from Decrease in Chi-Square
ColgPres
12.5
SES
12.1
ColgPres
43.4
ColgPres
19.5
SES
85.3
AcMotiv
8.6
New Estimate
0.05
-0.10
-0.07
0.05
0.27
-0.31
La suggestion qui baisse le plus la statistique chi-deux ne respecte pas la construction du
modèle: DegreAsp est un déterminant de AcMotiv. SES ne peut contribuer à cette
variable.
The Modification Indices Suggest to Add an Error Covariance
Between
#1 SelfConf
#3 DegreAsp
#7 Selctvty
#4 Selctvty
#9 Selctvty
#8 Degree
#2 Degree
#5 Income
#6 Income
and Decrease in Chi-Square
AcAbilty
70.9
AcAbilty
56.7
AcAbilty
14.5
SelfConf
35.7
DegreAsp
10.2
AcAbilty
13.6
DegreAsp
70.8
Degree
20.5
OcPrestg
15.2
Note : LISREL sort ces statistiques par défaut.
- 32 -
New Estimate
0.23
-0.12
0.14
-0.18
0.11
-0.04
0.12
-0.16
0.17
#1 SelfConf AcAbilty
#2 Degree DegreAsp
DegreAsp SES
70.9
70.8
85.3
Stratégie d’analyse
1- On libère un paramètre
s’il a un grand MI et si
son EPC est grand s’il
respect la logique du
modèle.
2- On peut régler un
problème de deux façons
différentes, en ajoutant
un nouveau  ou en
permettant à certaines
erreurs de covarier.
- 33 -
Suggestions pour la suite :
1- Laisser tomber Income et utiliser seulement deux variables pour définir la variable
latente SES ;
2- On ajoute des covariances entres les erreurs résiduelles pour (1) SelfConf et
AcAbilty et (2) Degree et DegreAsp
Programme SIMPLIS avec ces changements
Observed Variables
AcAbilty SelfConf DegreAsp Selctvty Degree
OcPrestg
Correlation Matrix
1
.487 1
.236 .206 1
.382 .216 .214 1
.242 .179 .253 .254 1
.163 .090 .125 .155 .481 1
Standard deviations
.744 .782 1.014 1.990 .962 1.591
Sample Size 3094
Latent Variables: AcMotiv ColgPres SES
Relationships:
AcAbilty = 1*AcMotiv
SelfConf = AcMotiv
DegreAsp = AcMotiv
Selctvty = 1*ColgPres
Degree = 1*SES
OcPrestg =SES
Set the error Variance of Selctvty to 0
Set the error Covariance of AcAbilty and SelfConf
free
Set the error Covariance of Degree and DegreAsp
free
Wide Print
Path Diagram
End of Problem
6.6in.02in
LISREL Estimates (Maximum Likelihood)
AcAbilty = 1.000*AcMotiv, Errorvar.= 0.323,R²=0.416
(0.0206)
15.713
SelfConf = 0.683*AcMotiv, Errorvar.= 0.504,R²=0.176
(0.0389)
(0.0174)
17.551
28.999
DegreAsp = 0.811*AcMotiv, Errorvar.= 0.877,R²=0.147
(0.0652)
(0.0255)
12.440
34.451
Selctvty = 1.000*ColgPres,, R² = 1.000
Degree = 1.000*SES, Errorvar.= 0.237
(0.0527)
4.492
- 34 -
, R² = 0.743
OcPrestg = 1.066*SES, Errorvar.= 1.751
(0.0856)
(0.0748)
12.450
23.428
0.0137)
Root Mean Square Error of Approximation (RMSEA) =
0.0379
90 Percent Confidence Interval for RMSEA = (0.0247
; 0.0524)
P-Value for Test of Close Fit (RMSEA < 0.05) =
0.912
,R² = 0.308
Error Covariance for SelfConf and AcAbilty = 0.126
(0.0156)
8.069
Error Covariance for Degree and DegreAsp = 0.0895
(0.0161)
5.558
Expected Cross-Validation Index (ECVI) = 0.0191
0.0257)
ECVI for Saturated Model = 0.0136
ECVI for Independence Model = 1.102
La variance de AcMotiv a baissé de .360 à
.230 ! Les R2 associés à cette variable ont
diminués, sans doute parce que l’on permet une
corrélation entre SelfConf and AcAbilty.
AcMotiv
ColgPres
SES
AcMotiv
0.230
(0.022)
10.438
0.551
(0.028)
19.541
0.181
(0.013)
13.980
ColgPres
3.960
(0.101)
39.326
0.484
(0.035)
13.725
SES
Evidemment, l’ajustement est meilleur
qu’avant, cependant le construit AcMotiv
manque de stabilité. Sa variance
relativement est faible de AcMotiv .230 .
Un Intervalle de confiance à 95% est
(.186, .274).
0.686
(0.057)
12.062
Degrees of Freedom = 5
Minimum Fit Function Chi-Square = 27.464 (P =
0.000)
Minimum Fit Function Value = 0.00888
Population Discrepancy Function Value (F0) =
0.00718
- 35 -
Les estimés
et les estimés standardisés
36
DISCUSSION DES RESULTATS
1-L’instrument mis au point répond-il aux attentes ? Mesure-t-il ce pourquoi il a été
développé ?
Les valeurs possibles de l’instrument couvrent-elles une plage suffisamment large ?
(Note : Instrument = Variable latente construite)
Validité = corrélation avec d’autres variables censées mesurées la même chose.
L’analyse confirmatoire permet de définir 3 dimensions à validité :
1- Bon ajustement statistique du modèle aux données ;
2- Des coefficients  assez grands (pour comparer 2 jeux de données on utilise les
coefficients non standardisés alors que pour comparer les variables entre elles on
utilise les coefficients standardisés) ;
3- Une correspondance entre les relations estimées et espérées entre les variables
latentes.
Fiabilité
1- Stabilité temporelle (corrélation entre deux temps de collecte, carry-over effect ?)
2- Cohérence interne (corrélation entre les 2 composantes d’un construit ou alpha de
Cronbach)
3- Les R2 qui donnent la proportion de variance expliquée par les construits sont
grands
37
4- ANALYSE FACTORIELLE CONFIRMATOIRE : ÉVALUATION DES
POLICIERS
Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien
 262  34.94
CommSk
LearnAbi
Judgment
ObserSk
WillConP
IntPeop
InterPer
DesiSelf
Depend
Inegrety
Factor 1
0.457
0.187
0.639
0.134
0.103
0.886
0.901
0.414
0.580
0.768
Factor 2
0.575
0.708
0.382
0.862
0.797
0.159
0.048
0.644
0.551
0.321
Unique Var
0.460
0.464
0.446
0.239
0.353
0.190
0.186
0.415
0.361
0.307
Facteur 1 : Relations interpersonnelles
Facteur 2 : Habilités individuelles
En général un item n’est associé qu’à un seul construit latent. On peut donc 5 items à
chacun des deux construit sur la base du plus grand  jis .Ceci donne un modèle d’AFC
dont nous allons maintenant évalué l’ajustement.
38
Programme Simplis
CFA: donnees sur les policiers; estimation des
variables latentes
Raw data from file job13AFE.lSF
Reorder variables: ObserSk CommSk DesiSelf
LearnAbi WillConP IntPeop Judgment InterPer
Depend
Inegrety
Latent variables:
Perso Rela
Relationships:
ObserSk =1*Perso
CommSk DesiSelf LearnAbi WillConP = Perso
IntPeop =1*Rela
Judgment InterPer
Depend
Inegrety
=Rela
path diagram
Number of Decimals=3
End of Program
Clairement le modèle proposé ne s’ajuste pas
bien
Degrees of Freedom for (C1)-(C2) 34
Maximum Likelihood Ratio Chi-Square (C1) 121.396 (P
= 0.0000)
Browne's (1984) ADF Chi-Square (C2\_NT) 130.842 (P =
0.0000)
Estimated Non-centrality Parameter (NCP) 87.396
90 Percent Confidence Interval for NCP (57.505 ;
124.877)
Minimum Fit Function Value 1.179
Population Discrepancy Function Value (F0) 0.849
90 Percent Confidence Interval for F0 (0.558 ;
1.212)
Root Mean Square Error of Approximation (RMSEA)
0.158
90 Percent Confidence Interval for RMSEA (0.128 ;
0.189)
P-Value for Test of Close Fit (RMSEA $<$ 0.05) 0.000
Expected Cross-Validation Index (ECVI) 1.586
90 Percent Confidence Interval for ECVI (1.296 ;
1.950)
ECVI for Saturated Model 1.068
ECVI for Independence Model 12.310
Chi-Square for Independence Model (45 df) 1247.947
39
Normed Fit Index (NFI) 0.902
Non-Normed Fit Index (NNFI) 0.903
Parsimony Normed Fit Index (PNFI) 0.681
Comparative Fit Index (CFI) 0.927
Incremental Fit Index (IFI) 0.927
Relative Fit Index (RFI) 0.870
Perso Rela
-------- -------Perso 2.101
(0.429)
4.896
Critical N (CN) 48.104
Rela 1.429 2.822
(0.321) (0.500)
4.449 5.641
On inclut dans le modèle des covariances entre certaines variables observes pour obtenir
un meilleur ajustement. Les indices de modifications suggérent d’ajouter un lien de
Perso à Depen. Cette modification pourrait également être envisagée. Notons que l’ajout
des trois covariances résiduelles augmente la corrélation entre les deux facteurs latents
qui passe de 0.59 à 0.71.
Il faut aussi noter que l’ajout de covariance diminue les R2 car la variable latente n’est
plus la seule explication pour la variabilité d’une variable observée. Elle diminue aussi la
variance des variables latentes. Par exemple, celle de Rela passe de 2.82 à 2.39. Dans le
modèle retenu le RMSEA est élevé. Peut-être qu’identifier Depen à un seul construit
n’est pas approprié. C’est toutefois ce modèle que nous allons utiliser pour construire un
modèle de prédiction pour le score global.
40
Sortie SIMPLIS pour le modèle choisi
ObserSk = 1.000*Perso, Errorvar.= 1.331 , R\² = 0.571
Standerr (0.233)
Z-values 5.726
CommSk = 1.055*Perso, Errorvar.= 1.335 , R\² = 0.596
Standerr (0.137) (0.240)
Z-values 7.675 5.572
DesiSelf = 1.031*Perso, Errorvar.= 1.110 , R\² = 0.629
41
Standerr (0.132) (0.206)
Z-values 7.810 5.378
LearnAbi = 0.747*Perso, Errorvar.= 0.805 , R\² = 0.551
Standerr (0.102) (0.137)
Z-values 7.307 5.885
WillConP = 0.783*Perso, Errorvar.= 1.239 , R\² = 0.467
Standerr (0.0866) (0.201)
Z-values 9.040 6.159
IntPeop = 1.000*Rela, Errorvar.= 1.186 , R\² = 0.669
Standerr (0.222)
Z-values 5.340
Judgment = 0.821*Rela, Errorvar.= 1.383 , R\² = 0.539
Standerr (0.103) (0.225)
Z-values 8.004 6.154
InterPer = 0.833*Rela, Errorvar.= 1.370 , R\² = 0.548
Standerr (0.0711) (0.220)
Z-values 11.706 6.222
Depend = 0.967*Rela, Errorvar.= 1.437 , R\² = 0.609
Standerr (0.112) (0.248)
Z-values 8.654 5.801
Inegrety = 1.021*Rela, Errorvar.= 0.907 , R\² = 0.734
Standerr (0.105) (0.192)
42
Z-values 9.688 4.722
Error Covariance for WillConP and ObserSk = 0.573
(0.174)
3.295
Error Covariance for InterPer and CommSk = 0.493
(0.139)
3.547
Error Covariance for InterPer and IntPeop = 0.642
(0.178)
3.609
Perso Rela
-------- -------Perso 1.772
(0.413)
4.290
Rela 1.472 2.395
(0.315) (0.491)
4.679 4.876
43

afc

Transcription

Documents pareils

f i t flash

Réponses à la carence en fer chez les végétaux

Pour lire le message en français, voir plus bas

Équations structurelles : Devoir long

David Chelly - English resume

Trouver un stage ou un job à l`etranger

Rapport du Conseil_bil

Poste à pourvoir de lecteur d`anglais à la Faculté

Wipro Business Case

Les pays accueillant les bacheliers du LFS pour leurs études

Comment se faire des amis

266.4 ko - Consulat Général de France à Jérusalem

270.2 ko - Consulat Général de France à Jérusalem

Thule 910XT Passage

never out of stock - TOM TAILOR B2B-Shop