to get the file

Transcription

to get the file
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
Master Professionnel EISIS
Expertise et Ingénierie des Systèmes d’Information en Santé
UE OPT 3 : Outils méthodologiques du traitement de l’information (3) :
biostatistique
Problème sur la régression logistique :
Une étude visant à mettre en évidence les facteurs de l’environnement de travail des salariés liés avec
le surpoids et l’obésité a été menée. On dispose des informations suivantes :
- surpoids : surpoids (0= Non, 1= Oui),
- age : âge (en années),
- sex : sexe (0=Femme, 1=Homme),
- pcfin : indemnité forfaitaire payée par l’employeur pour le repas (0= Non, 1= Oui),
- taillent : taille de l’entreprise(0=Moins de 99 salariés, 1=Plus de 100 salariés),
- ouvrier : catégorie socio-professionnelle(0=Employé, profession intermédiaire, cadre ;
1=Ouvrier).
1) Expliquez pourquoi la régression logistique est adaptée à l’étude de ces données.
2) Commentez le modèle réalisé ci-dessous avec le logiciel R et interprétez les résultats.
> fit1<-glm(surpoids~age,family=binomial,data= poidssalaries)
> summary(fit1)
Call:
glm(formula = surpoids ~ age, family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.416
-1.017
-0.811
1.235
1.862
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.091385
0.256456
-8.155 3.49e-16 ***
age
0.006222
6.836 8.17e-12 ***
0.042528
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1523.0
on 1166
degrees of freedom
AIC: 1527.0
Number of Fisher Scoring iterations: 4
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
1/3
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
3) Commentez le modèle plus complet ci-dessous. Est-il meilleur que le précédent ?
>
fit2<-glm(surpoids~
poidssalaries)
age
+
sex
+
pcfin
+
taillent
+
ouvrier,family=binomial,data=
> summary(fit2)
Call:
glm(formula = poids ~ age + sex + pcfin + taillent + ouvrier,
family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.6781
-0.9844
-0.7215
1.1794
2.0208
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.719753
0.283826
age
0.043343
0.006484
-9.582
6.684 2.32e-11 ***
< 2e-16 ***
sex
0.549204
0.137348
3.999 6.37e-05 ***
pcfin
0.530552
0.171367
3.096
0.00196 **
taillent
0.253524
0.126682
2.001
0.04536 *
ouvrier
0.244980
0.143553
1.707
0.08791 .
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1469.5
on 1162
degrees of freedom
AIC: 1481.5
Number of Fisher Scoring iterations: 4
> dev1<-deviance(fit1)-deviance(fit2)
> 1-pchisq(dev1,4)
[1] 6.609702e-11
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
2/3
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
4) Interprétez le modèle ci-dessous, où un terme d’interaction a été ajouté. Commentez cette
interaction.
> fit3<-glm (surpoids~age+ sex + pcfin + taillent + ouvrier+ouvrier*sex,family=binomial, data=
poidssalaries)
> summary(fit3)
Call:
glm(formula = surpoids ~ age + sex + pcfin + taillent + ouvrier +
ouvrier * sex, family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.7055
-0.9747
-0.6995
1.1437
2.0384
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.707951
0.284651
age
0.041294
0.006548
-9.513
6.307 2.85e-10 ***
< 2e-16 ***
sex
0.714256
0.152898
4.671 2.99e-06 ***
pcfin
0.559472
0.171674
3.259
0.00112 **
taillent
0.227468
0.127457
1.785
0.07432 .
ouvrier
0.836517
0.278923
2.999
0.00271 **
sex:ouvrier -0.808698
0.326750
-2.475
0.01332 *
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1463.4
on 1161
degrees of freedom
AIC: 1477.4
Number of Fisher Scoring iterations: 4
dev2<-deviance (fit2)-deviance(fit3)
> 1-pchisq(dev2,1)
[1] 0.01325128
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
3/3