STT-4400 : Analyse de tableaux de fréquences - PIXEL

Transcription

STT-4400 : Analyse de tableaux de fréquences - PIXEL
STT-4400 : Analyse de tableaux de fréquences
NRC 11432
Hiver 2013
Mode d'enseignement : Présentiel
Temps consacré : 3-0-6
Crédit(s) : 3
Préalables : STT 2000
Tableaux de fréquences à deux variables: rapport de cotes et risque relatif,
test d'indépendance, test exact de Fisher, variable ordinale. Tableaux de
fréquences à trois variables: association marginale et association
conditionnelle, paradoxe de Simpson, statistique de Mantel et Haenszel.
Modèles linéaires généralisés: régression logistique et régression de Poisson,
sélection des variables et mesure de l'ajustement des modèles. Modèles
loglinéaires pour les tableaux de fréquences à trois et quatre variables.
Utilisation de procédure SAS (FREQ et GENMOD) pour l'analyse de données.
Plage horaire :
Cours en classe
Mardi
10h30 à 11h20 VCH-2820
Vendredi 10h30 à 12h20 VCH-3840
Du 21 janv. 2013 au 30 avr. 2013
Du 21 janv. 2013 au 30 avr. 2013
Il se peut que l'horaire du cours ait été modifié depuis la dernière
synchronisation avec Capsule. Vérifier l'horaire dans Capsule
Site de cours :
https://www.portaildescours.ulaval.ca/ena/site/accueil?idSite=41039
Coordonnées et disponibilités
Sophie Baillargeon
Enseignant
2205 Vachon
[email protected]
656-2131 poste 2333
Disponibilités :
Vendredi 13h30 à 15h30 VCH-2205
Soutien technique :
Du 21 janv. 2013 au 30 avr. 2013
Équipe TacTic (FSG)
Pavillon Adrien-Pouliot, Local 3718
http://tactic.fsg.ulaval.ca
[email protected]
418-656-2131 poste 8747
Toutes sessions (du 1 janvier au 31 décembre)
Lundi
Mardi
Mercredi
Jeudi
Vendredi
© Université Laval
09h00 à 16h00
09h00 à 16h00
09h00 à 16h00
09h00 à 16h00
09h00 à 16h00
Mis à jour le 13 mai 2013 15:12
Page 1 de 8
Sommaire
Description du cours ......................................................................................................................... 3
Mise à jour de la description générale du cours .................................................................................. 3
Objectifs ....................................................................................................................................... 3
Description du contenu du cours ...................................................................................................... 3
Contenu et activités .......................................................................................................................... 4
Évaluations et résultats .................................................................................................................... 4
Modalités d'évaluation ..................................................................................................................... 4
Informations détaillées sur les évaluations sommatives ....................................................................... 4
Examen 1 ................................................................................................................................. 4
Examen 2 ................................................................................................................................. 4
Travail pratique 1 ...................................................................................................................... 5
Travail pratique 2 ...................................................................................................................... 5
Détails sur les modalités d'évaluation ................................................................................................ 5
Politique sur les examens ................................................................................................................ 6
Échelle des cotes ............................................................................................................................ 6
Politique sur l'utilisation d'appareils électroniques ............................................................................... 6
Politique sur le plagiat et la fraude académique .................................................................................. 6
Matériel didactique ........................................................................................................................... 7
Matériel pédagogique ...................................................................................................................... 7
Logiciels ........................................................................................................................................ 7
Bibliographie ................................................................................................................................. 7
Médiagraphie et annexes .................................................................................................................. 8
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 2 de 8
Description du cours
Mise à jour de la description générale du cours
Tableaux de fréquences à deux variables : proportions, rapport de cotes et risque relatif, tests et mesures
d'association, variables ordinales, données pairées. Tableaux de fréquences à trois variables : association
marginale et association conditionnelle, paradoxe de Simpson. Modèles linéaires généralisés : régression de
Poisson et régression logistique binaire, conditionnelle, ordinale et multinomiale, sélection des variables et
mesure de l'ajustement des modèles. Analyse des données à l'aide de logiciels statistiques.
Objectifs
À la fin du cours, l'étudiant devra être capable :
1. d'utiliser les lois de probabilité discrètes usuelles;
2. d'analyser des tableaux de fréquences à deux variables à l'aide des techniques usuelles: test du khi-deux,
test exact de Fisher, rapport de cotes, risque relatif, tests et mesures particulières aux variables ordinales et
aux données pairées;
3. d'analyser des tableaux de fréquences à trois variables en distinguant l'association conditionnelle de
l'association marginale et en étant conscient du paradoxe de Simpson;
4. d'utiliser des modèles linéaires généralisés pour analyser des données discrètes;
5. d'effectuer des analyses de régression logistique binaire, conditionnelle, ordinale et multinomiale, de
régression Poisson, de valider le modèle, de faire la sélection des variables et de faire de l'inférence sur les
paramètres du modèle;
6. de mettre en oeuvre les analyses vues au cours en se servant des procédures FREQ, GENMOD et LOGISTIC
de SAS.
Description du contenu du cours
0. Rappels et introduction
Types de variables. Loi normale, théorème limite central. Loi khi-deux. Vraisemblance. Tests d'hypothèse :
tests de Wald, score et du rapport de vraisemblance. Intervalles de confiance. Types d'études.
1. Tableaux de fréquences à une variable
Lois binomiale, Poisson et multinomiale : leurs principales propriétés. Estimation ponctuelle, par intervalle de
confiance et tests pour les paramètres de ces lois. Test du khi-deux de Pearson et du rapport de vraisemblance
pour l'adéquation de données à une loi.
2. Tableaux de fréquences à deux variables
Échantillonnage Poisson, multinomial et multinomial multiple. Test d’indépendance et test d’homogénéité
(khi-deux et rapport de vraisemblance). Test exact de Fisher. Test de symétrie. Test de McNemar (données
pairées). Mesure d’association : risque relatif, rapport de cotes, statistique de Cramer, rho de Pearson et de
Spearman. Mesure de concordance : coefficient Kappa, pourcentage d'accord. Sensibilité et spécificité.
3. Tableaux de fréquences à trois variables
Association marginale et conditionnelle, paradoxe de Simpson. Rapports de cotes marginaux et conditionnels.
Test de Cochran-Mantel-Haenszel.
4. Modèles linéaires généralisés (GLM) : la théorie
Comparaison avec les modèles linéaires standards et les transformations de variable. Composantes d'un GLM :
composante aléatoire, composante systématique et fonction de lien. Ajustement du modèle : estimation des
paramètres du modèle et de leurs erreurs type, déviance. Inférence sur les paramètres du modèle : tests de
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 3 de 8
Wald et de rapport de vraisemblance, intervalles de confiance de Wald. Validation du modèle : étude de
l'ajustement du modèle à l'aide de statistiques, d'indices et de résidus.
5. Régression de Poisson
Le modèle de régression de Poisson. Terme d’offset. Variabilité extra-poissonnienne.
6. Régression logistique
Les modèles de régression logistique binaire, conditionnelle, ordinale et multinomiale. Les interprétations en
terme de rapport de cotes.
7. Modèles linéaires généralisés : la pratique
Les étapes d'une analyse de données avec un GLM. Procédure de sélection de variables.
Contenu et activités
Le tableau ci-dessous présente les semaines d'activités prévues dans le cadre du cours.
Titre
Date
Notes de cours
21 janv. 2013
Exemples SAS vus en classe
21 janv. 2013
Exercices
21 janv. 2013
Correction travaux pratiques
Note : Veuillez vous référer à la section Contenu et activités de votre site de cours pour de plus amples détails.
Évaluations et résultats
Modalités d'évaluation
Sommatives
Titre
Date
Mode de travail
Pondération
Examen 1
Le 8 mars 2013 de 10h30 à 13h20
Individuel
40 %
Examen 2
Le 3 mai 2013 de 10h30 à 13h20
Individuel
40 %
Travail pratique 1
Dû le 5 mars 2013 à 10h30
En équipe
10 %
Travail pratique 2
Dû le 30 avr. 2013 à 10h30
En équipe
10 %
Informations détaillées sur les évaluations sommatives
Examen 1
Date et lieu :
Mode de travail :
Pondération :
Le 8 mars 2013 de 10h30 à 13h20, VCH-3840
Individuel
40 %
Fichiers à consulter :
formules_examen1.pdf
574 Ko, déposé le 5 mars 2013
Examen 2
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 4 de 8
Examen 2
Date et lieu :
Mode de travail :
Pondération :
Le 3 mai 2013 de 10h30 à 13h20, VCH-2820
Individuel
40 %
Fichiers à consulter :
formules_examen2.pdf
240,84 Ko, déposé le 1 mai 2013
Travail pratique 1
Date de remise :
Mode de travail :
Pondération :
Remise de l'évaluation :
5 mars 2013 à 10h30
En équipe
10 %
VCH-2820
[email protected]
Fichiers à consulter :
TP1.pdf
169,82 Ko, déposé le 15 févr. 2013
LectureDonnees.sas
1 011 octets, déposé le 12 févr. 2013
Sondage.csv
2,59 Ko, déposé le 12 févr. 2013
later.sas7bdat
29 Ko, déposé le 12 févr. 2013
latersousech.sas7bdat
5 Ko, déposé le 12 févr. 2013
Travail pratique 2
Date de remise :
Mode de travail :
Pondération :
Remise de l'évaluation :
30 avr. 2013 à 10h30
En équipe
10 %
VCH-2820
[email protected]
Fichiers à consulter :
TP2.pdf
147,08 Ko, déposé le 16 avr. 2013
Sondage.csv
2,59 Ko, déposé le 16 avr. 2013
Détails sur les modalités d'évaluation
L'évaluation tiendra compte des objectifs du cours énoncés dans le présent document. Deux examens
obligatoires de 120 minutes chacun et des travaux pratiques serviront à évaluer les étudiants. Chacun des
examens comptera pour 40% de la note finale. Les travaux pratiques compteront, au total, pour 20% de la
note finale. Une partie des travaux pratiques nécessitera l'usage de la calculatrice et de l'ordinateur.
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 5 de 8
Lors des examens, les seules aides permises seront une calculatrice non programmable conforme aux
règlements de la Faculté de sciences et de génie (voir ci-dessous) ainsi que les formules et tables de loi que je
vous fournirez. Une copie des formules sera rendue disponible sur le site web du cours bien avant l'examen afin
que vous l'ayez en main pendant votre préparation à l'examen.
La politique de reprise d’une évaluation ainsi que le formulaire de demande de reprise sont disponibles sur le
site wed du Dépatement de mathématiques et de statistique sous l’onglet « Cours ».
Politique sur les examens
Les étudiants qui ont une lettre d'Attestation d'accommodations scolaires obtenue auprès d'un conseiller du
secteur Accueil et soutien aux étudiants en situation de handicap (ACSESH) doivent rencontrer leur professeur
au début de la session afin que des mesures d'accommodation en classe ou lors des évaluations puissent être
prévues et planifiées suffisamment à l'avance puis mises en place.
Échelle des cotes
Cote
% minimum
% maximum
Cote
% minimum
% maximum
A+
90
100
C+
66
69,99
A
85
89,99
C
63
65,99
A-
80
84,99
C-
60
62,99
B+
76
79,99
D+
55
59,99
B
73
75,99
D
50
54,99
B-
70
72,99
E
0
49,99
Politique sur l'utilisation d'appareils électroniques
L'utilisation d'appareils électroniques (cellulaire ou autre appareil téléphonique sans fil, pagette, baladeur,
agenda électronique, etc.) est interdite au cours d'une séance d'évaluation et de toute autre activité durant
laquelle l'enseignant l'interdit.
De plus, lorsque l'usage de la calculatrice est permis, alors seuls certains modèles de calculatrices sont
autorisés durant les séances d'évaluation.
Les modèles suivants sont autorisés :
Hewlett Packard
HP 20S, HP 30S, HP 32S2, HP 33S, HP 35S
Texas Instrument
TI-30Xa, TI-30XIIB, TI-30XIIS, TI-36X, BA35
Sharp
EL-531*, EL-546*, EL-520*
Casio
FX-260, FX-300 MS, FX-300W Plus, FX-991MS, FX-991ES
* Calculatrices Sharp: sans considération pour les lettres qui suivent le numéro
Dans tous ces cas, la calculatrice doit être validée par une vignette autocollante émise par la COOP étudiante
ZONE.
Politique sur le plagiat et la fraude académique
Règles disciplinaires
Tout étudiant qui commet une infraction au Règlement disciplinaire à l'intention des étudiants de l'Université
Laval dans le cadre du présent cours, notamment en matière de plagiat, est passible des sanctions qui sont
prévues dans ce règlement. Il est très important pour tout étudiant de prendre connaissance des articles 28 à
32 du Règlement disciplinaire. Celui-ci peut être consulté à l'adresse suivante:
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 6 de 8
http://www.ulaval.ca/sg/reg/Reglements/Reglement_disciplinaire.pdf
Plagiat
Tout étudiant est tenu de respecter les règles relatives au plagiat. Constitue notamment du plagiat le fait de:
i. copier textuellement un ou plusieurs passages provenant d'un ouvrage sous format papier ou
électronique sans mettre ces passages entre guillemets et sans en mentionner la source;
ii. résumer l'idée originale d'un auteur en l'exprimant dans ses propres mots (paraphraser) sans en
mentionner la source;
iii. traduire partiellement ou totalement un texte sans en mentionner la provenance;
iv. remettre un travail copié d'un autre étudiant (avec ou sans l'accord de cet autre étudiant);
v. remettre un travail téléchargé d'un site d'achat ou d'échange de travaux scolaires.
Matériel didactique
Matériel pédagogique
Le matériel pédagogique utilisé dans ce cours sera entièrement disponible sur le site web du cours. La veille de
chaque cours, de nouveaux éléments pourraient être rendus disponibles en ligne. Il sera de la responsabilité de
l'étudiant d'imprimer ces documents, s'il désire en avoir une version papier pour assister au cours. Les documents mis sur internet seront les suivants :
notes de cours;
exemples pratiques comprenant des sorties SAS;
exercices et leurs solutionnaires;
travaux pratiques;
fichier de données;
fichiers pour se préparer aux examens.
Les notes se basent sur d'anciennes notes de cours : celles de Louis-Paul Rivest, réalisées dans les années 90 à
l'aide de Marc Simard à l'époque étudiant en statistique et révisées par Nadia Ghazzali et Chantal
Mérette; celles de Claude Bélisle, réalisées en 2004; et celles d'Aurélie Labbe, réalisée en 2007 et révisées par
Lajmi Lakhal Chaieb en 2008. Plusieurs exercices ont été écrits par Thierry Duchesne lorsqu'il a enseigné le
cours en 2005 et 2006.
Les premières notes se basaient sur la première édition du livre:
Agresti, A. (2007). An Introduction to Categorical Data Analysis, Second edition. Wiley.
Ce livre est encore la référence principale des notes de cours. Si vous souhaitez vous procurez une copie de
l'édition la plus récente (deuxième) de ce livre, sachez qu'il peut être téléchargé sur le site web de Wiley par
l'intermédiaire de la bibliothèque de l'Université Laval. Si vous êtes connecté au réseau de l'Université Laval
(RESUL), vous pouvez télécharger en format PDF les chapitres de ce livre à l'adresse suivante :
http://onlinelibrary.wiley.com/book/10.1002/0470114754 Logiciels
Dans ce cours, nous utiliserons principalement le logiciel SAS. L'utilisation des procédures FREQ, GENMOD et
LOGISTIC sera évaluée.
Le logiciel R pourrait aussi être utilisé pour effectuer certains calculs, mais son utilisation ne sera pas évaluée.
Bibliographie
1. Agresti, A. (2007). An Introduction to Categorical Data Analysis, Second edition. Wiley.
2. Stokes, M.E., Davis, C.S. et Koch, G.G. (2000). Categorical Data Analysis Using SAS, Second edition. The
SAS Institute.
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 7 de 8
3. Agresti, A. (2002). Categorical Data Analysis, Second edition. Wiley.
4. Fleiss, J. L., Levin, B. et Paik, M. C. (2003). Statistical Methods for Rates and Proportions. Third edition. John
Wiley and Sons.
5. McCullagh, P. et Nelder, J.A. (1989). Generalized Linear Models, Second Edition. Chapman & Hall.
6. Cameron A. C. et Trivedi, P. K. (1998) Regression Analysis of Count Data. Cambridge University Press.
7. Hosmer, D.W et Lemeshow, S. (2000). Applied Logistic Regression, Second Edition. John Wiley and Sons.
Médiagraphie et annexes
Cette section ne contient aucune information.
© Université Laval
Mis à jour le 13 mai 2013 15:12
Page 8 de 8