STT-4400 : Analyse de tableaux de fréquences - PIXEL
Transcription
STT-4400 : Analyse de tableaux de fréquences - PIXEL
STT-4400 : Analyse de tableaux de fréquences NRC 11432 Hiver 2013 Mode d'enseignement : Présentiel Temps consacré : 3-0-6 Crédit(s) : 3 Préalables : STT 2000 Tableaux de fréquences à deux variables: rapport de cotes et risque relatif, test d'indépendance, test exact de Fisher, variable ordinale. Tableaux de fréquences à trois variables: association marginale et association conditionnelle, paradoxe de Simpson, statistique de Mantel et Haenszel. Modèles linéaires généralisés: régression logistique et régression de Poisson, sélection des variables et mesure de l'ajustement des modèles. Modèles loglinéaires pour les tableaux de fréquences à trois et quatre variables. Utilisation de procédure SAS (FREQ et GENMOD) pour l'analyse de données. Plage horaire : Cours en classe Mardi 10h30 à 11h20 VCH-2820 Vendredi 10h30 à 12h20 VCH-3840 Du 21 janv. 2013 au 30 avr. 2013 Du 21 janv. 2013 au 30 avr. 2013 Il se peut que l'horaire du cours ait été modifié depuis la dernière synchronisation avec Capsule. Vérifier l'horaire dans Capsule Site de cours : https://www.portaildescours.ulaval.ca/ena/site/accueil?idSite=41039 Coordonnées et disponibilités Sophie Baillargeon Enseignant 2205 Vachon [email protected] 656-2131 poste 2333 Disponibilités : Vendredi 13h30 à 15h30 VCH-2205 Soutien technique : Du 21 janv. 2013 au 30 avr. 2013 Équipe TacTic (FSG) Pavillon Adrien-Pouliot, Local 3718 http://tactic.fsg.ulaval.ca [email protected] 418-656-2131 poste 8747 Toutes sessions (du 1 janvier au 31 décembre) Lundi Mardi Mercredi Jeudi Vendredi © Université Laval 09h00 à 16h00 09h00 à 16h00 09h00 à 16h00 09h00 à 16h00 09h00 à 16h00 Mis à jour le 13 mai 2013 15:12 Page 1 de 8 Sommaire Description du cours ......................................................................................................................... 3 Mise à jour de la description générale du cours .................................................................................. 3 Objectifs ....................................................................................................................................... 3 Description du contenu du cours ...................................................................................................... 3 Contenu et activités .......................................................................................................................... 4 Évaluations et résultats .................................................................................................................... 4 Modalités d'évaluation ..................................................................................................................... 4 Informations détaillées sur les évaluations sommatives ....................................................................... 4 Examen 1 ................................................................................................................................. 4 Examen 2 ................................................................................................................................. 4 Travail pratique 1 ...................................................................................................................... 5 Travail pratique 2 ...................................................................................................................... 5 Détails sur les modalités d'évaluation ................................................................................................ 5 Politique sur les examens ................................................................................................................ 6 Échelle des cotes ............................................................................................................................ 6 Politique sur l'utilisation d'appareils électroniques ............................................................................... 6 Politique sur le plagiat et la fraude académique .................................................................................. 6 Matériel didactique ........................................................................................................................... 7 Matériel pédagogique ...................................................................................................................... 7 Logiciels ........................................................................................................................................ 7 Bibliographie ................................................................................................................................. 7 Médiagraphie et annexes .................................................................................................................. 8 © Université Laval Mis à jour le 13 mai 2013 15:12 Page 2 de 8 Description du cours Mise à jour de la description générale du cours Tableaux de fréquences à deux variables : proportions, rapport de cotes et risque relatif, tests et mesures d'association, variables ordinales, données pairées. Tableaux de fréquences à trois variables : association marginale et association conditionnelle, paradoxe de Simpson. Modèles linéaires généralisés : régression de Poisson et régression logistique binaire, conditionnelle, ordinale et multinomiale, sélection des variables et mesure de l'ajustement des modèles. Analyse des données à l'aide de logiciels statistiques. Objectifs À la fin du cours, l'étudiant devra être capable : 1. d'utiliser les lois de probabilité discrètes usuelles; 2. d'analyser des tableaux de fréquences à deux variables à l'aide des techniques usuelles: test du khi-deux, test exact de Fisher, rapport de cotes, risque relatif, tests et mesures particulières aux variables ordinales et aux données pairées; 3. d'analyser des tableaux de fréquences à trois variables en distinguant l'association conditionnelle de l'association marginale et en étant conscient du paradoxe de Simpson; 4. d'utiliser des modèles linéaires généralisés pour analyser des données discrètes; 5. d'effectuer des analyses de régression logistique binaire, conditionnelle, ordinale et multinomiale, de régression Poisson, de valider le modèle, de faire la sélection des variables et de faire de l'inférence sur les paramètres du modèle; 6. de mettre en oeuvre les analyses vues au cours en se servant des procédures FREQ, GENMOD et LOGISTIC de SAS. Description du contenu du cours 0. Rappels et introduction Types de variables. Loi normale, théorème limite central. Loi khi-deux. Vraisemblance. Tests d'hypothèse : tests de Wald, score et du rapport de vraisemblance. Intervalles de confiance. Types d'études. 1. Tableaux de fréquences à une variable Lois binomiale, Poisson et multinomiale : leurs principales propriétés. Estimation ponctuelle, par intervalle de confiance et tests pour les paramètres de ces lois. Test du khi-deux de Pearson et du rapport de vraisemblance pour l'adéquation de données à une loi. 2. Tableaux de fréquences à deux variables Échantillonnage Poisson, multinomial et multinomial multiple. Test d’indépendance et test d’homogénéité (khi-deux et rapport de vraisemblance). Test exact de Fisher. Test de symétrie. Test de McNemar (données pairées). Mesure d’association : risque relatif, rapport de cotes, statistique de Cramer, rho de Pearson et de Spearman. Mesure de concordance : coefficient Kappa, pourcentage d'accord. Sensibilité et spécificité. 3. Tableaux de fréquences à trois variables Association marginale et conditionnelle, paradoxe de Simpson. Rapports de cotes marginaux et conditionnels. Test de Cochran-Mantel-Haenszel. 4. Modèles linéaires généralisés (GLM) : la théorie Comparaison avec les modèles linéaires standards et les transformations de variable. Composantes d'un GLM : composante aléatoire, composante systématique et fonction de lien. Ajustement du modèle : estimation des paramètres du modèle et de leurs erreurs type, déviance. Inférence sur les paramètres du modèle : tests de © Université Laval Mis à jour le 13 mai 2013 15:12 Page 3 de 8 Wald et de rapport de vraisemblance, intervalles de confiance de Wald. Validation du modèle : étude de l'ajustement du modèle à l'aide de statistiques, d'indices et de résidus. 5. Régression de Poisson Le modèle de régression de Poisson. Terme d’offset. Variabilité extra-poissonnienne. 6. Régression logistique Les modèles de régression logistique binaire, conditionnelle, ordinale et multinomiale. Les interprétations en terme de rapport de cotes. 7. Modèles linéaires généralisés : la pratique Les étapes d'une analyse de données avec un GLM. Procédure de sélection de variables. Contenu et activités Le tableau ci-dessous présente les semaines d'activités prévues dans le cadre du cours. Titre Date Notes de cours 21 janv. 2013 Exemples SAS vus en classe 21 janv. 2013 Exercices 21 janv. 2013 Correction travaux pratiques Note : Veuillez vous référer à la section Contenu et activités de votre site de cours pour de plus amples détails. Évaluations et résultats Modalités d'évaluation Sommatives Titre Date Mode de travail Pondération Examen 1 Le 8 mars 2013 de 10h30 à 13h20 Individuel 40 % Examen 2 Le 3 mai 2013 de 10h30 à 13h20 Individuel 40 % Travail pratique 1 Dû le 5 mars 2013 à 10h30 En équipe 10 % Travail pratique 2 Dû le 30 avr. 2013 à 10h30 En équipe 10 % Informations détaillées sur les évaluations sommatives Examen 1 Date et lieu : Mode de travail : Pondération : Le 8 mars 2013 de 10h30 à 13h20, VCH-3840 Individuel 40 % Fichiers à consulter : formules_examen1.pdf 574 Ko, déposé le 5 mars 2013 Examen 2 © Université Laval Mis à jour le 13 mai 2013 15:12 Page 4 de 8 Examen 2 Date et lieu : Mode de travail : Pondération : Le 3 mai 2013 de 10h30 à 13h20, VCH-2820 Individuel 40 % Fichiers à consulter : formules_examen2.pdf 240,84 Ko, déposé le 1 mai 2013 Travail pratique 1 Date de remise : Mode de travail : Pondération : Remise de l'évaluation : 5 mars 2013 à 10h30 En équipe 10 % VCH-2820 [email protected] Fichiers à consulter : TP1.pdf 169,82 Ko, déposé le 15 févr. 2013 LectureDonnees.sas 1 011 octets, déposé le 12 févr. 2013 Sondage.csv 2,59 Ko, déposé le 12 févr. 2013 later.sas7bdat 29 Ko, déposé le 12 févr. 2013 latersousech.sas7bdat 5 Ko, déposé le 12 févr. 2013 Travail pratique 2 Date de remise : Mode de travail : Pondération : Remise de l'évaluation : 30 avr. 2013 à 10h30 En équipe 10 % VCH-2820 [email protected] Fichiers à consulter : TP2.pdf 147,08 Ko, déposé le 16 avr. 2013 Sondage.csv 2,59 Ko, déposé le 16 avr. 2013 Détails sur les modalités d'évaluation L'évaluation tiendra compte des objectifs du cours énoncés dans le présent document. Deux examens obligatoires de 120 minutes chacun et des travaux pratiques serviront à évaluer les étudiants. Chacun des examens comptera pour 40% de la note finale. Les travaux pratiques compteront, au total, pour 20% de la note finale. Une partie des travaux pratiques nécessitera l'usage de la calculatrice et de l'ordinateur. © Université Laval Mis à jour le 13 mai 2013 15:12 Page 5 de 8 Lors des examens, les seules aides permises seront une calculatrice non programmable conforme aux règlements de la Faculté de sciences et de génie (voir ci-dessous) ainsi que les formules et tables de loi que je vous fournirez. Une copie des formules sera rendue disponible sur le site web du cours bien avant l'examen afin que vous l'ayez en main pendant votre préparation à l'examen. La politique de reprise d’une évaluation ainsi que le formulaire de demande de reprise sont disponibles sur le site wed du Dépatement de mathématiques et de statistique sous l’onglet « Cours ». Politique sur les examens Les étudiants qui ont une lettre d'Attestation d'accommodations scolaires obtenue auprès d'un conseiller du secteur Accueil et soutien aux étudiants en situation de handicap (ACSESH) doivent rencontrer leur professeur au début de la session afin que des mesures d'accommodation en classe ou lors des évaluations puissent être prévues et planifiées suffisamment à l'avance puis mises en place. Échelle des cotes Cote % minimum % maximum Cote % minimum % maximum A+ 90 100 C+ 66 69,99 A 85 89,99 C 63 65,99 A- 80 84,99 C- 60 62,99 B+ 76 79,99 D+ 55 59,99 B 73 75,99 D 50 54,99 B- 70 72,99 E 0 49,99 Politique sur l'utilisation d'appareils électroniques L'utilisation d'appareils électroniques (cellulaire ou autre appareil téléphonique sans fil, pagette, baladeur, agenda électronique, etc.) est interdite au cours d'une séance d'évaluation et de toute autre activité durant laquelle l'enseignant l'interdit. De plus, lorsque l'usage de la calculatrice est permis, alors seuls certains modèles de calculatrices sont autorisés durant les séances d'évaluation. Les modèles suivants sont autorisés : Hewlett Packard HP 20S, HP 30S, HP 32S2, HP 33S, HP 35S Texas Instrument TI-30Xa, TI-30XIIB, TI-30XIIS, TI-36X, BA35 Sharp EL-531*, EL-546*, EL-520* Casio FX-260, FX-300 MS, FX-300W Plus, FX-991MS, FX-991ES * Calculatrices Sharp: sans considération pour les lettres qui suivent le numéro Dans tous ces cas, la calculatrice doit être validée par une vignette autocollante émise par la COOP étudiante ZONE. Politique sur le plagiat et la fraude académique Règles disciplinaires Tout étudiant qui commet une infraction au Règlement disciplinaire à l'intention des étudiants de l'Université Laval dans le cadre du présent cours, notamment en matière de plagiat, est passible des sanctions qui sont prévues dans ce règlement. Il est très important pour tout étudiant de prendre connaissance des articles 28 à 32 du Règlement disciplinaire. Celui-ci peut être consulté à l'adresse suivante: © Université Laval Mis à jour le 13 mai 2013 15:12 Page 6 de 8 http://www.ulaval.ca/sg/reg/Reglements/Reglement_disciplinaire.pdf Plagiat Tout étudiant est tenu de respecter les règles relatives au plagiat. Constitue notamment du plagiat le fait de: i. copier textuellement un ou plusieurs passages provenant d'un ouvrage sous format papier ou électronique sans mettre ces passages entre guillemets et sans en mentionner la source; ii. résumer l'idée originale d'un auteur en l'exprimant dans ses propres mots (paraphraser) sans en mentionner la source; iii. traduire partiellement ou totalement un texte sans en mentionner la provenance; iv. remettre un travail copié d'un autre étudiant (avec ou sans l'accord de cet autre étudiant); v. remettre un travail téléchargé d'un site d'achat ou d'échange de travaux scolaires. Matériel didactique Matériel pédagogique Le matériel pédagogique utilisé dans ce cours sera entièrement disponible sur le site web du cours. La veille de chaque cours, de nouveaux éléments pourraient être rendus disponibles en ligne. Il sera de la responsabilité de l'étudiant d'imprimer ces documents, s'il désire en avoir une version papier pour assister au cours. Les documents mis sur internet seront les suivants : notes de cours; exemples pratiques comprenant des sorties SAS; exercices et leurs solutionnaires; travaux pratiques; fichier de données; fichiers pour se préparer aux examens. Les notes se basent sur d'anciennes notes de cours : celles de Louis-Paul Rivest, réalisées dans les années 90 à l'aide de Marc Simard à l'époque étudiant en statistique et révisées par Nadia Ghazzali et Chantal Mérette; celles de Claude Bélisle, réalisées en 2004; et celles d'Aurélie Labbe, réalisée en 2007 et révisées par Lajmi Lakhal Chaieb en 2008. Plusieurs exercices ont été écrits par Thierry Duchesne lorsqu'il a enseigné le cours en 2005 et 2006. Les premières notes se basaient sur la première édition du livre: Agresti, A. (2007). An Introduction to Categorical Data Analysis, Second edition. Wiley. Ce livre est encore la référence principale des notes de cours. Si vous souhaitez vous procurez une copie de l'édition la plus récente (deuxième) de ce livre, sachez qu'il peut être téléchargé sur le site web de Wiley par l'intermédiaire de la bibliothèque de l'Université Laval. Si vous êtes connecté au réseau de l'Université Laval (RESUL), vous pouvez télécharger en format PDF les chapitres de ce livre à l'adresse suivante : http://onlinelibrary.wiley.com/book/10.1002/0470114754 Logiciels Dans ce cours, nous utiliserons principalement le logiciel SAS. L'utilisation des procédures FREQ, GENMOD et LOGISTIC sera évaluée. Le logiciel R pourrait aussi être utilisé pour effectuer certains calculs, mais son utilisation ne sera pas évaluée. Bibliographie 1. Agresti, A. (2007). An Introduction to Categorical Data Analysis, Second edition. Wiley. 2. Stokes, M.E., Davis, C.S. et Koch, G.G. (2000). Categorical Data Analysis Using SAS, Second edition. The SAS Institute. © Université Laval Mis à jour le 13 mai 2013 15:12 Page 7 de 8 3. Agresti, A. (2002). Categorical Data Analysis, Second edition. Wiley. 4. Fleiss, J. L., Levin, B. et Paik, M. C. (2003). Statistical Methods for Rates and Proportions. Third edition. John Wiley and Sons. 5. McCullagh, P. et Nelder, J.A. (1989). Generalized Linear Models, Second Edition. Chapman & Hall. 6. Cameron A. C. et Trivedi, P. K. (1998) Regression Analysis of Count Data. Cambridge University Press. 7. Hosmer, D.W et Lemeshow, S. (2000). Applied Logistic Regression, Second Edition. John Wiley and Sons. Médiagraphie et annexes Cette section ne contient aucune information. © Université Laval Mis à jour le 13 mai 2013 15:12 Page 8 de 8