Analyse statistique II UE n° 4665.257 Bachelor Module : Outils d
Transcription
Analyse statistique II UE n° 4665.257 Bachelor Module : Outils d
Analyse statistique II Bachelor Module : Outils d’approfondissement Enseignant Semestre de printemps 2009 Salle UE n° 4665.257 3009.087 Jean-François Bickel Lundi 10h15 – 12h00 MIS 2120 Présentation Ce cours porte sur l’analyse statistique multivariée. De manière générale, l’analyse statistique a pour objectif de décrire les informations contenues dans des ensembles de données numériques (ou rendues numériques) et, selon les cas, à inférer les grandeurs et relations établies sur la base des données en main à la population dont ces données sont issues. L’analyse est dite multivariée lorsque ces opérations impliquent plus de 2 variables, parfois beaucoup plus que 2; Après une première séance introductive, le cours est divisé en deux parties. La première est consacrée à l’analyse dimensionnelle. Celle-ci consiste en l’élucidation des interrelations existant entre un ensemble de variables ayant le même statut au moyen de procédures permettant de résumer l’information contenue dans les données originales et à mettre en évidence ses traits saillants; ce résumé et ces traits saillants prenant la forme d’un nombre (très) réduit de dimensions – appelés, selon la procédure utilisée, "clusters", "composantes", "facteurs", etc. – par rapport au nombre de variables originelles. Ces procédures sont diverses : nous n’en traiterons que quelquesunes, en privilégiant une approche exploratoire et non inférentielle. La seconde partie est dédiée à l’analyse de régression. Celle-ci consiste à traiter une variable souvent qualifiée de dépendante et sa distribution comme étant fonction d’une ou (généralement) plusieurs autres variables dites "indépendantes". Nous nous limiterons à la situation dans laquelle la forme de la relation est linéaire; dans ce cadre, la démarche sera progressive en partant du cas le plus simple : celui de la régression bivariée dans laquelle sont associées une variable dépendante quantitative et une variable indépendante également quantitative; puis nous passerons à la régression multiple, au cas de variables indépendantes qualitatives, à celui d’interactions entre variables indépendante,s pour terminer par celui de la régression logistique, dans lequel la variable dépendante n’est plus quantitative, mais binaire. Nous examinerons également les assomptions sur lesquelles repose la régression linéaire et qui constituent les conditions de sa validité comme outil de description et d’inférence. Le cours est conçu dans une perspective appliquée. Nous ne nous intéresserons donc pas aux démonstrations ou procédures mathématiques qui sous-tendent les techniques abordées, et le recours au langage formel sera minimal. Ce sur quoi nous insisterons par contre, c’est sur l’examen de l’adéquation des techniques aux questions de recherche et aux types de Analyse statistique II / SP 09 1 données à disposition, la mise en pratique de ces techniques au moyen de logiciels statistiques (voir ci-dessous) et l’interprétation (statistique et sociologique) des résultats des analyses ainsi mises en pratique. Pour cela, les étudiants seront amenés à construire, réaliser et interpréter des analyses signifiantes sur la base de données réelles, dans le cadre d’une part d’exercices à effectuer entre les séances, d’autre part d’un dossier à réaliser en vue de la validation (voir plus bas).. Par la force des choses, le cours est de nature introductif. Il doit néanmoins permettre aux étudiants (a) d’acquérir un certain nombre d’outils statistiques susceptibles d’être utilisés durant leurs études ou dans leur vie professionnelle; (b) d’être capables, même en n’étant pas soi-même un utilisateur de ces techniques, de saisir leurs apports (et leurs limites;) à l’intelligibilité sociologique lorsque ils ou elles s’y trouvent confrontés, au travers de leurs lectures notamment; (c) de disposer de bases suffisantes pour envisager, selon les envies, circonstances et opportunités, d’étendre et d’approfondir les connaissances en matière d’analyse statistique en sciences sociales. Crédits attribués 3 ECTS. Inscription L’inscription aux cours, exercices et examens (par le portail internet de la Faculté des lettres) doit se faire avant le 15 octobre de chaque année pour les cours du semestre d’automne (SA) et les cours annuels (AA), avant le 15 mars de chaque année pour les cours du semestre de printemps (SP). En s’inscrivant à un cours, l’étudiant-e s’inscrit automatiquement aux diverses procédures de validation du cours. Pour les étudiant-e-s relevant d’un programme, il est nécessaire de s’inscrire à toutes les composantes du module en question. Une fois cette inscription faite, il n’est plus possible de retarder une procédure de validation. Par le biais du programme internet de la Faculté, l’étudiant-e peut, au plus tard 14 jours avant la première session de validation d’une unité d’enseignement, annuler son inscription (cliquer sur "annuler"). Pour les étudiant-e-s relevant d’un programme, il est nécessaire d’annuler toutes les inscriptions du module en question. Il convient ensuite de se réinscrire à l’unité d’enseignement / module l'année suivante. Il n’est pas possible d’annuler une inscription à un cours / module après un premier échec. Chaque étudiant-e a droit à trois tentatives pour chaque unité d’enseignement (deux répétitions). Les sessions sont liées entre elles, aucun report n’est possible (sauf raisons majeures mentionnées par le règlement de la Faculté des lettres et le règlement de Département). Acquis pédagogiques Assimiler de manière critique la matière du cours. Modalités de validation Les exigences pour valider le cours sont une participation active et la réalisation d’un dossier réalisé à domicile. Analyse statistique II / SP 09 2 Par participation active, on entend la réalisation des exercices demandés et la participation en classe. Le dossier consiste dans l’analyse statistique d’une problématique laissée au libre des étudiant-e-s, en s’appuyant sur les données d’enquête mises à leur disposition. La réalisation du dossier comprend deux phases : dans la première, chaque étudiant-e rédige un document d’intention d’une page maximum qui contiendra le thème et les questions qui seront abordés dans le dossier et la manière dont il ou elle prévoit de les opérationnaliser : quel ensemble de données ? quelles variables ? quelles techniques statistiques (dont au moins une technique multivariée vue durant le cours) ? Ces document d’intention sont à remettre au plus tard jusqu’au 6 avril, dernier délai. Ces documents d’intention recevront un feed back de ma part, au plus tard au moment de la rentrée suivant les vacances de Pâques. Sur la base de ce feed back, les étudiant-e-s mèneront leurs analyses et rédigeront leur dossier. Le dossier est à déposer au secrétariat (jusqu’à 11h30) ou à envoyer par poste (le cachet faisant foi). Les documents envoyés par mail ne sont pas acceptés (voir dates ci-dessous). Ce dossier comptera pour 80% de la note finale, la participation active sera évaluée globalement à la fin du cours et comptera pour 20% de la note finale. Présentation des documents Cf. directives pour travaux écrits ("Conventions académiques", "Le travail d’écriture", "Les notes en bas de page ") sur le site Web de la Chaire. http://www.unifr.ch/travsoc/Franco/index.htm. Dates des sessions d'examen • 1ère session : du 25 au 29 mai 2009; date butoir pour le dépôt du travail écrit : jeudi 28 mai 09. • 2ème session : du 31 août au 04 septembre 2009; dépôt butoir pour le dépôt du travail écrit : jeudi 3 septembre 09. • 3ème session : du 14 au 18 décembre 2009; dépôt butoir pour le dépôt du travail écrit : jeudi 17 décembre 09. Planification des séances 16 février 2009 Séance 1 : Introduction 23 février 2009 Séance 2 : L’analyse par clusters 2 mars 2009 Séance 3 : L’analyse en composantes principales et l’analyse factorielle 9 mars 2009 Séance 4 : L’analyse de validité 16 mars 2009 Séance 5 : Bilan et perspectives de la première partie 23 mars 2009 Séance 6 : La régression bivariée 30 mars 2009 Séance 7 : La régression multiple 20 avril 2009 Séance 8 : Les variables indépendantes qualitatives Analyse statistique II / SP 09 3 27 avril 2009 Séance 9 : Interactions entre variables indépendantes 4 mai 2009 Séance 10 : Les assomptions de la régression 11 mai 2009 Séance 11 : La régression logistique 18 mai 2009 Séance 12 : Bilan et perspectives de la seconde partie Du 25 au 29 mai 2009 : semaine d'examen Sous réserve de changements de dates indiqués sur GESTENS Références bibliographiques Réflexions sur les méthodes possibilités, limites : statistiques en sociologie : apports, BERK R.A., Regression analysis. A constructive critique, Thousand Oaks, Sage, 2004. BOUDON R., & FILLIEULE R., Les Méthodes en sociologie (12ème éd.), Paris, Presses universitaires de France, 2002. BRADY H.E. & COLLIER D. (eds.), Rethinking social inquiry. Diverse tools, shared standards, Lanham, Rowman & Littlefield, 2004. GOLDTHORPE J.H., "Causation, statistics, and sociology" in European Sociological Review, vol.17, n°1, 2001. GOLDTHORPE J.H., "Sociology as social science and cameral sociology: Some further thoughts" in European Sociological Review, vol.20, n°2, 2004. LIEBERSON S., Making it count. The improvement of social research and theory, Berkeley, University of California Press, 1985. RESKIN B.F., "Including mechanisms in our models of ascriptive inequality" in American Sociological Review, vol.68, n°1, 2003. WHEATON B., "Quand les méthodes font toutes la différence" in Sociologie et Sociétés, vol.35, n°1, 2003. Collecter et utiliser des données d’enquête : KISH L., Statistical design for research, New York, Wiley, 1987. Ouvrages généraux sur l’analyse statistique : AGRESTI A. & FINLAY B., Statistical methods for the social sciences (3rd edition), Upper Saddle River, Prentice-Hall, 1997. AGRESTI A., An introduction to categorical data analysis (2nd edition), Hoboken, Wiley, 2007. Freedman D., Pisani R. & Purves R., Statistics (4th edition), New York, Norton, 2007. MARTIN O., L'Analyse de données quantitatives, Paris, Éditions Armand Colin, 2005. PAGÈS J., Statistiques générales pour utilisateurs. 1 - Méthodologie, Rennes, Presses universitaires de Rennes, 2005; complété par HUSSON F. & PAGÈS J., Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, Rennes, Presses universitaires de Rennes, 2005. Analyse statistique II / SP 09 4 L’analyse dimensionnelle : ALDENDERFER M.S. & BLASHFIELD R.K., Cluster analysis, Newbury Park, Sage, 1984. BARTHOLOMEW D.J., STEELE F., MOUSTAKI I. & GALBRAITH J. L., The analysis and interpretation of multivariate data for social scientists, Boca Raton, Chapman & Hall/CRC, 2002. CARMINES E.G. & ZELLER R.A., Reliability and validity assessment, Beverly Hills, Sage, 1979. KIM J.-O. & MUELLER C.W., Introduction to factor analysis. What it is and how to do it, Newbury Park, Sage, 1978. KIM J.-O. & MUELLER C.W., Factor analysis: Statistical methods and practical issues, Newbury Park, Sage, 1978. LEBART L., PIRON M. & MORINEAU A., Statistique exploratoire multidimentionnelle. Visualisation et inférence en fouilles de données (4ème édition), Paris, Éditions Dunod, 2006. TABACHNICK B.G. & FIDELL L.S., Using multivariate statistics (4th edition), Boston, Allyn and Bacon, 2001. La régression : ACHEN C.H., Interpreting and using regression, Newburry Park, Sage, 1982. ALLISON P.D., Multiple regression. A primer, Thousand Oaks, Pine Forge, 1999. BRESSOUX P., Modélisation statistique appliquée aux sciences sociales, Bruxelles, Éditions de Boeck Université, 2008. FOX J., Applied regression analysis, linear models, and related methods, Thousand Oaks, Sage, 1997. JACCARD J., Interaction effects in logistic regression, Thousands Oaks, Sage, 2001. JACCARD J. & TURRISI R., Interaction effects in multiple regression (2nd edition), Thousand Oaks, Sage, 2003. LEWIS-BECK M.S., Applied regression: An introduction, Newbury Park, Sage, 1980. LIAO T.F., Interpreting probability models. Logit, probit, and other generalized linear models, Thousand Oaks, Sage, 1994. LONG J.S., Regression models for categorical and limited dependant variables, Thousand Oaks, Sage, 1997. PAMPEL F.C., Logistic regression. A primer, Thousands Oaks, Sage, 2000. Ouvrages centrés sur l’utilisation de logiciels statistiques (limités ici à SPSS et R) : CORNILLON P.-A., GUYADER A., HUSSON F., JEGOU N., JOSSE J., KLOAREG M., MATZNERLOEBER E. & ROUVIÈRE L., Statistiques avec R, Rennes, Presses universitaires de Rennes, 2008. EVERITT B.S., An R and S-Plus companion to multivariate analysis, London, Springer, 2005. HO D., Handbook of univariate and multivariate data analysis and interpretation with SPSS, Boca Raton, Chapman & Hall / CRC, 2006. FOX J., An R and S-Plus companion to applied regression, Thousand Oaks, Sage, 2002. Analyse statistique II / SP 09 5 LANDAU S. & EVERITT B.S., A handbook of statistical analysis using SPSS, Boca Raton, Chapman & Hall/CRC, 2004. Analyse statistique II / SP 09 6