Analyse statistique II UE n° 4665.257 Bachelor Module : Outils d

Transcription

Analyse statistique II UE n° 4665.257 Bachelor Module : Outils d
Analyse statistique II
Bachelor
Module : Outils d’approfondissement
Enseignant
Semestre de printemps 2009
Salle
UE n° 4665.257
3009.087
Jean-François Bickel
Lundi 10h15 – 12h00
MIS 2120
Présentation
Ce cours porte sur l’analyse statistique multivariée. De manière générale,
l’analyse statistique a pour objectif de décrire les informations contenues dans
des ensembles de données numériques (ou rendues numériques) et, selon les
cas, à inférer les grandeurs et relations établies sur la base des données en
main à la population dont ces données sont issues. L’analyse est dite
multivariée lorsque ces opérations impliquent plus de 2 variables, parfois
beaucoup plus que 2;
Après une première séance introductive, le cours est divisé en deux parties.
La première est consacrée à l’analyse dimensionnelle. Celle-ci consiste en
l’élucidation des interrelations existant entre un ensemble de variables ayant
le même statut au moyen de procédures permettant de résumer l’information
contenue dans les données originales et à mettre en évidence ses traits
saillants; ce résumé et ces traits saillants prenant la forme d’un nombre (très)
réduit de dimensions – appelés, selon la procédure utilisée, "clusters",
"composantes", "facteurs", etc. – par rapport au nombre de variables
originelles. Ces procédures sont diverses : nous n’en traiterons que quelquesunes, en privilégiant une approche exploratoire et non inférentielle.
La seconde partie est dédiée à l’analyse de régression. Celle-ci consiste à
traiter une variable souvent qualifiée de dépendante et sa distribution comme
étant fonction d’une ou (généralement) plusieurs autres variables dites
"indépendantes". Nous nous limiterons à la situation dans laquelle la forme de
la relation est linéaire; dans ce cadre, la démarche sera progressive en
partant du cas le plus simple : celui de la régression bivariée dans laquelle
sont associées une variable dépendante quantitative et une variable
indépendante également quantitative; puis nous passerons à la régression
multiple, au cas de variables indépendantes qualitatives, à celui d’interactions
entre variables indépendante,s pour terminer par celui de la régression
logistique, dans lequel la variable dépendante n’est plus quantitative, mais
binaire. Nous examinerons également les assomptions sur lesquelles repose la
régression linéaire et qui constituent les conditions de sa validité comme outil
de description et d’inférence.
Le cours est conçu dans une perspective appliquée. Nous ne nous
intéresserons donc pas aux démonstrations ou procédures mathématiques qui
sous-tendent les techniques abordées, et le recours au langage formel sera
minimal. Ce sur quoi nous insisterons par contre, c’est sur l’examen de
l’adéquation des techniques aux questions de recherche et aux types de
Analyse statistique II / SP 09
1
données à disposition, la mise en pratique de ces techniques au moyen de
logiciels statistiques (voir ci-dessous) et l’interprétation (statistique et
sociologique) des résultats des analyses ainsi mises en pratique. Pour cela,
les étudiants seront amenés à construire, réaliser et interpréter des analyses
signifiantes sur la base de données réelles, dans le cadre d’une part
d’exercices à effectuer entre les séances, d’autre part d’un dossier à réaliser
en vue de la validation (voir plus bas)..
Par la force des choses, le cours est de nature introductif. Il doit néanmoins
permettre aux étudiants (a) d’acquérir un certain nombre d’outils statistiques
susceptibles d’être utilisés durant leurs études ou dans leur vie
professionnelle; (b) d’être capables, même en n’étant pas soi-même un
utilisateur de ces techniques, de saisir leurs apports (et leurs limites;) à
l’intelligibilité sociologique lorsque ils ou elles s’y trouvent confrontés, au
travers de leurs lectures notamment; (c) de disposer de bases suffisantes
pour envisager, selon les envies, circonstances et opportunités, d’étendre et
d’approfondir les connaissances en matière d’analyse statistique en sciences
sociales.
Crédits attribués
3 ECTS.
Inscription
L’inscription aux cours, exercices et examens (par le portail internet de la
Faculté des lettres) doit se faire avant le 15 octobre de chaque année pour les
cours du semestre d’automne (SA) et les cours annuels (AA), avant le 15
mars de chaque année pour les cours du semestre de printemps (SP). En
s’inscrivant à un cours, l’étudiant-e s’inscrit automatiquement aux
diverses procédures de validation du cours. Pour les étudiant-e-s
relevant d’un programme, il est nécessaire de s’inscrire à toutes les
composantes du module en question. Une fois cette inscription faite, il
n’est plus possible de retarder une procédure de validation.
Par le biais du programme internet de la Faculté, l’étudiant-e peut, au plus
tard 14 jours avant la première session de validation d’une unité
d’enseignement, annuler son inscription (cliquer sur "annuler"). Pour les
étudiant-e-s relevant d’un programme, il est nécessaire d’annuler toutes les
inscriptions du module en question. Il convient ensuite de se réinscrire à
l’unité d’enseignement / module l'année suivante. Il n’est pas possible
d’annuler une inscription à un cours / module après un premier échec.
Chaque étudiant-e a droit à trois tentatives pour chaque unité
d’enseignement (deux répétitions). Les sessions sont liées entre elles, aucun
report n’est possible (sauf raisons majeures mentionnées par le règlement de
la Faculté des lettres et le règlement de Département).
Acquis pédagogiques
Assimiler de manière critique la matière du cours.
Modalités de validation
Les exigences pour valider le cours sont une participation active et la
réalisation d’un dossier réalisé à domicile.
Analyse statistique II / SP 09
2
Par participation active, on entend la réalisation des exercices demandés et la
participation en classe.
Le dossier consiste dans l’analyse statistique d’une problématique laissée au
libre des étudiant-e-s, en s’appuyant sur les données d’enquête mises à leur
disposition. La réalisation du dossier comprend deux phases : dans la
première, chaque étudiant-e rédige un document d’intention d’une page
maximum qui contiendra le thème et les questions qui seront abordés dans le
dossier et la manière dont il ou elle prévoit de les opérationnaliser : quel
ensemble de données ? quelles variables ? quelles techniques statistiques
(dont au moins une technique multivariée vue durant le cours) ? Ces
document d’intention sont à remettre au plus tard jusqu’au 6 avril, dernier
délai. Ces documents d’intention recevront un feed back de ma part, au plus
tard au moment de la rentrée suivant les vacances de Pâques. Sur la base de
ce feed back, les étudiant-e-s mèneront leurs analyses et rédigeront leur
dossier.
Le dossier est à déposer au secrétariat (jusqu’à 11h30) ou à envoyer par
poste (le cachet faisant foi). Les documents envoyés par mail ne sont pas
acceptés (voir dates ci-dessous).
Ce dossier comptera pour 80% de la note finale, la participation active sera
évaluée globalement à la fin du cours et comptera pour 20% de la note finale.
Présentation des documents
Cf. directives pour travaux écrits ("Conventions académiques", "Le travail
d’écriture", "Les notes en bas de page ") sur le site Web de la Chaire.
http://www.unifr.ch/travsoc/Franco/index.htm.
Dates des sessions d'examen
• 1ère session : du 25 au 29 mai 2009; date butoir pour le dépôt du travail
écrit : jeudi 28 mai 09.
• 2ème session : du 31 août au 04 septembre 2009; dépôt butoir pour le
dépôt du travail écrit : jeudi 3 septembre 09.
• 3ème session : du 14 au 18 décembre 2009; dépôt butoir pour le dépôt du
travail écrit : jeudi 17 décembre 09.
Planification des séances
16 février 2009
Séance 1 : Introduction
23 février 2009
Séance 2 : L’analyse par clusters
2 mars 2009
Séance 3 : L’analyse en composantes principales et
l’analyse factorielle
9 mars 2009
Séance 4 : L’analyse de validité
16 mars 2009
Séance 5 : Bilan et perspectives de la première partie
23 mars 2009
Séance 6 : La régression bivariée
30 mars 2009
Séance 7 : La régression multiple
20 avril 2009
Séance 8 : Les variables indépendantes qualitatives
Analyse statistique II / SP 09
3
27 avril 2009
Séance 9 : Interactions entre variables indépendantes
4 mai 2009
Séance 10 : Les assomptions de la régression
11 mai 2009
Séance 11 : La régression logistique
18 mai 2009
Séance 12 : Bilan et perspectives de la seconde partie
Du 25 au 29 mai 2009 : semaine d'examen
Sous réserve de changements de dates indiqués sur GESTENS
Références bibliographiques
Réflexions sur les méthodes
possibilités, limites :
statistiques
en
sociologie :
apports,
BERK R.A., Regression analysis. A constructive critique, Thousand Oaks, Sage,
2004.
BOUDON R., & FILLIEULE R., Les Méthodes en sociologie (12ème éd.), Paris, Presses
universitaires de France, 2002.
BRADY H.E. & COLLIER D. (eds.), Rethinking social inquiry. Diverse tools, shared
standards, Lanham, Rowman & Littlefield, 2004.
GOLDTHORPE J.H., "Causation, statistics, and sociology" in European Sociological
Review, vol.17, n°1, 2001.
GOLDTHORPE J.H., "Sociology as social science and cameral sociology: Some
further thoughts" in European Sociological Review, vol.20, n°2, 2004.
LIEBERSON S., Making it count. The improvement of social research and theory,
Berkeley, University of California Press, 1985.
RESKIN B.F., "Including mechanisms in our models of ascriptive inequality" in
American Sociological Review, vol.68, n°1, 2003.
WHEATON B., "Quand les méthodes font toutes la différence" in Sociologie et
Sociétés, vol.35, n°1, 2003.
Collecter et utiliser des données d’enquête :
KISH L., Statistical design for research, New York, Wiley, 1987.
Ouvrages généraux sur l’analyse statistique :
AGRESTI A. & FINLAY B., Statistical methods for the social sciences (3rd edition),
Upper Saddle River, Prentice-Hall, 1997.
AGRESTI A., An introduction to categorical data analysis (2nd edition), Hoboken,
Wiley, 2007.
Freedman D., Pisani R. & Purves R., Statistics (4th edition), New York, Norton,
2007.
MARTIN O., L'Analyse de données quantitatives, Paris, Éditions Armand Colin,
2005.
PAGÈS J., Statistiques générales pour utilisateurs. 1 - Méthodologie, Rennes,
Presses universitaires de Rennes, 2005; complété par HUSSON F. & PAGÈS J.,
Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, Rennes,
Presses universitaires de Rennes, 2005.
Analyse statistique II / SP 09
4
L’analyse dimensionnelle :
ALDENDERFER M.S. & BLASHFIELD R.K., Cluster analysis, Newbury Park, Sage, 1984.
BARTHOLOMEW D.J., STEELE F., MOUSTAKI I. & GALBRAITH J. L., The analysis and
interpretation of multivariate data for social scientists, Boca Raton, Chapman &
Hall/CRC, 2002.
CARMINES E.G. & ZELLER R.A., Reliability and validity assessment, Beverly Hills,
Sage, 1979.
KIM J.-O. & MUELLER C.W., Introduction to factor analysis. What it is and how to
do it, Newbury Park, Sage, 1978.
KIM J.-O. & MUELLER C.W., Factor analysis: Statistical methods and practical
issues, Newbury Park, Sage, 1978.
LEBART L., PIRON M. & MORINEAU A., Statistique exploratoire multidimentionnelle.
Visualisation et inférence en fouilles de données (4ème édition), Paris, Éditions
Dunod, 2006.
TABACHNICK B.G. & FIDELL L.S., Using multivariate statistics (4th edition), Boston,
Allyn and Bacon, 2001.
La régression :
ACHEN C.H., Interpreting and using regression, Newburry Park, Sage, 1982.
ALLISON P.D., Multiple regression. A primer, Thousand Oaks, Pine Forge, 1999.
BRESSOUX P., Modélisation statistique appliquée aux sciences sociales, Bruxelles,
Éditions de Boeck Université, 2008.
FOX J., Applied regression analysis, linear models, and related methods,
Thousand Oaks, Sage, 1997.
JACCARD J., Interaction effects in logistic regression, Thousands Oaks, Sage,
2001.
JACCARD J. & TURRISI R., Interaction effects in multiple regression (2nd edition),
Thousand Oaks, Sage, 2003.
LEWIS-BECK M.S., Applied regression: An introduction, Newbury Park, Sage, 1980.
LIAO T.F., Interpreting probability models. Logit, probit, and other generalized
linear models, Thousand Oaks, Sage, 1994.
LONG J.S., Regression models for categorical and limited dependant variables,
Thousand Oaks, Sage, 1997.
PAMPEL F.C., Logistic regression. A primer, Thousands Oaks, Sage, 2000.
Ouvrages centrés sur l’utilisation de logiciels statistiques (limités ici à
SPSS et R) :
CORNILLON P.-A., GUYADER A., HUSSON F., JEGOU N., JOSSE J., KLOAREG M., MATZNERLOEBER E. & ROUVIÈRE L., Statistiques avec R, Rennes, Presses universitaires de
Rennes, 2008.
EVERITT B.S., An R and S-Plus companion to multivariate analysis, London,
Springer, 2005.
HO D., Handbook of univariate and multivariate data analysis and interpretation
with SPSS, Boca Raton, Chapman & Hall / CRC, 2006.
FOX J., An R and S-Plus companion to applied regression, Thousand Oaks, Sage,
2002.
Analyse statistique II / SP 09
5
LANDAU S. & EVERITT B.S., A handbook of statistical analysis using SPSS, Boca
Raton, Chapman & Hall/CRC, 2004.
Analyse statistique II / SP 09
6