CNAM examen RSX112 Sécurité et Réseaux, septembre 2012
Transcription
CNAM examen RSX112 Sécurité et Réseaux, septembre 2012
Année universitaire 2014/2015 Ecole SITI Dpt. Imath case 2D5000 UE STA 108 :Enquêtes et sondages - Travail pratique obligatoire responsables : Philippe Périé - Sylvie Rousseau Les données : résultats des élections présidentielles 2007 et 2012 La population étudiée est celle des bureaux de votes des élections présidentielles de 2007 et 2012. Les données sont les résultats au premier et au deuxième tour sur 59242 bureaux de France métropolitaine en 2007 (60863 en 2012). Les individus sont donc les bureaux de vote. Ces données longtemps conservées au ministère de l’intérieur sont maintenant téléchargeables à cette adresse (il y a 28 jeux de données sur les élections) : http://www.nosdonnees.fr/dataset?groups=elections&page=1 La présidentielle est l’élection la plus simple à modéliser, les candidats sont identiques sur tout le territoire, il n’y a pas d’équivalences à recoder selon les partis et les étiquettes. De plus le scrutin est au suffrage universel direct, avec un seul élu à la fin (pas de proportionnelle ou de triangulaire complexe). Les fichiers électoraux ont été fusionnés avec des données INSEE qui donnent la région, la tranche d’unité urbaine et l’heure de fermeture des bureaux. Les fichiers sont en format csv (texte avec séparateur point-virgule). Nous vous les avons préparés pour être lus dans les logiciels SAS et R (programmes de création des données). Les fichiers sont éditables avec Excel si vous le souhaitez. Le contenu de deux fichiers est pratiquement identique : pour chacun des bureaux, il y a des informations auxiliaires et les résultats au premier et au deuxième tour. On s’intéresse à l’estimation des totaux (nombre de voix) pour chaque candidat du deuxième tour. Les variables auxiliaires sont les données géographiques INSEE, les horaires de fermeture des bureaux, et les données des premiers tours (qui sont assimilables à un recensement puisque l’élection du premier été validée par le conseil constitutionnel au moment ou à lieu le deuxième tour) On connait les résultats, on pourra donc étudier la qualité des estimations selon la méthode d’échantillonnage. Attention, les valeurs exactes dans les fichiers proposés diffèrent légèrement des résultats publiés par le ministère de l’intérieur, car ils sont limités à la France métropolitaine et ne comprennent pas les votes des français à l’étranger. L’exercice consiste à se mettre en condition de soirée électorale pour laquelle les données des DOM/TOM et des votes à l’étranger ne sont pas disponibles lors de l’estimation Voici les résultats officiels et les données dans les fichiers : http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__presidentielle_2007/(path)/presidentielle_2007/FE.html 2007 Fichier Ministère Ségolène Royal 46.94% 15181348 46.94% 16790440 Nicolas Sarkozy 53.06% 17160460 53.06% 18983138 32341808 35773578 http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__PR2012/(path)/PR2012/FE.html 2012 Fichier Ministère François Hollande 51.58% 16206514 51.64% 18000668 Nicolas Sarkozy 48.41% 15208598 48.36% 16860685 31415112 34861353 1 La liste des variables dans les fichiers 2007 et 2012 2007 Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Variable D C CODGEO LIBGEO REG DEP TUU2010 LIBREGION LIBTUU2010 POP_MUN_2008 HORAIRE NumBVot LIBUDA9 CODEUDA Ins.T107 Vot.T107 Exp.T107 NbVoix.BESA_T107 NbVoix.BUFF_T107 NbVoix.SCHI_T107 NbVoix.BAYR_T107 NbVoix.BOVE_T107 NbVoix.VOYN_T107 NbVoix.VILL_T107 NbVoix.ROYA_T107 NbVoix.NIHO_T107 NbVoix.LEPE_T107 NbVoix.LAGU_T107 NbVoix.SARK_T107 Ins.T207 Vot.T207 Exp.T207 NbVoix.SARK_T207 NbVoix.ROYA_T207 PctVoix.BESA_T107 PctVoix.BUFF_T107 PctVoix.SCHI_T107 PctVoix.BAYR_T107 PctVoix.BOVE_T107 PctVoix.VOYN_T107 PctVoix.VILL_T107 PctVoix.ROYA_T107 PctVoix.NIHO_T107 PctVoix.LEPE_T107 PctVoix.LAGU_T107 PctVoix.SARK_T107 PctVoix.SARK_T207 PctVoix.ROYA_T207 ident 2012 Contenu code département code commune D+C libellé commune région INSEE code département tranche d'unité urbaine libellé de région INSEE libellé de TUU2010 population municipale 2008 horaire de fermeture du bureau numéro de bureau de vote dans la commune libellé de région UDA9 code région UDA9 Inscrits 1er tour 2007 Votants 1er tour 2007 exprimés 1er tour 2007 Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Inscrits 2eme tour 2007 Votants 2eme tour 2007 exprimés 2eme tour 2007 pourcentage sur les exprimés 2 Variable D C CODGEO LIBGEO REG DEP TUU2010 LIBREGION LIBTUU2010 POP_MUN_2008 HORAIRE NumBVot LIBUDA9 CODEUDA Ins.T112 Vot.T112 Exp.T112 NbVoix.JOLY_T112 NbVoix.LEPE_T112 NbVoix.SARK_T112 NbVoix.MELE_T112 NbVoix.POUT_T112 NbVoix.ARTH_T112 NbVoix.CHEM_T112 NbVoix.BAYR_T112 NbVoix.DUPO_T112 NbVoix.HOLL_T112 Ins.T212 Vot.T212 Exp.T212 NbVoix.SARK_T212 NbVoix.HOLL_T212 PctVoix.JOLY_T112 PctVoix.LEPE_T112 PctVoix.SARK_T112 PctVoix.MELE_T112 PctVoix.POUT_T112 PctVoix.ARTH_T112 PctVoix.CHEM_T112 PctVoix.BAYR_T112 PctVoix.DUPO_T112 PctVoix.HOLL_T112 PctVoix.SARK_T212 PctVoix.HOLL_T212 ident Contenu code département code commune D+C libellé commune région INSEE code département tranche d'unité urbaine libellé de région INSEE libellé de TUU2010 population municipale 2008 horaire de fermeture du bureau numéro de bureau de vote dans la commune libellé de région UDA9 code région UDA9 Inscrits 1er tour 2012 Votants 1er tour 2012 exprimés 1er tour 2012 Inscrits 2eme tour 2012 Votants 2eme tour 2012 exprimés 2eme tour 2012 pourcentage sur les exprimés Programme de lecture dans R Le programme suivant permet de lire les données dans R après avoir chargé les librairies utiles pour l’analyse: le code ci-dessous les charge à la première exécution du programme # ----------------------------------------------------------------------------setwd("C:/Users/philippe.perie/Documents/Datasets/Elections/") # libraries pour les sondages // installees à la première exécution du programme if(!require(sampling)){ install.packages("sampling") library(sampling) } if(!require(survey)){ install.packages("survey") library(survey) } if(!require(simFrame)){ install.packages("simFrame") library(simFrame) } library(sampling) # Tirage d echantillons // Yves Tille - Sampling Algorithms Springer. library(survey) # Estimation // Th Lumley - Complex Surveys: a guide to analysis Wiley library(simFrame) # Simulations # ----------------------------------------------------------------------------# --- donnees 2007 P07 <- read.csv("pres07.txt", header = TRUE, sep = "\t", quote="\"", colClasses = c(rep("character", 14),rep("numeric",34)), dec = ".", fill = TRUE, comment.char = "") P07[is.na(P07)] <- 0 P07 <- P07[which(P07$Exp.T107 > 0),] P07$ident <- paste0(P07$D,P07$C,P07$NumBVot) # ----------------------------------------------------------------------------# --- donnees 2012 P12 <- read.csv("pres12.txt", header = TRUE, sep = "\t", quote="\"", colClasses = c(rep("character", 14),rep("numeric",30)), dec = ".", fill = TRUE, comment.char = "") P12[is.na(P12)] <- 0 P12 <- P12[which(P12$Exp.T112 > 0),] P12$ident <- paste0(P12$D,P12$C,P12$NumBVot) 3 Programme de lecture dans SAS Le programme suivant permet de lire les données dans SAS. Les librairies et programmes utiles à l’analyse sont les procédures SURVEYSELECT, SURVEYMEANS et SURVEYREG ainsi que la macro %Calmar de l’INSEE * -------------------------------------------------------------* Accès à %Calmar (lien vers le répertoire où se trouve la macro (fichier sas7bcat); libname calmar "C:\Wpgm64\SASHome\SASFoundation\9.4\macros\bin"; options mstored nomprint sasmstore=calmar; * Reference au repertoire des données; %let PATH = C:\Users\philippe.perie\Documents\Datasets\Elections\; libname lib "&PATH"; * les données 2007 et 2012; %let pres07 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres07.txt"; %let pres12 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres12.txt"; proc import datafile = &pres07 dbms = dlm out = P07 replace; delimiter = '09'x; getnames = yes; guessingrows = 70000; run; proc sql; delete from P07 where Ins_T107 <= 0; data P07; set P07; ident = compress(D||C||put(NumBVot,4.)); run; proc import datafile = &pres12 dbms = dlm out = P12 replace; delimiter = '09'x; getnames = yes; guessingrows = 70000; run; proc sql; delete from P12 where Ins_T112 <= 0; data P12; set P12; ident = compress(D||C||put(NumBVot,4.)); run; Projet : simuler les soirées électorales Lors des soirées électorales, les instituts (TNS, IPSOS,..) constituent un échantillon de bureaux fermant avant 20 heures, puis annoncent une estimation des résultats nationaux sur la base de cet échantillon. Pour la présidentielle 2007, l’échantillon de TNS contenait 220 bureaux de vote. L’estimation se faisait avec un estimateur par la régression (sur les résultats du premier tour) Voici les estimations de 20h pour le deuxième tour 2007 de TNS Sofres, et les coefficients de corrélation entre variables à ème er estimer (2 tour) et information auxiliaire (1 tour). L’estimation retenue en soirée électorale pour être annoncée à la TV est celle qui a la plus grande corrélation. L’annonce faite en 2007 a été donc de 46.9 pour Ségolène Royal et 53.1 pour Nicolas Sarkozy (vs 46.94 et 53.06) sur 160 bureaux (les bureaux des grandes villes n’étant pas rentrés à 20h). 4 On travaillera sur les données 2007 ou 2012 au choix 1/ Etude de distributions d’échantillonnage selon la méthode : Etude de l’efficacité de la stratification Région x Heure de fermeture. On effectuera des simulations de tirages d’échantillons (100 tirages) de n= 200 et 500 unités selon deux plans probabilités inégales selon la taille des bureaux (taille sur le nombre d’inscrits au premier tour) stratifiés a allocation proportionnelle et probabilités inégales selon la taille des bureaux (stratification selon le croisement région UDA9 x horaire de fermeture du bureau). les résultats du deuxième tour sur les 100 tirages seront présentés sous forme statistique (moyenne, écart-type, histogramme) et commentés, en précisant les programmes utilisés. 2/ Soirée électorale correction du biais des grandes villes : Lors des soirées électorales, il faut donner l’estimation à 20h, c’est-àdire à l’heure où certains bureaux ferment (Paris, Lyon, Marseille, Lille …). Il faut donc travailler sur un échantillon de bureaux fermant à 18h, ou à 18h et 19h. Pour information, les bureaux de 20h représentent environ 8% du total, ceux de 19h 20% Sélectionner 200 bureaux avec sondage stratifié à allocation proportionnelle sur les strates géographique x horaires de fermeture, avec probabilités proportionnelles aux inscrits du premier tour. Isoler les bureaux de 18h Isoler les bureaux de 18h+19h Donner les estimations brutes et redressées sur les résultats du premier tour pour les deux sous échantillons (pour simuler une estimation à annoncer avant 19h, puis une estimation à 20h). On utilisera un estimateur par la régression pour les deux candidats au deuxième tour sur les résultats du premier tour (les leurs et ceux des autres qui sont significatifs). Pour simplifier, on ne tiendra pas compte de la stratification et des probabilités inégales dans le modèle de régression et l’expression de l’estimateur : on supposera que les bureaux ont été choisis avec un plan simple. La date de remise du travail qui peut s’effectuer à deux, est fixée au 10 février 2015 pour la première session ou au 15 avril 2015 pour la deuxième session. Le travail sera remis par courrier électronique à [email protected] ou [email protected] Le rapport devra être rédigé et consister en un fichier unique au format .doc ou .pdf. La note finale de STA108 sera la moyenne ère ème arithmétique équipondérée de la note d’examen (1 ou 2 session) et de la note de projet. 5