screen - Christophe Lalanne
Transcription
screen - Christophe Lalanne
Découverte du logiciel Stata Représentation et gestion des données Christophe Lalanne www.aliquote.org Synopsis Premiers pas avec Stata Les tableaux de données sous Stata Les variables sous Stata Le langage Stata Importation de sources de données Gestion d’une base de données d2e5ca9 2 / 55 Premiers pas avec Stata d2e5ca9 3 / 55 Prise en main du logiciel Stata www.stata.com d2e5ca9 4 / 55 Exploration des menus File • création et sauvegarde de fichier do • gestion de projet • chargement et sauvegarde de données Stata (dta) • gestion des fichiers d’historique (log) • importation et exportation de sources de données externes d2e5ca9 5 / 55 Exploration des menus File • description des données actives • éditeur de données (lecture/écriture) • gestionnaire de variables et de base de données • autres utilitaires (matrices, codes ICD, etc.) d2e5ca9 6 / 55 Exploration des menus File • graphiques de base (diagramme de dispersion, diagramme en barres ou points, histogramme, etc.) • graphiques spécifiques (distribution, séries chronologiques, survie, etc.) • gestionnaire de graphiques d2e5ca9 7 / 55 Exploration des menus File • statistiques descriptives et tableau de contingence • tests d’association pour deux variables • tests exacts et non paramétriques • modèle linéaire et modèle linéaire généralisé • modèles économétriques et survie • modèles pour données de sondage et données longitudinales • modèles par équations structurelles • techniques de rééchantillonnage • procédures de « post-estimation » d2e5ca9 8 / 55 Documentation Help . PDF Documentation d2e5ca9 9 / 55 Documentation supplémentaire • www.stata.com/support • « statalist », www.statalist.org • Stata Blog, http://blog.stata.com • Stack Overflow, http://stackoverflow.com [stata] • Stata Journal, http://stata-journal.com • Site pédagogique de l’UCLA, http://www.ats.ucla.edu/stat/stata d2e5ca9 10 / 55 Stata pour l’économétrie d2e5ca9 11 / 55 Stata pour les biostatistiques d2e5ca9 12 / 55 Menus versus do-file Traçabilité et reproductibilité (19) • approche interactive de l’analyse de données : tester, affiner, sauvegarder • 40-80 % du temps consacré à la gestion de données • reproduction des résultats à l’identique (« audit trail ») • travail collaboratif, publication d’articles (délai 6 mois à 2 ans) d2e5ca9 13 / 55 Éditeur de fichiers do File . New . Do-file Coloration syntaxique, exécution de code, commentaires. d2e5ca9 14 / 55 Fichiers log File . New . Log . Begin Deux types de sauvegarde d’historique : • globale : [cmd]log using history.log /// ... /// log close ; interruption temporaire (on/off) • locale : translate @Results history.txt /// type history.txt Format de fichier : scml (Stata Markup and Control Language) ou texte simple (pas de liens, ni formatage). d2e5ca9 15 / 55 Aide en ligne Help . Stata command... . help describe d2e5ca9 16 / 55 Recherche locale et en ligne Help . Search... La commande search (anciennement findit) permet de rechercher dans les pages de manuel et sur Internet. . search scalar . search stripplot d2e5ca9 17 / 55 Les tableaux de données sous Stata d2e5ca9 18 / 55 Importation de données Fichiers d’exemple installés avec Stata : help dta_examples. File . Example Datasets d2e5ca9 19 / 55 Importation de données Fichiers d’exemple disponibles localement : sysuse. . sysuse auto (1978 Automobile Data) . describe, short Contains data from /Applications/Stata/ado/base/a/auto.dta obs: 74 1978 Automobile Data vars: 12 13 Apr 2013 17:45 size: 3,182 Sorted by: foreign . list make-length in 1/2 +------------------------------------------------------------------------+ | make price mpg rep78 headroom trunk weight length | |------------------------------------------------------------------------| 1. | AMC Concord 4,099 22 3 2.5 11 2,930 186 | 2. | AMC Pacer 4,749 17 3 3.0 11 3,350 173 | +------------------------------------------------------------------------+ d2e5ca9 20 / 55 Importation de données Fichiers d’exemple disponibles sur le web : webuse (voir aussi net from, net describe et net get pour une installation locale). . webuse lbw (Hosmer & Lemeshow data) . describe, short Contains data from http://www.stata-press.com/data/r13/lbw.dta obs: 189 Hosmer & Lemeshow data vars: 11 15 Jan 2013 05:01 size: 2,646 Sorted by: . list in 1/2 +-----------------------------------------------------------------------+ | id low age lwt race smoke ptl ht ui ftv bwt | |-----------------------------------------------------------------------| 1. | 85 0 19 182 black nonsmoker 0 0 1 0 2523 | 2. | 86 0 33 155 other nonsmoker 0 0 0 3 2551 | +-----------------------------------------------------------------------+ d2e5ca9 21 / 55 Chargement de données dta File . Change Working Directory... À l’instar de webuse et sysuse, on peut utiliser use pour lire des données au format Stata (extension dta). La commande cd permet de modifier le répertoire de travail courant. Notons qu’il est également possible de cliquer sur un fichier de données depuis l’explorateur de fichiers. . cd "~/data/" . use grunfeld, clear . describe, short L’extension (.dta) est facultative, et il n’est pas nécessaire d’entourer le nom de fichier de quotes s’il n’y a pas d’espace dans le nom de fichier (ou le chemin d’accès). d2e5ca9 22 / 55 Les variables sous Stata d2e5ca9 23 / 55 Les variables sous Stata Trois catégories de variables : • variable numérique • variable catégorielle • chaîne de caractères Data . Data Editor . Data Editor (Edit) De manière formelle on ne distingue que les nombres et les chaînes de caractères. d2e5ca9 24 / 55 Mode de représentation et format Data . Variables manager • Mode de stockage des nombres (précision) : byte, int, long, double, float. • Mode de présentation des nombres (format) : %a.bg, où a représente la partie entière et b la partie décimale d2e5ca9 25 / 55 Précision numérique . help datatype • byte [-127, 100] • int [-32 767, 32 740] • long [-2 147 483 647, 2 147 483 620] Il est préférable d’utiliser des types long (double) ou string pour coder les identifiants uniques d’une base de données. Le type byte est généralement utilisé pour le codage numérique des variables catégorielles, auxquelles on associera des « étiquettes » (labels). d2e5ca9 26 / 55 Format d’affichage . webuse lbw . summarize bwt (Hosmer & Lemeshow data) Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 189 2944.286 729.016 709 4990 . format bwt %4.2f . summarize bwt, format Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 189 2944.29 729.02 709.00 4990.00 La plupart des commandes de résumé numérique offre une option pour le format d’affichage, donc il est inutile de « faire les arrondis » manuellement. d2e5ca9 27 / 55 Le langage Stata d2e5ca9 28 / 55 Syntaxe Stata Les commandes Stata sont structurées ainsi : [by varlist :] command [ varlist ] [= exp ] [if exp ] [in range ] [ weight ] [using filename ] [ , options ] • commande (obligatoire) • mot-clé • [ option ] (varlist = une ou plusieurs variables) d2e5ca9 29 / 55 Syntaxe Stata [by varlist :] command [ varlist ] [= exp ] [if exp ] [in range ] [ weight ] [using filename ] [ , options ] • Les noms de variables sont sensibles à la casse (majuscule/minuscule). • L’instruction by permet de répéter une même instruction par groupe d’observations (toutes les commandes Stata ne sont pas « byable »). • L’option weight est spécifique aux données pondérées. • Les options if et in permettent de sélectionner des observations selon des critères ou filtres logiques. d2e5ca9 30 / 55 Syntaxe Stata Statistics . Summaries, tables, and tests . Summary and descriptive statistics . Summary statistics d2e5ca9 31 / 55 Syntaxe Stata . help summarize d2e5ca9 32 / 55 Syntaxe Stata [by varlist :] command [ varlist ] [= exp ] [if exp ] [in range ] [ weight ] [using filename ] [ , options ] La plupart des commandes Stata peuvent être abrégées : summarize bwt Cela s’applique également aux noms de variable : . su b Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 189 2944.286 729.016 709 4990 Les abréviations sont utiles mais peuvent être difficiles à relire parfois. . . (www.stata.com/statalist/archive/ 2008-09/msg00913.html) d2e5ca9 33 / 55 Syntaxe Stata [by varlist :] command [ varlist ] [= exp ] [if exp ] [in range ] [ weight ] [using filename ] [ , options ] . describe, simple id low age lwt race smoke ptl ht ui ftv bwt . summarize bwt lwt Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 189 2944.286 729.016 709 4990 lwt | 189 129.8201 30.57515 80 250 . summarize low-lwt Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------low | 189 .3121693 .4646093 0 1 age | 189 23.2381 5.298678 14 45 lwt | 189 129.8201 30.57515 80 250 d2e5ca9 34 / 55 Syntaxe Stata [by varlist :] command [ varlist ] [= exp ] [if exp ] [in range] [ weight ] [using filename ] [ , options ] . summarize bwt lwt in 1/5 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 5 2565 31.97655 2523 2600 lwt | 5 131.4 35.20369 105 182 . list id bwt lwt in 1/5 1. 2. 3. 4. 5. d2e5ca9 +--------------------+ | id bwt lwt | |--------------------| | 85 2523.00 182 | | 86 2551.00 155 | | 87 2557.00 105 | | 88 2594.00 108 | | 89 2600.00 107 | +--------------------+ 35 / 55 Syntaxe Stata [by varlist :] command [ varlist ] [= exp ] [if exp] [in range ] [ weight ] [using filename ] [ , options ] . summarize bwt lwt if ui == 0 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 161 3030.174 693.6957 1135 4990 lwt | 161 131.764 30.66788 85 250 . tabulate ui presence, | uterine | irritabilit | y | Freq. Percent Cum. ------------+----------------------------------0 | 161 85.19 85.19 1 | 28 14.81 100.00 ------------+----------------------------------Total | 189 100.00 d2e5ca9 36 / 55 Syntaxe Stata [by varlist:] command [ varlist ] [= exp ] [if exp ] [in range ] [ weight ] [using filename ] [ , options ] . by ui, sort: summarize bwt lwt -------------------------------------------------------------------------------> ui = 0 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 161 3030.174 693.6957 1135 4990 lwt | 161 131.764 30.66788 85 250 -------------------------------------------------------------------------------> ui = 1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------bwt | 28 2450.429 742.9769 709 3912 lwt | 28 118.6429 27.99499 80 200 d2e5ca9 37 / 55 Importation de sources de données d2e5ca9 38 / 55 Types de fichier Fichiers texte : • import delimited • infix format fixe • infile format libre avec ou sans dictionnaire de données Fichiers binaires : Excel, SAS XPORT, ODBC. Par défaut, Stata cherche les fichiers dans le répertoire de travail courant. On peut le changer avec la commande cd ou avec le navigateur de répertoire situé dans la barre d’état. Autre type de fichiers : Stat/Transfer. http://www.stattransfer.com d2e5ca9 39 / 55 Importation de fichiers délimités Fichier birthwt.csv : low , age , lwt , race , smoke , ptl ,ht ,ui , ftv , bwt 0 ,19 ,182 ,2 ,0 ,0 ,0 ,1 ,0 ,2523 0 ,33 ,155 ,3 ,0 ,0 ,0 ,0 ,3 ,2551 0 ,20 ,105 ,1 ,1 ,0 ,0 ,0 ,1 ,2557 0 ,21 ,108 ,1 ,1 ,0 ,0 ,1 ,2 ,2594 0 ,18 ,107 ,1 ,1 ,0 ,0 ,1 ,0 ,2600 . cd ~/Documents/git/RITME/IAE/data /Users/chl/Documents/git/RITME/IAE/data . import delimited " birthwt . csv " , clear /// delimiter ( comma ) varnames (1) (10 vars, 189 obs) d2e5ca9 40 / 55 Importation de fichiers délimités Fichier birthwt.dat : 0 0 0 0 0 19 33 20 21 18 182 155 105 108 107 2 3 1 1 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 3 1 2 0 2523 2551 2557 2594 2600 . infile low age lwt race smoke ptl ht ui /// ftv bwt using " birthwt . dat " , clear (189 observations read) Stata préfère généralement les extensions de type raw (utilisé par défaut par la commande write) ou txt. d2e5ca9 41 / 55 Importation de fichiers délimités Fichier birthwt.dct : dictionary { _first (1) byte low " birthweight <2500 g" byte age " age of mother " int lwt " weight at last menstrual period " byte race " race " byte smoke " smoked during pregnancy " byte ptl " premature labor history ( count )" byte ht " has history of hypertension " byte ui " presence , uterine irritability " byte ftv " number of visits to physician during 1 st trimester " int bwt " birthweight ( grams )" } . infile using "birthwt.dct", using(birthwt.dat) clear d2e5ca9 42 / 55 Importation de fichiers délimités Fichier lowbwt.dat : These data come from Hosmer , D.W., Lemeshow , S. and Sturdivant , R.X. (2013) Applied Logistic Regression : Third Edition . These data are copyrighted by John Wiley & Sons Inc . and must be acknowledged and used accordingly . ID LOW 85 86 87 88 89 91 92 93 94 95 96 97 98 99 100 101 ... 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 . d2e5ca9 AGE LWT 19 33 20 21 18 21 22 17 29 26 19 19 22 30 18 18 .. 182 155 105 108 107 124 118 103 123 113 95 150 95 107 100 100 ... RACE 2 3 1 1 1 3 1 3 1 1 3 3 3 3 1 1 . SMOKE PTL 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 1 . 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 . HT UI 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 . 1 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 . FTV 0 3 1 2 0 0 1 1 1 0 0 1 0 2 0 0 . BWT 2523 2551 2557 2594 2600 2622 2637 2637 2663 2665 2722 2733 2750 2750 2769 2769 .... 43 / 55 Importation de fichiers délimités Fichier lowbwt.dct : infix dictionary using lowbwt . dat { * Data retrieved from : * https :// www . umass . edu / statdata / statdata / data / 8 first 1 lines int id 2 -4 byte low 9 -10 byte age 16 -18 int lwt 22 -25 byte race 31 -32 byte smoke 39 -40 byte ptl 47 -48 byte ht 54 -55 byte ui 60 -61 byte ftv 66 -67 int bwt 72 -76 } . infix using lowbwt.dct, clear En pratique, infile offre plus d’options et est préférable à infix. d2e5ca9 44 / 55 Importation de fichiers Excel . import excel " birthwt2 . xlsx ", sheet (" Feuille 1") /// firstrow clear d2e5ca9 45 / 55 Gestion d’une base de données d2e5ca9 46 / 55 Dictionnaire de données La commande codebook permet de lister le contenu d’une variable ou d’un tableau de données. . webuse lbw, clear . codebook, compact (Hosmer & Lemeshow data) Variable Obs Unique Mean Min Max Label ------------------------------------------------------------------------------id 189 189 121.0794 4 226 identification code low 189 2 .3121693 0 1 birthweight<2500g age 189 24 23.2381 14 45 age of mother lwt 189 76 129.8201 80 250 weight at last menstrual period race 189 3 1.846561 1 3 race smoke 189 2 .3915344 0 1 smoked during pregnancy ptl 189 4 .1957672 0 3 premature labor history (count) ht 189 2 .0634921 0 1 has history of hypertension ui 189 2 .1481481 0 1 presence, uterine irritability ftv 189 6 .7936508 0 6 number of visits to physician du... bwt 189 133 2944.286 709 4990 birthweight (grams) ------------------------------------------------------------------------------d2e5ca9 47 / 55 Format et contenu d’une variable . codebook race ------------------------------------------------------------------------------race race ------------------------------------------------------------------------------type: numeric (byte) label: race range: [1,3] unique values: 3 tabulation: d2e5ca9 Freq. 96 26 67 units: 1 missing .: 0/189 Numeric Label 1 white 2 black 3 other 48 / 55 . import delimited " birthwt . csv " , clear /// delimiter ( comma ) varnames (1) . codebook , compact (10 vars, 189 obs) Variable Obs Unique Mean Min Max Label ------------------------------------------------------------------------------low 189 2 .3121693 0 1 age 189 24 23.2381 14 45 lwt 189 75 129.8148 80 250 race 189 3 1.846561 1 3 smoke 189 2 .3915344 0 1 ptl 189 4 .1957672 0 3 ht 189 2 .0634921 0 1 ui 189 2 .1481481 0 1 ftv 189 6 .7936508 0 6 bwt 189 131 2944.587 709 4990 ------------------------------------------------------------------------------- d2e5ca9 49 / 55 Annotations et étiquettes de facteurs Data . Data utilities . Label utilities Les annotations (variables et tableau) sont gérées à l’aide de label (data|variable|define|values). . . . . . . label note: label label label label data "Hosmer & Lemeshow data" Mise en forme des données lbw define lrace 1 "white" 2 "black" 3 "other" values race lrace variable race "ethnicity" list lrace: 1 white 2 black 3 other d2e5ca9 50 / 55 . codebook, compact Variable Obs Unique Mean Min Max Label ------------------------------------------------------------------------------low 189 2 .3121693 0 1 age 189 24 23.2381 14 45 lwt 189 75 129.8148 80 250 race 189 3 1.846561 1 3 ethnicity smoke 189 2 .3915344 0 1 ptl 189 4 .1957672 0 3 ht 189 2 .0634921 0 1 ui 189 2 .1481481 0 1 ftv 189 6 .7936508 0 6 bwt 189 131 2944.587 709 4990 ------------------------------------------------------------------------------- Commandes additionnelles : label drop (suppression d’un jeu d’étiquettes), label copy (enregistrement d’un jeu d’étiquettes dans un fichier do). d2e5ca9 51 / 55 Tri d’une base de données Data . Sort Il est possible de réorganiser une base de données selon les valeurs d’une ou plusieurs variables : opération de tri (ascendant ou descendant, gsort). Le tri peut se faire conditionnellement à une autre variable. . . . . sort bwt sort smoke bwt gsort -ftv bwt list in 1/3 +--------------------------------------------------------------+ | low age lwt race smoke ptl ht ui ftv bwt | |--------------------------------------------------------------| 1. | 0 28 250 other 1 0 0 0 6 3303 | 2. | 1 21 100 other 0 1 0 0 4 2301 | 3. | 0 32 132 white 0 0 0 0 4 3080 | +--------------------------------------------------------------+ d2e5ca9 52 / 55 Références I 1. AC Acock. Discovering Structural Equation Modeling Using Stata. College Station : Stata Press, 2013. 2. AC Acock. A Gentle Introduction to Stata. College Station : Stata Press, 2014. 3. CF Baum. An Introduction to Modern Econometrics Using Stata. College Station : Stata Press, 2006. 4. CF Baum. An introduction to Stata programming. College Station : Stata Press, 2009. 5. RA Becker, WS Cleveland, and MJ Shyu. The visual design and control of trellis display. Journal of Computational and Statistical Graphics, 5(2) :123–155, 1996. 6. S Becketti. Introduction to Time Series Using Stata. College Station : Stata Press, 2013. 7. AC Cameron and PK Trivedi. Microeconometrics Using Stata. College Station : Stata Press, 2010. 8. I Campbell. Chi-squared and Fisher-Irwin tests of two-by-two tables with small sample recommendations. Statistics in Medicine, 26(19) :3661–3675, 2007. 9. LC Hamilton. Statistics with Stata : Version 12. Boston : Cengage, 2013. 10. D Hosmer and S Lemeshow. Applied Logistic Regression. New York : Wiley, 1989. 11. IT Jolliffe. Principal Component Analysis. New York, Springer, 2002. d2e5ca9 53 / 55 Références II 12. S Juul. Lean mainstream schemes for stata 8 graphics. The Stata Journal, 3(3) : 295–301, 2003. 13. S Juul and M Frydenberg. An Introduction to Stata for Health Researchers. College Station : Stata Press, 2014. 14. U Kohler and F Kreuter. Data Analysis Using Stata. College Station : Stata Press, 2012. 15. L Lebart, A Morineau, and M Piron. Statistique exploratoire multidimensionnelle. Dunod, 1995. 16. JS Long. Regression Models for Categorical Dependent Variables Using Stata. College Station : Stata Press, 2014. 17. MN Mitchell. A Visual Guide to Stata Graphics. College Station : Stata Press, 2012. 18. RG Newcombe. Two-sided confidence intervals for the single proportion : comparison of seven methods. Statistics in Medicine, 17(8) :857–872, 1998. 19. RD Peng. Reproducible research and biostatistics. Biostatistics, 10(3) :405–408, 2009. 20. EW Steyerberg, AJ Vickers, NR Cook, T Gerds, M Gonen, N Obuchowski, MJ Pencina, and MW Kattan. Assessing the performance of prediction models, a framework for traditional and novel measures. Epidemiology, 21(1) :128–138, 2010. 21. BL Welch. On the comparison of several mean values : An alternative approach. Biometrika, 38 :330–336, 1951. d2e5ca9 54 / 55 Index des commandes by, 37 cd, 22, 39, 40, 49 codebook, 47, 48, 51 describe, 20–22, 34 format, 27 gsort, 52 help, 19, 26, 32 import delimited, 40, 49 d2e5ca9 import excel, 45 infile, 41, 42 infix, 44 label, 50, 51 list, 20, 21, 35 net, 21 note, 50 search, 17 sort, 37, 52 summarize, 27, 33–37 sysuse, 20 tabulate, 36 use, 22 webuse, 21, 47 write, 41 55 / 55
Documents pareils
Mémento Stata
est qu'il faut disposer de beaucoup de RAM (ce qui n'est plus un problème maintenant) ou avoir des
fichiers de petite taille. Il faut définir la taille de la mémoire allouée à Stata. Il n'est pas p...