Initiation à l`analyse statistique des données PASEC sous le logiciel
Transcription
Initiation à l`analyse statistique des données PASEC sous le logiciel
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Initiation à l'analyse statistique des données PASEC sous le logiciel STATA Introduction Ce document est un support de formation pour un atelier d'une durée de 4 jours réalisé lors de l'atelier international du PASEC de Douala en décembre 2003. Une durée aussi courte ne peut pas amener à une maîtrise du logiciel et des méthodes d'analyse. L'objectif est autre, il s'agit, d'une part, de sensibiliser les participants à l'importance de l'analyse statistique en se fondant sur des applications concrètes ayant trait au processus d'apprentissage et, d'autre part, donner quelques clés sur les techniques d'analyse et l'interprétation des résultats. Il est toujours délicat d'approcher pour la première fois un domaine qui nécessite à la fois l'utilisation d'un logiciel spécifique et le recours aux techniques d'analyse statistique. Le risque alors peut être de faire une formation axée sur la maîtrise du logiciel en rendant l'aspect analyse accessoire ou inversement de faire une formation centrée sur l'analyse statistique en oubliant l'aspect pratique de la manipulation du logiciel. La méthode adoptée ici tente d'échapper à ces deux travers en utilisant comme fil conducteur la démarche d'analyse utilisée dans le cadre des évaluations PASEC, ce qui permet une découverte progressive du logiciel et des techniques statistiques tout en les associant à des problématiques spécifiques à l'analyse du processus d'apprentissage scolaire. Dans un premier temps, une brève présentation du logiciel est réalisée afin de connaître les principes élémentaires de son utilisation. Ensuite, la plupart des fichiers de données n'étant pas au format STATA, nous verrons comment importer différents types de fichiers sous STATA. On verra également comment fusionner des fichiers pour obtenir des fichiers permettant les analyses. Ces premiers aspects permettront de se familiariser avec la manipulation du logiciel avant de débuter la phase d'analyse. Nous passerons ensuite à la phase d'analyse avec une progression allant de l'analyse descriptive à l'analyse multivariée en passant par l'analyse bivariée. 1) Présentation du logiciel STATA1 STATA est un logiciel réputé pour ses multiples fonctions de traitement des données et d’analyse statistique. Il dispose également d’un langage de programmation aisé et convivial. 1.1- Les types de fichiers sous STATA Nous distinguons ici trois types de fichiers : ce sont les fichiers de données, les fichiers programmes et les fichiers de résultats. L’extension des fichiers dépend du type. S’il s’agit 1 Les commandes et les procédés de traitement des données présentés dans ce document sont ceux disponibles sous STATA version 7.0. 1 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN d’un fichier de données, il porte l’extension .dta ; les fichiers programmes2 ont l’extension .do et les fichiers de résultat ont l’extension .log. 1.2- Les fenêtres de travail Au démarrage, l’interface de STATA laisse apparaître quatre fenêtres. A partir de ces fenêtres, on peut exécuter les travaux désirés. Si on veut automatiser le travail par un programme, il faut faire appel à la fenêtre d’édition des programmes encore appelée STATA do-file editor. Le graphiques 3 suivant présente l’interface de STATA et la fenêtre d’édition des programmes. Graphique 2 : Interface de STATA Vers STATA Do-file Editor Interface de STATA 1 Editeur de programmes STATA 3 4 2 La fenêtre 1 (Variable) est celle dans laquelle s’affichent les noms des variables lorsqu’on charge un fichier de données. La fenêtre 2 (Stata command) est celle dans laquelle on tape les lignes de commandes que STATA doit exécuter. Si une commande est demandée, le résultat de son exécution s’affiche dans la fenêtre 3 (Stata results). La fenêtre 4 (Review) garde en rappel les dernières commandes exécutées. En plus de certaines icônes existant déjà sous office, STATA possède d’autres icônes dont les fonctionnalités sont présentées dans le tableau suivant : Icônes Fonctions Visualiser les données chargées en mémoire 2 Sous STATA, il existe des fichiers de programme d'extension .ado, mais le traitement des données tel que mené au PASEC peut se passer de ce type de fichier. 2 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Modifier les données chargées en mémoire Ouvrir la fenêtre d’édition des programmes (Stata Do-file Editor) Exécuter le programme courant ou la partie de programme sélectionnée Interrompre l’exécution d’un programme en cours 1.3- Quelques opérateurs logiques et arithmétiques sous STATA Les paragraphes précédents ont présenté l’interface de STATA. Le tableau suivant rend compte de quelques opérateurs logiques et arithmétiques qui peuvent être utilisés. Opérateurs = == ~= != + * / < > <= >= & | Rôle Opérateur d’égalité d’expression. Il est surtout utilisé lors des calculs ou lors de la création de variables. Test d’égalité entre une expression et une valeur. Il est utilisé lors des comparaisons Différence Différence Addition Soustraction Multiplication Division Inférieur Supérieur Inférieur ou égal Supérieur ou égal Et Ou 1.4- Les programmes STATA et la création d’un fichier de résultat Pour écrire un programme STATA, il faut se placer dans la fenêtre d'édition de programme (STATA do-file editor). L'enregistrement du programme créera un fichier avec une extension .do. Il est souhaitable de commencer chaque programme STATA par un commentaire de ce que fait le programme. Sous STATA, les commentaires sont insérés entre les symboles /* et */. Par exemple, ainsi : /* Ceci est un commentaire */ ou /*--- Ceci est un commentaire ---*/ Tout ce qui apparaît entre les symboles /* et */ n’est pas considéré comme une commande par STATA, mais comme un commentaire. 3 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Il est possible, et souhaitable, de demander à STATA de sauvegarder les résultats d’exécution d’un programme dans un fichier d’extension .log que l’on pourra ensuite lire avec les logiciels Bloc note, Worpad ou Word. Pour cela, il faut insérer la ligne de commande suivante à l’endroit à partir duquel on voudrait que les résultats soient sauvegardés (de préférence au tout début du programme) : log using C:\nomfichier3.log, replace A la fin de la partie du programme dont on souhaite sauvegarder les résultats (généralement en fin de programme), taper la ligne de commande suivante qui permet à STATA de créer le fichier : log close Pour des raisons de cohérence et afin de faciliter la recherche ultérieure des fichiers, il est recommandé de donner des noms similaires aux fichiers de données(.dta), de programme (.do) et d'exécution de résultats (.log). 2) L'utilisation et la manipulation des fichiers sous STATA Dans la mesure où l'utilisation courante de STATA nécessite la manipulation de fichiers issus d'autres logiciels comme Excel ou Access, nous avons jugé opportun ici de présenter les modalités d'importation de fichiers et de fusion des fichiers. 2.1 L'importation de fichiers Il est fondamental de comprendre que l'importation des fichiers sous STATA dépend des séparateurs qui sont utilisés dans le fichier source. Nous allons passer ici en revue les plus fréquents. Toutes les instructions utilisées dans cette partie sont consignées en annexe et correspondent au fichier initiation.do. • Importation de fichiers au format texte où les variables sont séparées par des virgules ou par des espaces. Ce type de format peut être obtenu par exemple en exportant un fichier Access en fichier texte, dans ce cas préférez les virgules comme séparateurs car elles sont moins source d'erreurs que les espaces. Pour l'importation, il faut alors utiliser la commande suivante basée sur l'exemple utilisé lors de l'atelier : infile */ */ */ */ 3 NUMECOLE CM2QE__A CM2QE__H CM2QE__O CM2QE__V NUMCLASS NUMELEVE CM2QE__B CM2QE__C CM2QE__D CM2QE__I CM2QE__J CM2QE__K CM2QE__P CM2QE__Q CM2QE__R CM2QE__W CM2QE__X CM2QE__Y CM2QE__E CM2QE__L CM2QE__S CM2QE__Z CM2QE__F CM2QE__M CM2QE__T CM2QE_AA Il s’agit ici de spécifier le chemin où STATA doit sauvegarder le fichier et le nom de ce fichier. 4 CM2QE__G CM2QE__N CM2QE__U CM2QE_AB /* /* /* /* /* Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN */ CM2QE_AC CM2QE_AD CM2QE_AE CM2QE_AF CM2QE_AG CM2QE_AH CM2QE_AI /* */ CM2QE_AJ CM2QE_AK CM2QE_AL CM2QE_AM CM2QE_AN CM2QE_AO CM2QE_AP /* */ CM2QE_AQ CM2QE_AR CM2QE_AS CM2QE_AT CM2QE_AU CM2QE_AV CM2QE_AW /* */ CM2QE_AX /* */ using c:\pasec\2QE.txt /* Où le fichier 2QE.txt est un fichier texte utilisant comme séparateur la virgule */ Il faut signaler qu'après la commande infile il est nécessaire d'introduire tous les noms de variables du fichier source sans quoi l'importation sera incorrecte. Après toute importation, il est indispensable de vérifier que le fichier importé correspond bien au fichier source. Pour cela, le plus simple est de parcourir les données par l'intermédiaire de l'éditeur de données ( data browser). Cela permet de repérer rapidement les problèmes grossiers d'une importation ratée, toutefois il est préférable de procéder à un contrôle plus systématique en ayant recours à l'instruction codebook qui permet de décrire les variables. Exemple : codebook NUMECOLE NUMECOLE (unlabeled) ---------------------------------------------------------type: range: unique values: mean: std. dev: percentiles: numeric (float) [1,120] 115 units: coded missing: 1 0 / 2610 60.4824 34.0263 10% 11 25% 33 50% 60 75% 89 90% 108 Cette commande permet de décrire la variable, ici le numéro de l'école. Le type nous indique qu'il s'agit d'une variable numérique (numeric), range nous indique que la variable prend des valeurs comprises entre 1 et 120 avec comme unité 1. Unique values nous informe qu'il y a 115 valeurs uniques c'est-à-dire 115 numéros écoles. Mean correspond à la moyenne et std. dev à l'écart type utile pour la description de variables continues comme les scores mais sans grand intérêt ici pour décrire les numéros d'école. Enfin, percentiles décrit la répartition de la population, là encore sans beaucoup d'intérêt pour cette variable. • Importation de fichiers Excel La première façon de procéder est d'enregistrer le fichier Excel en format texte (.txt) en choisissant les tabulations comme séparateurs. On utilisera alors l'instruction insheet. insheet using c:\PASEC\enseignants.txt, clear 5 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN (200 vars, 4028 obs) Après l'exécution de la commande, STATA nous indique que le fichier importé comporte 200 variables et 4028 observations, or le fichier d'origine comprend 8 variables et 499 observations. Si on effectue un codebook sur la variable identifiant, on observe les résultats suivants. identifiant ------------------------------------------------------type: numeric (long) range: [110011,450121] unique values: 499 mean: std. dev: percentiles: units: 1 coded missing: 3529 / 4028 324230 128068 10% 110581 25% 210131 50% 410383 75% 430051 90% 440691 Au lieu d'avoir 499 observations comme dans le fichier d'origine, on en a 4028 dont 3529 sont des valeurs manquantes. En fait, on a importé l'ensemble de la feuille Excel avec toutes les lignes et toutes les colonnes et pas seulement celles renseignées. Cet exemple illustre la nécessité de contrôler systématiquement le résultat des importations. Par ailleurs, cela nous donne l'occasion de voir comment se débarrasser d'observations et de variables indésirables. Pour cela il est indispensable d'identifier précisément les observations et les variables à éliminer. En ce qui concerne les variables, on observe dans la fenêtre variables que STATA a créé des variables v9 à v200 en plus des variables initiales. C'est en effet une des fonctionnalités de la commande insheet que d'affecter des noms de variables s'il n'y en a pas. En l'occurrence ici, cela se révèle inapproprié et nous allons utiliser la commande drop pour nous débarrasser de ces variables. drop v* Par cette instruction STATA va éliminer toutes les variables commençant par v. Pour ce qui est des observations en trop, elles correspondent à des valeurs manquantes. Il faut donc s'appuyer sur une variable qui n'a pas de valeurs manquantes comme c'est le cas de la variable identifiant. drop if identifiant==. describe Contains data obs: vars: 499 8 6 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN size: 7,485 (99.9% of memory free) -----------------------------------------------------------------------storage display value variable name type format label variable label -----------------------------------------------------------------------identifiant long %12.0g IDENTIFIANT enstot byte %8.0g ENSTOT nbinst byte %8.0g NBINST nbadj byte %8.0g NBADJ nbmon byte %8.0g NBMON nbsup byte %8.0g NBSUP enshom byte %8.0g ENSHOM ensfem byte %8.0g ENSFEM -----------------------------------------------------------------------Sorted by: identifiant On constate qu'il n'y a plus que 499 observations et 8 variables comme on le souhaitait. Il existe une autre façon plus simple d'importer des données d'Excel à STATA, il s'agit du copier coller de windows. Il suffit de copier sous EXCEL les données qu'on souhaite importer puis d'aller les coller dans l'éditeur de données de STATA : Il faut être particulièrement vigilant avec cette méthode "manuelle" car une ligne ou une colonne est vite oubliée. Une autre façon d'importer ou d'exporter des fichiers vers STATA, ou d'autres logiciels, est d'avoir recours à un logiciel de transfert comme STAT/ Transfer. Ces logiciels sont très performants et simples d'usage mais cela implique l'achat du logiciel. 7 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN 2.2 La fusion de fichiers La fusion de fichiers est un aspect essentiel car incontournable pour créer des fichiers de données propres à l'analyse. En effet, dans la plupart des cas, il est nécessaire de réunir des informations issues de différentes sources. Dans le cas des données PASEC, nous avons des données de niveau élève, de niveau classe et de niveau école. Il est important de comprendre ici que nous sommes confrontés à des données hiérarchiques au sens où les élèves sont dans une classe qui elle-même est dans une école. Ainsi, tous les élèves de la classe N auront les caractéristiques de cette classe et de leur école. Deux principes doivent être connus pour fusionner des fichiers : • • il est nécessaire que les fichiers possèdent une ou des variable(s) d'identification commune(s). On comprend en effet que pour que les informations relatives à une école soient affectées aux élèves de cette même école, il est indispensable que l'identification de l'école soit la même dans les deux fichiers. Si l'école n°20 dans le fichier école a un autre numéro dans le fichier élève, on ne pourra réaliser la fusion ; Les fichiers doivent être triés en fonction de la ou des variables d'identification commune(s) afin de permettre la fusion Exemple : nous souhaitons fusionner les fichiers eleves.dta et classes.dta. La variable d'identification commune est NUMECOLE. Dans un premier temps on trie le fichier (instruction sort) classes.dta en fonction de la variable NUMECOLE : use C:\PASEC\classes.dta sort NUMECOLE save C:\PASEC\classes.dta, replace On peut ensuite vérifier dans l'éditeur de données que le fichier a été classé en fonction de la variable NUMECOLE par ordre croissant. Dans un second temps, on procède à la fusion avec la syntaxe suivante : use C:\PASEC\eleves.dta sort NUMECOLE NUMELEVE merge NUMECOLE using C:\PASEC\classes.dta Ici, après avoir ouvert le fichier eleves.dta, puis l'avoir trié (sort) on le fusionne (merge) sur la base de la variable NUMECOLE avec le fichier classes.dta. Quand on fusionne deux fichiers, il y a toujours un risque que certaines observations ne soient pas communes aux deux fichiers. Pour permettre de vérifier comment s’est déroulée la fusion, STATA crée une variable : _merge. 8 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN . codebook _merge (unlabeled) _merge -----------------------------------------------------------type: numeric (byte) range: unique values: [1,3] 3 tabulation: Freq. 1 1 2306 units: coded missing: 1 0 / 2308 Value 1 2 3 Comme l’illustre notre exemple, la variable _merge peut prendre trois valeurs : 1, 2 et 3. La valeur 1 indique qu’il s’agit d’une observation présente dans le premier fichier apparaissant dans l’instruction de fusion, c'est-à-dire pour nous le fichier eleves.dta. La valeur 2 quant à elle révèle que l’observation appartient au fichier classes.dta. Enfin, la valeur 3 correspond aux observations présentent dans les deux fichiers eleves.dta et classes.dta. Pour les analyses que nous voulons réaliser, il nous faut à la fois les informations relatives aux élèves mais aussi aux classes. Il faut ici attirer l’attention sur le fait que lorsqu’on perd les informations relatives à la classe ou à l’école, tous les élèves qui étaient dans la classe sont perdus pour l’analyse faute d’informations. Voilà pourquoi les questionnaires contextuels (élèves, maîtres et directeurs) doivent faire l’objet d’une grande attention dans la phase de collecte des données. Ici les observations dont les valeurs de _merge sont différentes de 3 sont donc inutiles pour l’analyse, nous allons nous en débarrasser. drop if _merge!=3 On peut alors se débarrasser de la variable _merge désormais inutile. drop _merge Il faut ensuite sauvegarder le nouveau fichier créé suite à la fusion des deux fichiers, nous l’appellerons analyse. save C:\PASEC\analyse.dta" Nous avons maintenant un fichier avec les informations nécessaires pour mener des analyses sur les acquis scolaires des élèves. 3) L'analyse statistique des données PASEC sous STATA 9 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Il n’est pas inutile de rappeler ici que la quasi totalité des traitements que nous allons réaliser ici peuvent être effectuer avec d’autres logiciels statistiques et ne sont pas spécifiques à STATA. Si la syntaxe diffèrera selon les logiciels la démarche d’analyse reste identique. Nous ne pourrons pas ici voir de façon très détaillée le processus d’analyse, nous verrons les principales étapes afin d’éclairer la démarche d’analyse préconisée, toutefois une présentation plus complète est fournie dans le chapitre 7 du guide pour l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation que nous joignons en annexe. L’objectif des analyses réalisées dans le cadre du PASEC est d’identifier les déterminants des apprentissages et leurs poids respectifs. Il s’agit donc in fine de mener une analyse causale qui repose sur une analyse statistique multivariée. Cependant, il y a plusieurs étapes avant d’aboutir à l’analyse causale proprement dite. Nous mettrons ici l’accent sur les analyses descriptives et bivariées qui sont parties intégrante du processus d’analyse. 3.1 Le type de variables Avant de rentrer dans le processus d’analyse, il est nécessaire de considérer les catégories de variables existantes dans la mesure où elles se traitent de façon différente. On considère classiquement deux catégories de variables. • Les variables discrètes ou qualitatives : elles fournissent une information sur une caractéristique donnée comme le genre, le niveau de vie, la possession de manuels scolaires. On distingue les variables dichotomiques qui prennent seulement deux valeurs et les variables polytomiques qui prennent plus de deux valeurs. Par exemple, dans notre fichier nous avons la variable FILLE qui prend la valeur 0 quand l’élève est un garçon et 1 quand c’est une fille, il s’agit d’une variable dichotomique. Par contre, la variable NIVEAUVI, qui décrit le niveau de vie de la famille de l’élève, prend quatre valeurs 0, 1, 2 ou 3. • Les variables continues ou quantitatives : elles permettent de mesurer une grandeur comme une score à un test, l’âge, le nombre d’années d’expérience professionnelle, etc. Elles prennent généralement un grand nombre de valeurs. Selon qu’on sera confronté à l’une ou l’autre de ces catégories, les outils d’analyses requis vont changer. 3.2 La construction des variables Il s'agit d'une phase essentielle dans le traitement des données pour aboutir au fichier final d'analyse. Ce n'est pas l'objet de cet atelier que de s'attarder sur cet aspect mais il semble 10 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN indispensable que chacun connaisse les rudiments pour créer une variable afin de pouvoir éventuellement utiliser le logiciel ultérieurement avec d'autres données4. • Construction d'une variable à partir d'une variable continue. On suppose qu'on veut créer une variable dichotomique selon que la classe est composé de plus de 35 élèves ou non. L'instruction pour créer une variable est generate (gen). gen TCLASSE35=TCLASSE>35 • Nous venons de créer une nouvelle variable TCLASSE35, qui prend la valeur 1 s'il y a plus de 35 élèves dans la classe et 0 dans le cas contraire. Construction d'une variable à partir d'une variable discrète. A partir des variables REDAN1 (redoublement de la première année) et REDAN2 (redoublement de la 2ème année) codées 0/1, on veut créer une variable indiquant que l'élève a déjà redoublé peu importe la classe : gen REDOU=REDAN1==1|REDAN2==1 Il faut rappeler ici que STATA distingue le signe = ,(affectation d'une valeur) du signe = = qui correspond à une égalité entre deux valeurs. La nouvelle variable REDOU prend la valeur 1 quand l'élève a redoublé au moins l'une des classes (1ère ou 2ème année). Si on veut une variable indiquant que l'élève a redoublé les deux classes, alors on aura : gen REDOU=REDAN1==1&REDAN2==1 Imaginons maintenant que l'on souhaite créer une variable redoublement qui prenne les valeurs 0 si l'élève n'a jamais redoublé, 1 si l'élève a redoublé une classe et 2 si l'élève a redoublé deux classes : gen REDOU=REDAN1+REDAN2 Avec l'instruction generate, on peut additionner, soustraire, diviser ou multiplier des variables pour créer d'autres variables. Pour créer les variables de score, on additionne les variables correspondant à chaque item du test. Ces exemples sont incomplets mais permettent de se faire une idée sur la façon dont peuvent se construire les variables sous STATA. 3.3 L’analyse descriptive Comme son nom l’indique, il s’agit avant tout de décrire les données dont nous disposons. Elle peut apporter des informations importantes sur la situation du système éducatif quand l’échantillon dont on dispose est représentatif. Ce type d’analyse peut également soulever certaines questions de recherche auxquelles l’analyse causale devra répondre. Nous allons ici présenter quelques exemples sur la façon de procéder, il ne faut toutefois pas perdre de vue que l’analyse descriptive si elle n’est pas nécessairement exhaustive doit passer en revue systématiquement l’ensemble des variables d’intérêt pour une étude. Il s’agit d’un premier questionnement des données. 4 Pour les principes de construction des variables, on se réfèrera au chapitre 7 du guide pour l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation que nous joignons en annexe ainsi qu'au document sur le traitement des données. 11 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN 3.3.1 Les variables discrètes En ce qui concerne les variables discrètes, la description passe par la fréquence de telle ou telle caractéristique dans la population. On peut, par exemple, s’interroger sur la proportion de filles parmi les élèves, ou bien la proportion d’élèves vivant en zone rurale ou encore la proportion d’élèves possédant des manuels scolaires. C’est l’instruction tabulate (ou son abréviation tab) qui permet de calculer les fréquences. . tab FILLE FILLE | Freq. Percent Cum. ------------+----------------------------------0 | 1336 57.94 57.94 1 | 970 42.06 100.00 ------------+----------------------------------Total | 2306 100.00 Le tableau précédent nous indique qu’il y a 1336 garçons et 970 filles dans notre échantillon, ainsi les filles représentent environ 42% des élèves. On peut demander à STATA de faire la même chose pour plusieurs variable : . tab1 RURAL LIV_FRMT -> tabulation of RURAL RURAL | Freq. Percent Cum. ------------+----------------------------------0 | 1061 46.01 46.01 1 | 1245 53.99 100.00 ------------+----------------------------------Total | 2306 100.00 -> tabulation of LIV_FRMT LIV_FRMT | Freq. Percent Cum. ------------+----------------------------------0 | 653 28.32 28.32 1 | 1653 71.68 100.00 ------------+----------------------------------Total | 2306 100.00 On constate que près de 54% des élèves vivent en zone rurale et qu’un peu plus de 71% des élèves possèdent à la fois un manuel de mathématiques et un manuel de français. On peut également se poser d’autres questions comme de savoir si la proportion de filles est identique selon la zone géographique. . tab FILLE if RURAL==1 12 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN FILLE | Freq. Percent Cum. ------------+----------------------------------0 | 755 60.64 60.64 1 | 490 39.36 100.00 ------------+----------------------------------Total | 1245 100.00 . tab FILLE if RURAL==0 FILLE | Freq. Percent Cum. ------------+----------------------------------0 | 581 54.76 54.76 1 | 480 45.24 100.00 ------------+----------------------------------Total | 1061 100.00 On observe que les filles représentent seulement 39,36% des élèves en zone rurale contre plus de 45% en zone urbaine. Une autre façon de faire permet d’obtenir les mêmes informations. . sort RURAL . by RURAL : tab FILLE ___________________________________________________________________________ -> RURAL = 0 FILLE | Freq. Percent Cum. ------------+----------------------------------0 | 581 54.76 54.76 1 | 480 45.24 100.00 ------------+----------------------------------Total | 1061 100.00 ___________________________________________________________________________ -> RURAL = 1 FILLE | Freq. Percent Cum. ------------+----------------------------------0 | 755 60.64 60.64 1 | 490 39.36 100.00 ------------+----------------------------------Total | 1245 100.00 Si on veut connaître la proportion de filles parmi les élèves qui sont en zone rurale et qui possèdent les manuels de français et de mathématiques, on va avoir recours à une double condition. . tab FILLE if RURAL==1&LIV_FRMT==1 FILLE | Freq. Percent Cum. ------------+----------------------------------- 13 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN 0 | 490 61.33 61.33 1 | 309 38.67 100.00 ------------+----------------------------------Total | 799 100.00 Parmi les élèves en zone rurale et qui possèdent les deux manuels, 38,67% sont des filles. Les exemples que nous avons pris ici ne sont pas anodins et illustrent la nécessité de questionner les données sur un certain nombre d’aspects importants pour la compréhension du fonctionnement du système éducatif. Nous avons eu recours précédemment à ce qu’on appelle dans le jargon technique des tris simples, on peut obtenir les mêmes informations en utilisant des tris croisés. . tab FILLE RURAL, row column | RURAL FILLE | 0 1 | Total -----------+----------------------+---------0 | 581 755 | 1336 | 43.49 56.51 | 100.00 | 54.76 60.64 | 57.94 -----------+----------------------+---------1 | 480 490 | 970 | 49.48 50.52 | 100.00 | 45.24 39.36 | 42.06 -----------+----------------------+---------Total | 1061 1245 | 2306 | 46.01 53.99 | 100.00 | 100.00 100.00 | 100.00 On observe que le tableau obtenu est assez complexe, on peut le simplifier en ne demandant que l’une des options row et column selon l’information souhaitée. En colonne nous avons la variable FILLE qui prend les valeurs 0 et 1, et en ligne la variable RURAL qui prend également les valeurs 0 et 1. Si on considère la valeur 0 pour la variable FILLE ainsi que pour la variable RURAL, on constate que 581 élèves sont des garçons en zone urbaine. Ils représentent 43,49% de l’ensemble des garçons de l’échantillon et 54,76% des élèves de zone urbaine. Si on regarde les filles en zone rurale, on remarque comme précédemment qu’elles sont 490, qu’elles représentent 39,36% des élèves en zone rurale et 50,52% des filles de l’échantillon. Ce type de tableau croisé fourni beaucoup d’informations mais il n’est pas d’interprétation aisée. 3.3.2 Les variables continues Quand on veut décrire des variables continues on s’intéresse principalement à leurs caractéristiques de valeur centrale (médiane, moyenne) et à leurs caractéristiques de dispersion (variance, écart type). On peut également avoir recours à des graphiques pour 14 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN visualiser les distributions des variables. Sous STATA, on utilisera l’instruction summarize (sum). sum SINI2F Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SINI2F | 2293 9.408635 6.213624 0 25 On a exécuté l'instruction summarize pour le score de début d'année en français. Outre le nombre d'observations, le logiciel nous fourni la moyenne (9.408635), l'écart type (6.213624) ainsi que les scores minimal et maximal (0 et 25). On peut obtenir plus d'informations en utilisant l'option detail de l'instruction summarize. . sum SINI2F, detail SINI2F ------------------------------------------------------------Percentiles Smallest 1% 0 0 5% 1 0 10% 2 0 Obs 2293 25% 4 0 Sum of Wgt. 2293 50% 9 75% 90% 95% 99% 14 18 20 24 Largest 25 25 25 25 Mean Std. Dev. 9.408635 6.213624 Variance Skewness Kurtosis 38.60912 .3839722 2.2051 L'option detail permet une description plus précise des variables continues incluant notamment les coefficients d'asymétrie (la valeur de skewness est de 0 pour une distribution normale) et d'aplatissement (la valeur de kurtosis est de 3 pour une distribution normale), les quatre valeurs les plus faibles (smallest) et les plus élevées (largest) et différents pourcentiles dont la médiane (pourcentile = 50%). Les chiffres ci-dessus montrent une distribution asymétrique à droite, la médiane (9) est inférieure à la moyenne (9.4) et le coefficient d'asymétrie est positif. Par ailleurs, le coefficient d'aplatissement ou de concentration est de 2.2 ce qui montre une distribution peu concentrée. Afin de visualiser la distribution de SINI2F on peut demander à STATA de nous faire un graphique. graph SINI2F, bin(50) L'option bin(50) permet de définir le nombre de fréquences à prendre en compte, 50 étant le maximum. 15 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN .063672 0 0 25 SINI2F Le graphique confirme le constat précédent, on voit que les scores faibles sur la gauche du graphique sont plus fréquents que les scores élevés d'où l'asymétrie remarquée précédemment. Comme pour l'instruction tabulate, on peut utiliser une condition pour calculer une moyenne sur un groupe spécifique, par exemple imaginons que nous voulions connaître les scores moyens de l'école n°71 en français et mathématique au début de l'année. sum SINI2F SINI2M if NUMECOLE==71 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SINI2F | 20 12.55 5.799047 0 20 SINI2M | 20 6.7 1.592747 4 9 La moyenne de l'école n°71 en français est de 12.5, soit 3 points de plus que la moyenne de l'échantillon, et 6.7 en mathématiques. L'analyse des scores peut facilement amener des erreurs d'analyse notamment en comparant des choses non comparables comme le sont un test de début d'année et un test de fin d'année. Sur ce point on renvoie au chapitre 7 du guide pour l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation (p.181). L'analyse des scores reste un passage obligé dans le cadre d'une évaluation des acquis des élèves, il peut être utile de la compléter par une analyse détaillée de certains items. Par ailleurs, dans le cadre d'enquêtes internationales la comparaison avec les scores d'autres pays permet de situer le niveau de performance d'un système éducatif. 3.4 L'analyse bivariée Après avoir étudier indépendamment différentes variables, il convient de les étudier conjointement pour mettre en exergue certaines relations. Il faut cependant ici rappeler que 16 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN l'analyse bivariée ne prouve pas une relation causale (Cf. chap.7 du guide pour l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation, p.187). L'approche de la relation entre deux variables diffère selon qu'il s'agit de variables continues ou discrètes. 3.4.1 La relation entre deux variables continues Une toute première approche pour identifier une éventuelle relation entre deux variables est de faire un graphique. A titre d'exemple, nous avons ici voulu voir la relation entre le score de début d'année et le score de fin d'année. graph SFIN2FM SINI2FM SFIN2FM 75 2.05405 1.38889 50 SINI2FM Le graphique précédent nous permet de constater qu'il y a une relation positive entre le score de début d'année et le score de fin d'année, c'est-à-dire que plus on a eu un score élevé en début d'année et plus il y a de chance qu'on ait aussi un bon score de fin d'année. Toutefois, le nuage de point indique que cette relation est loin d'être parfaite car on voit que pour un même niveau initial, les scores de fin d'année peuvent varier de façon importante. On peut également s'appuyer sur un indicateur numérique pour mesurer cette relation, il s'agit du coefficient de corrélation. . corr SFIN2FM (obs=2050) SINI2FM | SFIN2FM SINI2FM -------------+-----------------SFIN2FM | 1.0000 SINI2FM | 0.6075 1.0000 Le coefficient de corrélation est un indicateur de l'intensité de la relation linéaire entre deux variables continues, il prend des valeurs entre -1 et 1. Lorsque la relation est forte la valeur du coefficient de corrélation linéaire est élevée (proche de -1 ou +1). Dans notre cas, un 17 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN coefficient d'environ 0.61 indique une relation positive assez consistante entre les deux variables. On reste toutefois assez éloigné de 1 qui indique une relation linéaire parfaite. 3.4.2 La relation entre une variable continue et une variable discrète L'exemple type est de s'interroger sur les résultats des élèves selon leur genre ou encore selon leur zone de résidence. On commencera alors par calculer le score moyen pour chaque cas de figure. . sort FILLE . by FILLE : sum SFIN2FM ___________________________________________________________________________ -> FILLE = 0 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SFIN2FM | 1192 40.07498 15.79222 2.108108 75 ___________________________________________________________________________ -> FILLE = 1 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SFIN2FM | 871 39.37552 15.85868 2.054054 71.94595 . sort RURAL . by RURAL : sum SFIN2FM ___________________________________________________________________________ -> RURAL = 0 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SFIN2FM | 943 42.30954 16.00642 2.108108 72.89189 ___________________________________________________________________________ -> RURAL = 1 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------SFIN2FM | 1120 37.64961 15.34865 2.054054 75 On constate que les filles ont un score moyen légèrement inférieur à celui des garçon (39.37 contre 40.07). L'écart entre les élèves résidant en zone urbaine et ceux résident en zone rurale est plus marqué (42.3 contre 37.6). Doit-on prendre ces écarts directement et conclure à des différences entre garçons et filles et entre urbains et ruraux ? La réponse est non, pour pouvoir conclure à la différence entre deux moyennes, il faut avoir recours à test de comparaison de moyenne. 18 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN . ttest SFIN2FM, by (FILLE) Two-sample t test with equal variances ------------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+--------------------------------------------------------------------0 | 1192 40.07498 .4574094 15.79222 39.17756 40.9724 1 | 871 39.37552 .537351 15.85868 38.32087 40.43018 ---------+-------------------------------------------------------------------combined | 2063 39.77967 .3483082 15.82025 39.0966 40.46274 ---------+--------------------------------------------------------------------diff | .6994583 .7052083 -.6835368 2.082453 ------------------------------------------------------------------------------Degrees of freedom: 2061 Ho: mean(0) - mean(1) = diff = 0 Ha: diff ~= 0 t = 0.9918 P > |t| = 0.3214 Ha: diff < 0 t = 0.9918 P < t = 0.8393 Ha: diff > 0 t = 0.9918 P > t = 0.1607 Le principe du test est de voir si la différence entre les deux moyennes est nulle (Ho). Pour cela on va tester si la différence est différente de 0, si c'est le cas on rejettera l'hypothèse Ho sinon on l'acceptera. Ici on a P > |t| = 0.3214, cela signifie qu'on a 32 chances sur 100 de se tromper si on affirme que la différence entre les deux moyennes est comprise entre -.6835368 et 2.082453. Il faut savoir qu'en général au-delà de 10 chances sur 100, on considère que l'on ne peut accepter l'hypothèse. Ici, on peut donc retenir qu'il n'y a pas de différence significative entre le score moyen des garçons et celui des filles. Voyons pour la zone géographique : . ttest SFIN2FM, by (RURAL) Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 943 42.30954 .5212408 16.00642 41.28661 43.33246 1 | 1120 37.64961 .4586287 15.34865 36.74974 38.54948 ---------+-------------------------------------------------------------------combined | 2063 39.77967 .3483082 15.82025 39.0966 40.46274 ---------+-------------------------------------------------------------------diff | 4.659921 .6917906 3.30324 6.016603 -----------------------------------------------------------------------------Degrees of freedom: 2061 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 t = 6.7360 P < t = 1.0000 Ha: diff ~= 0 t = 6.7360 P > |t| = 0.0000 Ha: diff > 0 t = 6.7360 P > t = 0.0000 Il y a moins d'une chance sur 10 000 de se tromper en disant qu'il y a une différence entre le score moyen des élèves en zone rurale et celui des élèves en zone urbaine. Cette différence 19 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN comprise entre 3.30324 et 6.016603 points est en faveur des élèves de zone urbaine. On conclut que les élèves en zone urbaine ont de meilleurs résultats que les élèves de zone rurale. Cela dit à ce stade nous ne sommes pas en mesure de dire si cette différence est imputable uniquement à la zone géographique où si elle est due à d'autres facteurs (environnement socioculturel, équipement de l'école, formation des enseignants, etc.), c'est pour cela qu'on parle d'effet brut. 3.4.3 La relation entre deux variables discrètes Il est possible de décrire deux variables discrètes dans un seul tableau. On utilise alors un test de chi2 pour vérifier si les variables sont ou non indépendantes. Prenons comme exemple la zone géographique . tab RURAL LIV_FRMT, chi2 | LIV_FRMT RURAL | 0 1 | Total -----------+----------------------+---------0 | 207 854 | 1061 1 | 446 799 | 1245 -----------+----------------------+---------Total | 653 1653 | 2306 Pearson chi2(1) = 75.1012 Pr = 0.000 Ici, on a moins d'une chance sur mille (Pr = 0.000) de se tromper en affirmant que les deux variables ne sont pas indépendantes, c'est-à-dire qu'il y a un lien entre la zone géographique et la possession de manuels scolaires. 3.5 L'analyse causale La question de la causalité est aussi redoutable qu'incontournable, c'est pourquoi elle est abordée ici. Il semble important effectivement de comprendre la différence de statut entre ce type d'analyse et les analyses précédentes. Toutefois, on ne peut pas ici traiter de façon complète cet aspect. Encore une fois nous nous référerons au chap.7 du guide pour l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation (p.193) qui développe plus longuement la question. On peut penser la causalité par rapport l’expérimentation telle que la pratiquent les sciences expérimentales : on répète la même expérience plusieurs fois, mais en modifiant seulement une des conditions de l’expérience. Si on constate que les résultats varient systématiquement en fonction de cette condition, on infère que cette condition a un effet causal donné sur les résultats. 20 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN En sciences sociales, l’expérimentation n’est guère possible. C’est par l’analyse comparative de situations existantes qu’on essaie de mettre en évidence des relations causales. Même si expérimentation et analyse comparative apparaissent fondamentalement différentes, il reste intéressant de penser l’analyse comparative par rapport à l’expérimentation idéale. En effet, l’analyse comparative fait un double effort pour se rapprocher des conditions de l’expérimentation : le choix d’un échantillon comprenant une multiplicité d’individus fait écho à la répétition de l’expérience ; et la reconstitution de conditions «toutes choses égales par ailleurs» est l’analogue du contrôle des conditions de l’expérimentation. Il est important de rappeler qu'une multitude de facteurs interviennent simultanément dans le processus d'acquisition. Or, si l'on veut mesurer l'effet d'un facteur donner il faut être en mesure de prendre en compte l'effet des autres facteurs afin de s'assurer que l'on mesure bien l'effet du seul facteur qui nous intéresse (on parle d'effet net). Par exemple, dans la comparaison des classes nombreuses et peu nombreuses on va constater que ces classes diffèrent par leur localisation, par leur public d’élèves, par les moyens éducatifs mis en œuvre. On va mesurer les effets de ces différences. On va ôter ces effets de la différence de résultats mesurée entre classes nombreuses et classes peu nombreuses. La différence restante sera attribuée à la taille de classe. Pour cela, on a recours à des analyses statistiques multivariées comme la régression multiple. Il y a en effet une difficulté pratique : pour mesurer l’effet causal de la différence de tailles de classe, je dois connaître l’effet causal des autres variables. Mais la réciproque est vraie : pour connaître l’effet causal des autres variables, je dois connaître l’effet causal des différences de taille de classe. Prenons par exemple l’effet causal du milieu rural : je ne peux le déduire de la comparaison simple des résultats en milieu urbain et en milieu rural. Car on pourrait objecter que les classes de milieu rural sont aussi en général moins nombreuses, et que cela trouble la comparaison. C’est pourquoi la régression multivariée identifie de façon simultanée les différents effets. Il faut donc élaborer un modèle statistique intégrant de multiples variables, se pose donc la question du choix des variables. Dans cette étape, le fil directeur est donné a priori par le modèle conceptuel présenté lors de cet atelier (présentation sur les principes et méthodologie de l'évaluation). On a donc une idée préalable des facteurs qui expliquent les apprentissages scolaires qui peuvent être complétés par des facteurs mis en évidence par les analyses descriptives et bivariées. On introduira les variables nécessaires pour tester si ces effets existent de façon significative, et quelle est leur valeur. On introduira les variables nécessaires, ni plus, ni moins : • pas moins, car oublier une variable pertinente c’est se heurter à l’objection de la variable manquante qui vient fausser l’estimation des effets des autres variables. Ce qui précède a pu persuader de l’importance du problème. • pas plus, car ce serait demander trop des données existantes que de permettre d’identifier simultanément les effets de dizaines de variables à partir de configurations existantes 21 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN forcément en nombre limité. En particulier, quand deux variables visent le même concept ou semblent étroitement liées, on n’introduira que l’une des deux dans le modèle1 : par exemple, on choisira soit NIVEAUVI, soit RICHESSE (toutes les deux sont des indicateurs du niveau de vie, en se référant à la possession ou non de respectivement 3 et 13 objets). Concrètement, le modèle se présente comme une grande équation où figurent, à gauche, la progression à expliquer, et à droites les variables explicatives : score initial (pour tenir compte des effets de rappel ou de régression à la moyenne), variables contextuelles et variables de politique éducative. Il faut ici mettre en évidence deux logiques complémentaires dans l'élaboration des modèles statistiques. L'objectif de ces modèles est d'expliquer au mieux la réalité, donc on choisira, après les avoir testées, les variables qui apporteront le plus au pouvoir explicatif du modèle. Toutefois, une variable qui n'a pas d'effet significatif peut également s'avérer intéressante en matière de politique éducative. Par exemple, le fait que l'électricité n'ait pas d'impact sur les apprentissages des élèves permettrait aux décideurs de ne pas prendre prioritairement des mesures en faveur de l'électrification des écoles mais plutôt par exemple en faveur de la dotation en manuels scolaires. L'élaboration d'un modèle est toujours une alchimie complexe qui repose sur le contexte éducatif, l'expérience du modélisateur et aussi sur les éléments mis en évidence dans les analyses descriptives et bivariées. Nous allons, sur la base des données utilisées lors de l'atelier, procéder par étape pour construire de façon simplifiée un modèle. Tout d'abord, nous allons mettre en relation le score de fin d'année avec le score de début d'année. L'instruction pour faire une régression multiple (moindres carrés ordinaires) sous STATA est regress. . regress SFIN2FM SINI2FM Source | SS df MS -------------+-----------------------------Model | 188953.812 1 188953.812 Residual | 323065.468 2048 157.74681 -------------+-----------------------------Total | 512019.28 2049 249.887399 Number of obs F( 1, 2048) Prob > F R-squared Adj R-squared Root MSE = 2050 = 1197.83 = 0.0000 = 0.3690 = 0.3687 = 12.56 -----------------------------------------------------------------------------SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .9827303 .0283947 34.61 0.000 .9270448 1.038416 _cons | 19.94325 .6378465 31.27 0.000 18.69235 21.19414 ------------------------------------------------------------------------------ Nous allons nous limiter aux principales statistiques pour l'interprétation du modèle. La statistique F teste l'hypothèse que tous les coefficients du modèle à l'exception de la constante (_cons) sont nuls, elle est rejetée ici. 22 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Le R² (R-squared) indique le pourcentage de variance expliquée par le modèle, c'est-à-dire en quelque sorte la capacité du modèle à expliquer la réalité. Évidemment, plus le R² est élevé et plus le modèle est performant. Toutefois, dans les sciences sociales, et en éducation en particulier, il et extrêmement rare de voir un R² dépasser 60%, habituellement il oscille entre 35 et 50%. On constate ici que le score de début d'année permet d'expliquer à lui tout seul 36% de la variance totale, ce qui souligne l'importance du niveau initial dans les performances en fin d'année scolaire. Le R² ajusté (Adj R-squared) tient compte des degrés de liberté et constitue une mesure plus précise. Dans le tableau de la régression à proprement parler, en haut à gauche apparaît la variable qu'on cherche à expliquer (SFIN2FM). En dessous, la ou les variables explicatives et la constante. Ici il n'y a que SINI2FM comme variable explicative, concrètement on essaie d'expliquer le score de fin d'année par le score de début d'année. A chaque variable est associé un coefficient (coef) qui donne l'impact de la variable explicative sur la variable Par exemple ici, 1 point au test de début d'année (SINI2FM) se traduit par 0.98 point au test de fin d'année (SFIN2FM)5. Nous avons également pour chaque variable son erreur type, son t de Student qui nous permet de savoir quelle confiance accordée au coefficient. Si P>|t|>0.1 alors on dira que le coefficient n'est pas significatif dans le cas contraire il sera accepté. Pour SINI2FM, on a moins d'une chance sur 1000 de se tromper en disant que son coefficient est compris entre 0.9270448 et 1.038416. Le coefficient est une valeur moyenne de cet intervalle. Nous allons maintenant introduire les variables relatives aux caractéristiques des élèves. . regress SFIN2FM SINI2FM FILLE AGE NIVEAUVI REDAN1 REDAN2 > */ LIV_FRMT DOMFRANC DEJEUNER Source | SS df MS -------------+-----------------------------Model | 200196.552 9 22244.0614 Residual | 311822.728 2040 152.854278 -------------+-----------------------------Total | 512019.28 2049 249.887399 /* Number of obs F( 9, 2040) Prob > F R-squared Adj R-squared Root MSE = = = = = = 2050 145.52 0.0000 0.3910 0.3883 12.363 -----------------------------------------------------------------------------SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .962629 .0287136 33.53 0.000 .9063181 1.01894 FILLE | .0511239 .5561565 0.09 0.927 -1.03957 1.141818 AGE | -.7635738 .2430641 -3.14 0.002 -1.240253 -.2868941 NIVEAUVI | -.053223 .3495853 -0.15 0.879 -.7388043 .6323584 REDAN1 | -3.521028 .5959858 -5.91 0.000 -4.689832 -2.352224 REDAN2 | -1.339725 .7203779 -1.86 0.063 -2.752478 .0730282 LIV_FRMT | .4793911 .6273132 0.76 0.445 -.75085 1.709632 DOMFRANC | 1.212396 .5879468 2.06 0.039 .0593573 2.365434 DEJEUNER | 1.397127 .884923 1.58 0.115 -.3383202 3.132573 _cons | 25.80326 2.254691 11.44 0.000 21.38152 30.22499 5 Les deux scores ne portent pas sur la même échelle. Habituellement, on standardise les scores pour réaliser les régressions. 23 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Nous avons mis en gras les variables qui ont un effet significatif sur le score de fin d'année. Par exemple, les élèves qui ont redoublé leur première année (REDAN1) ont en moyenne 3.5 points de moins que leurs camarades et ce corrigé du niveau initial. Il faut être prudent à ce stade car beaucoup de variables restent à introduire, il y a donc des variables omises qui peuvent influencer les estimations des coefficients. L'intérêt de procéder par étape est de tester différentes variables et sélectionnées celles qui s'avèrent les plus intéressantes pour chaque catégorie de variables. On peut remarquer que le R² progresse d'à peine 2% par rapport au modèle précédent, ce qui est modeste. Introduisons à présent les variables relatives à l'enseignant. . regress SFIN2FM SINI2FM MAITRFEM DIPCYCLB NIVCYCLB FPI6M FPI1AN FPI1ANPL Source | SS df MS -------------+-----------------------------Model | 196961.665 7 28137.3808 Residual | 315057.615 2042 154.288744 -------------+-----------------------------Total | 512019.28 2049 249.887399 Number of obs F( 7, 2042) Prob > F R-squared Adj R-squared Root MSE = = = = = = 2050 182.37 0.0000 0.3847 0.3826 12.421 -----------------------------------------------------------------------------SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .9708531 .0287939 33.72 0.000 .9143847 1.027322 MAITRFEM | 1.801501 .6155169 2.93 0.003 .5943946 3.008607 DIPCYCLB | -.8231398 1.048584 -0.79 0.433 -2.879545 1.233266 NIVCYCLB | .0217694 .7124399 0.03 0.976 -1.375415 1.418954 FPI6M | 6.248291 1.604998 3.89 0.000 3.100687 9.395895 FPI1AN | -1.527851 .7718407 -1.98 0.048 -3.041528 -.0141742 FPI1ANPL | -1.999932 1.045883 -1.91 0.056 -4.05104 .0511757 _cons | 21.02862 .9372526 22.44 0.000 19.19055 22.86669 ------------------------------------------------------------------------------ Encore une fois le gain de R² est assez modéré. On observe que les élèves des enseignants qui ont suivi 6 mois de formations professionnelles ont en moyenne 6 points de plus que ceux qui ont trois mois ou moins de formation professionnelle, en revanche les enseignants qui ont 1 an ou plus de formation professionnelle enregistre de moins bons résultats (-1.52 et -1.99). Voyons maintenant les caractéristiques de la classe. . regress SFIN2FM SINI2FM DOUBLFLX MULTIGRA TCLASSE ELECLASS Source | SS df MS -------------+-----------------------------Model | 193723.107 5 38744.6214 Residual | 318296.173 2044 155.722198 -------------+-----------------------------Total | 512019.28 2049 249.887399 Number of obs F( 5, 2044) Prob > F R-squared Adj R-squared Root MSE = = = = = = 2050 248.81 0.0000 0.3784 0.3768 12.479 ------------------------------------------------------------------------------ 24 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .9834781 .0293401 33.52 0.000 .9259384 1.041018 DOUBLFLX | -.1863239 .9915355 -0.19 0.851 -2.130849 1.758201 MULTIGRA | -5.710903 1.717185 -3.33 0.001 -9.078518 -2.343289 TCLASSE | -.099493 .022565 -4.41 0.000 -.1437457 -.0552403 ELECLASS | -.5826906 .6724499 -0.87 0.386 -1.901449 .7360678 _cons | 24.46069 1.161748 21.06 0.000 22.18236 26.73903 ------------------------------------------------------------------------------ On constate un impact négatif très marqué du multigrade et très modéré de la taille de classe. La contribution au R² est d'à peine plus de 1%. En ce qui concerne les caractéristiques de l'école nous nous sommes limités ici à la zone géographique où est située l'école. . regress SFIN2FM SINI2FM RURAL Source | SS df MS -------------+-----------------------------Model | 191084.478 2 95542.239 Residual | 320934.802 2047 156.783001 -------------+-----------------------------Total | 512019.28 2049 249.887399 Number of obs F( 2, 2047) Prob > F R-squared Adj R-squared Root MSE = = = = = = 2050 609.39 0.0000 0.3732 0.3726 12.521 -----------------------------------------------------------------------------SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .9683873 .0285739 33.89 0.000 .9123503 1.024424 RURAL | -2.065765 .5603674 -3.69 0.000 -3.164715 -.9668158 _cons | 21.35494 .7422976 28.77 0.000 19.8992 22.81068 ------------------------------------------------------------------------------ On constate un effet négatif assez marqué de la zone rural sur le score de fin d'année. La contribution au R² demeure très modeste. Dans le modèle qui suit nous avons intégré toutes les variables précédentes. On observe que le R² est de l'ordre de 0.41 ce qui signifie que toutes les variables ajoutées au score initiale ne contribue à expliquer qu'à peine 5% de la variance totale. Par ailleurs, un certain nombre de résultats se confirment comme l'impact négatif du redoublement ou encore les impacts des différentes catégories de formation professionnelle. Ce qu’il convient de faire à partir de ce modèle global, c’est vérifier simplement qu’il n’y a pas de problème technique. Si le coefficient d’une variable semble contre-intuitif, on va vérifier la construction de cette variable, voir si son effet peut vraiment être identifié (par exemple, si on a introduit l’âge du maître et son expérience et qu’on a trouvé un effet très négatif à l’expérience et très positif à l’âge, cela peut signifier que les données n’ont pas vraiment permis d’identifier séparément les deux effets, et donnent des résultats sans signification. Dans ce cas, on ôtera la variable âge, pour garder seulement la variable 25 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN expérience). On peut également vérifier que les différentes catégories distinguées reposent sur un nombre suffisant d’observations : si une catégorie n’est représentée que par moins de cinq classes, l’effet correspond peut-être à des traits particuliers de ces cinq classes, comme par exemple à un charisme spécifique de leurs maîtres,... Le but, en tout cas, n’est pas d’introduire n’importe quelle variable pour maximiser le pouvoir prédictif du modèle (le fameux R²)1. Le but est de bien tester un modèle raisonnable de prédiction de la progression des élèves. . > > > regress SFIN2FM SINI2FM FILLE AGE NIVEAUVI REDAN1 REDAN2 /* */ LIV_FRMT DOMFRANC DEJEUNER MAITRFEM DIPCYCLB NIVCYCLB /* */ FPI6M FPI1AN FPI1ANPL DOUBLFLX MULTIGRA TCLASSE ELECLASS /* */ RURAL Source | SS df MS -------------+-----------------------------Model | 215468.455 20 10773.4228 Residual | 296550.825 2029 146.156148 -------------+-----------------------------Total | 512019.28 2049 249.887399 Number of obs F( 20, 2029) Prob > F R-squared Adj R-squared Root MSE = = = = = = 2050 73.71 0.0000 0.4208 0.4151 12.09 -----------------------------------------------------------------------------SFIN2FM | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------SINI2FM | .9552138 .0292651 32.64 0.000 .8978209 1.012607 FILLE | .0383967 .5461429 0.07 0.944 -1.032663 1.109456 AGE | -.52071 .243631 -2.14 0.033 -.998503 -.0429171 NIVEAUVI | -.3283186 .3744636 -0.88 0.381 -1.062692 .4060546 REDAN1 | -3.508406 .5857854 -5.99 0.000 -4.65721 -2.359603 REDAN2 | -1.245231 .7066829 -1.76 0.078 -2.631131 .1406683 LIV_FRMT | .236453 .6279555 0.38 0.707 -.9950518 1.467958 DOMFRANC | 1.42503 .588969 2.42 0.016 .269983 2.580077 DEJEUNER | 1.031735 .8819586 1.17 0.242 -.6979041 2.761374 MAITRFEM | .9726893 .662869 1.47 0.142 -.3272856 2.272664 DIPCYCLB | .4759906 1.045361 0.46 0.649 -1.574103 2.526084 NIVCYCLB | .5775568 .721991 0.80 0.424 -.8383642 1.993478 FPI6M | 3.853866 1.618837 2.38 0.017 .679109 7.028623 FPI1AN | -2.556298 .7823225 -3.27 0.001 -4.090537 -1.022059 FPI1ANPL | -3.124204 1.048237 -2.98 0.003 -5.179936 -1.068471 DOUBLFLX | -1.545527 1.06358 -1.45 0.146 -3.63135 .5402965 MULTIGRA | -4.78164 1.705509 -2.80 0.005 -8.126372 -1.436909 TCLASSE | -.1563792 .0247279 -6.32 0.000 -.2048739 -.1078845 ELECLASS | -2.173697 .7583367 -2.87 0.004 -3.660897 -.6864973 RURAL | -3.484884 .7541777 -4.62 0.000 -4.963928 -2.005841 _cons | 35.35942 2.622643 13.48 0.000 30.21606 40.50277 ------------------------------------------------------------------------------ Quand on s'est assuré que le modèle statistique est suffisamment fiable6, il reste la redoutable tâche de l'interprétation. 6 Il existe tout un ensemble de tests pour analyser les résultats d'une régression. 26 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN Un piège est de confondre le concept et une application du concept. Par exemple ici, on observe un effet négatif marqué des classes à multigrades (MULTIGRA), on pourrait conclure abusivement qu'il faut éviter le multigrade. Pourtant dans d'autres pays le multigrade s'est avéré plutôt efficace, il vaudrait donc mieux s'interroger sur la façon dont s'organise le multigrade dans le pays en question. Il est indispensable d'avoir du recul et une réflexion sur les effets mesurés sinon on risque des interprétations un peu rapides. Prenons le cas plus sensible de la formation professionnelle, on constate que les formations professionnelles de 1 an et de plus d'un an ont des impacts négatifs. On peut alors dire que ce type de formation n'est pas pertinent, mais faut-il en conclure qu'on peut se contenter de formation de courte durée ou au contraire faut-il penser qu'il est nécessaire de revoir complètement le contenu et l'organisation de ces formations ? Deux interprétations assez différentes pour leurs conséquences sur la politique éducative. C'est la seconde qui nous paraît la plus raisonnable. On voit donc qu'outre la dimension technique de l'élaboration des modèles, leur interprétation est un exercice délicat qui doit toujours s'effectuer en partenariat avec des acteurs du système éducatif national qui seront à même de donner des éclairages sur certains résultats. Conclusion Nous n'avons ici qu'effleuré une méthode d'analyse des données d'enquête sur les acquisitions scolaires car il s'agit d'un champ très vaste où techniques statistiques et connaissance des systèmes éducatifs vont de pair. Notre principal objectif ici était de sensibiliser les participants de l'atelier à des outils statistiques performants permettant d'avoir une meilleure compréhension des phénomènes scolaires. Si on a pu convaincre que les statistiques ne sont pas que des chiffres mais qu'elles constituent un moyen, certes imparfait, d'appréhender la réalité scolaire alors cet objectif aura été atteint. Un autre objectif est qu'un certain nombre d'outils présentés ici puisse être réutilisé par les participants dans leurs activités quotidiennes dans leurs ministères respectifs. La question leur sera posée lors du prochain atelier. 27 Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN . Liste des variables du fichier analyse : Variables de score : • • • • • • • • Le score initial de français : Le score initial de mathématiques : Le score initial global (français+mathématiques) : Le score final de français : Le score final de mathématiques : Le score final global (français+mathématiques) : L'élève a redoublé la première année L’élève a redoublé la deuxième année SINI2F SINI2M SINI2FM SFIN2F SFIN2M SFIN2FM REDAN1 REDAN2 Variables extra-scolaires : • • • • • • • Age de l'élève : Si le niveau de vie de sa famille est relativement élevé7 ; Si l’élève mange un repas le midi ; Si l’élève reçoit une aide pour ses devoirs à la maison ; Si on parle français au domicile de l’élève ; Si l’élève est une fille ; Si l’élève vit en milieu rural. AGE NIVEAUVI DEJEUNER AIDE DOMFRANC FILLE RURAL Variables scolaires : • • • • • • • • • • • • • • Si l’élève possède un livre de français ; Si l’élève possède livre de mathématiques et livre de français ; Si le maître est une femme ; Si le maître a suivi au moins une année de lycée ; Si le maître est titulaire du baccalauréat ; Si le maître a reçu un à trois mois de formation prof. initiale, ou six mois, ou un an, ou plus d’un an ; Si la classe est à simple flux : Si la classe est à double flux ; Si la classe est multigrade ; Le nombre d’élèves dans la classe ; Si la classe a l’électricité. 7 LIV_FR_1 LIV_FRMT MAITRFEM NIVCYCLB DIPCYCLB FPI1_3M FPI6M FPI1AN FPI1ANPL SIMPLFLX DOUBLFLX MULTIGRA TCLASSE ELECLASS On a choisi comme critère de niveau de vie le nombre d’objets présents à la maison parmi trois : vidéo, réfrigérateur et voiture. NIVEAUVI peut donc prendre les valeurs 0, 1, 2 ou 3. 28