Initiation à l`analyse statistique des données PASEC sous le logiciel

Transcription

Initiation à l`analyse statistique des données PASEC sous le logiciel
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Initiation à l'analyse statistique des données PASEC sous le logiciel STATA
Introduction
Ce document est un support de formation pour un atelier d'une durée de 4 jours réalisé lors de
l'atelier international du PASEC de Douala en décembre 2003. Une durée aussi courte ne peut
pas amener à une maîtrise du logiciel et des méthodes d'analyse. L'objectif est autre, il s'agit,
d'une part, de sensibiliser les participants à l'importance de l'analyse statistique en se fondant
sur des applications concrètes ayant trait au processus d'apprentissage et, d'autre part, donner
quelques clés sur les techniques d'analyse et l'interprétation des résultats.
Il est toujours délicat d'approcher pour la première fois un domaine qui nécessite à la fois
l'utilisation d'un logiciel spécifique et le recours aux techniques d'analyse statistique. Le
risque alors peut être de faire une formation axée sur la maîtrise du logiciel en rendant l'aspect
analyse accessoire ou inversement de faire une formation centrée sur l'analyse statistique en
oubliant l'aspect pratique de la manipulation du logiciel. La méthode adoptée ici tente
d'échapper à ces deux travers en utilisant comme fil conducteur la démarche d'analyse utilisée
dans le cadre des évaluations PASEC, ce qui permet une découverte progressive du logiciel et
des techniques statistiques tout en les associant à des problématiques spécifiques à l'analyse
du processus d'apprentissage scolaire.
Dans un premier temps, une brève présentation du logiciel est réalisée afin de connaître les
principes élémentaires de son utilisation. Ensuite, la plupart des fichiers de données n'étant
pas au format STATA, nous verrons comment importer différents types de fichiers sous
STATA. On verra également comment fusionner des fichiers pour obtenir des fichiers
permettant les analyses. Ces premiers aspects permettront de se familiariser avec la
manipulation du logiciel avant de débuter la phase d'analyse. Nous passerons ensuite à la
phase d'analyse avec une progression allant de l'analyse descriptive à l'analyse multivariée en
passant par l'analyse bivariée.
1) Présentation du logiciel STATA1
STATA est un logiciel réputé pour ses multiples fonctions de traitement des données et
d’analyse statistique. Il dispose également d’un langage de programmation aisé et convivial.
1.1- Les types de fichiers sous STATA
Nous distinguons ici trois types de fichiers : ce sont les fichiers de données, les fichiers
programmes et les fichiers de résultats. L’extension des fichiers dépend du type. S’il s’agit
1
Les commandes et les procédés de traitement des données présentés dans ce document sont ceux disponibles sous STATA
version 7.0.
1
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
d’un fichier de données, il porte l’extension .dta ; les fichiers programmes2 ont l’extension
.do et les fichiers de résultat ont l’extension .log.
1.2- Les fenêtres de travail
Au démarrage, l’interface de STATA laisse apparaître quatre fenêtres. A partir de ces
fenêtres, on peut exécuter les travaux désirés. Si on veut automatiser le travail par un
programme, il faut faire appel à la fenêtre d’édition des programmes encore appelée STATA
do-file editor. Le graphiques 3 suivant présente l’interface de STATA et la fenêtre d’édition
des programmes.
Graphique 2 : Interface de STATA
Vers STATA Do-file Editor
Interface de STATA
1
Editeur de programmes STATA
3
4
2
La fenêtre 1 (Variable) est celle dans laquelle s’affichent les noms des variables lorsqu’on
charge un fichier de données. La fenêtre 2 (Stata command) est celle dans laquelle on tape les
lignes de commandes que STATA doit exécuter. Si une commande est demandée, le résultat
de son exécution s’affiche dans la fenêtre 3 (Stata results). La fenêtre 4 (Review) garde en
rappel les dernières commandes exécutées.
En plus de certaines icônes existant déjà sous office, STATA possède d’autres icônes dont les
fonctionnalités sont présentées dans le tableau suivant :
Icônes
Fonctions
Visualiser les données chargées en mémoire
2
Sous STATA, il existe des fichiers de programme d'extension .ado, mais le traitement des données tel que mené au PASEC
peut se passer de ce type de fichier.
2
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Modifier les données chargées en mémoire
Ouvrir la fenêtre d’édition des programmes (Stata Do-file Editor)
Exécuter le programme courant ou la partie de programme sélectionnée
Interrompre l’exécution d’un programme en cours
1.3- Quelques opérateurs logiques et arithmétiques sous STATA
Les paragraphes précédents ont présenté l’interface de STATA. Le tableau suivant rend
compte de quelques opérateurs logiques et arithmétiques qui peuvent être utilisés.
Opérateurs
=
==
~=
!=
+
*
/
<
>
<=
>=
&
|
Rôle
Opérateur d’égalité d’expression. Il est surtout utilisé lors des calculs ou lors
de la création de variables.
Test d’égalité entre une expression et une valeur. Il est utilisé lors des
comparaisons
Différence
Différence
Addition
Soustraction
Multiplication
Division
Inférieur
Supérieur
Inférieur ou égal
Supérieur ou égal
Et
Ou
1.4- Les programmes STATA et la création d’un fichier de résultat
Pour écrire un programme STATA, il faut se placer dans la fenêtre d'édition de programme
(STATA do-file editor). L'enregistrement du programme créera un fichier avec une extension
.do.
Il est souhaitable de commencer chaque programme STATA par un commentaire de ce que
fait le programme. Sous STATA, les commentaires sont insérés entre les symboles /* et */.
Par exemple, ainsi :
/* Ceci est un commentaire */
ou
/*--- Ceci est un commentaire ---*/
Tout ce qui apparaît entre les symboles /* et */ n’est pas considéré comme une commande par
STATA, mais comme un commentaire.
3
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Il est possible, et souhaitable, de demander à STATA de sauvegarder les résultats d’exécution
d’un programme dans un fichier d’extension .log que l’on pourra ensuite lire avec les logiciels
Bloc note, Worpad ou Word. Pour cela, il faut insérer la ligne de commande suivante à
l’endroit à partir duquel on voudrait que les résultats soient sauvegardés (de préférence au tout
début du programme) :
log using C:\nomfichier3.log, replace
A la fin de la partie du programme dont on souhaite sauvegarder les résultats (généralement
en fin de programme), taper la ligne de commande suivante qui permet à STATA de créer le
fichier :
log close
Pour des raisons de cohérence et afin de faciliter la recherche ultérieure des fichiers, il est
recommandé de donner des noms similaires aux fichiers de données(.dta), de programme (.do)
et d'exécution de résultats (.log).
2) L'utilisation et la manipulation des fichiers sous STATA
Dans la mesure où l'utilisation courante de STATA nécessite la manipulation de fichiers issus
d'autres logiciels comme Excel ou Access, nous avons jugé opportun ici de présenter les
modalités d'importation de fichiers et de fusion des fichiers.
2.1 L'importation de fichiers
Il est fondamental de comprendre que l'importation des fichiers sous STATA dépend des
séparateurs qui sont utilisés dans le fichier source. Nous allons passer ici en revue les plus
fréquents. Toutes les instructions utilisées dans cette partie sont consignées en annexe et
correspondent au fichier initiation.do.
•
Importation de fichiers au format texte où les variables sont séparées par des virgules ou
par des espaces. Ce type de format peut être obtenu par exemple en exportant un fichier
Access en fichier texte, dans ce cas préférez les virgules comme séparateurs car elles sont
moins source d'erreurs que les espaces. Pour l'importation, il faut alors utiliser la
commande suivante basée sur l'exemple utilisé lors de l'atelier :
infile
*/
*/
*/
*/
3
NUMECOLE
CM2QE__A
CM2QE__H
CM2QE__O
CM2QE__V
NUMCLASS NUMELEVE
CM2QE__B CM2QE__C CM2QE__D
CM2QE__I CM2QE__J CM2QE__K
CM2QE__P CM2QE__Q CM2QE__R
CM2QE__W CM2QE__X CM2QE__Y
CM2QE__E
CM2QE__L
CM2QE__S
CM2QE__Z
CM2QE__F
CM2QE__M
CM2QE__T
CM2QE_AA
Il s’agit ici de spécifier le chemin où STATA doit sauvegarder le fichier et le nom de ce fichier.
4
CM2QE__G
CM2QE__N
CM2QE__U
CM2QE_AB
/*
/*
/*
/*
/*
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
*/
CM2QE_AC CM2QE_AD CM2QE_AE CM2QE_AF CM2QE_AG CM2QE_AH CM2QE_AI /*
*/
CM2QE_AJ CM2QE_AK CM2QE_AL CM2QE_AM CM2QE_AN CM2QE_AO CM2QE_AP /*
*/
CM2QE_AQ CM2QE_AR CM2QE_AS CM2QE_AT CM2QE_AU CM2QE_AV CM2QE_AW /*
*/
CM2QE_AX
/*
*/ using c:\pasec\2QE.txt
/* Où le fichier 2QE.txt est un fichier texte utilisant comme séparateur
la virgule */
Il faut signaler qu'après la commande infile il est nécessaire d'introduire tous les noms de
variables du fichier source sans quoi l'importation sera incorrecte. Après toute
importation, il est indispensable de vérifier que le fichier importé correspond bien au
fichier source. Pour cela, le plus simple est de parcourir les données par l'intermédiaire de
l'éditeur de données ( data browser). Cela permet de repérer rapidement les problèmes
grossiers d'une importation ratée, toutefois il est préférable de procéder à un contrôle plus
systématique en ayant recours à l'instruction codebook qui permet de décrire les variables.
Exemple :
codebook NUMECOLE
NUMECOLE
(unlabeled)
---------------------------------------------------------type:
range:
unique values:
mean:
std. dev:
percentiles:
numeric (float)
[1,120]
115
units:
coded missing:
1
0 / 2610
60.4824
34.0263
10%
11
25%
33
50%
60
75%
89
90%
108
Cette commande permet de décrire la variable, ici le numéro de l'école. Le type nous
indique qu'il s'agit d'une variable numérique (numeric), range nous indique que la variable
prend des valeurs comprises entre 1 et 120 avec comme unité 1. Unique values nous
informe qu'il y a 115 valeurs uniques c'est-à-dire 115 numéros écoles. Mean correspond à
la moyenne et std. dev à l'écart type utile pour la description de variables continues
comme les scores mais sans grand intérêt ici pour décrire les numéros d'école. Enfin,
percentiles décrit la répartition de la population, là encore sans beaucoup d'intérêt pour
cette variable.
•
Importation de fichiers Excel
La première façon de procéder est d'enregistrer le fichier Excel en format texte (.txt) en
choisissant les tabulations comme séparateurs. On utilisera alors l'instruction insheet.
insheet using c:\PASEC\enseignants.txt, clear
5
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
(200 vars, 4028 obs)
Après l'exécution de la commande, STATA nous indique que le fichier importé comporte
200 variables et 4028 observations, or le fichier d'origine comprend 8 variables et 499
observations.
Si on effectue un codebook sur la variable identifiant, on observe les résultats suivants.
identifiant ------------------------------------------------------type: numeric (long)
range: [110011,450121]
unique values: 499
mean:
std. dev:
percentiles:
units: 1
coded missing: 3529 / 4028
324230
128068
10%
110581
25%
210131
50%
410383
75%
430051
90%
440691
Au lieu d'avoir 499 observations comme dans le fichier d'origine, on en a 4028 dont 3529
sont des valeurs manquantes. En fait, on a importé l'ensemble de la feuille Excel avec
toutes les lignes et toutes les colonnes et pas seulement celles renseignées.
Cet exemple illustre la nécessité de contrôler systématiquement le résultat des
importations. Par ailleurs, cela nous donne l'occasion de voir comment se débarrasser
d'observations et de variables indésirables. Pour cela il est indispensable d'identifier
précisément les observations et les variables à éliminer. En ce qui concerne les variables,
on observe dans la fenêtre variables que STATA a créé des variables v9 à v200 en plus
des variables initiales. C'est en effet une des fonctionnalités de la commande insheet que
d'affecter des noms de variables s'il n'y en a pas. En l'occurrence ici, cela se révèle
inapproprié et nous allons utiliser la commande drop pour nous débarrasser de ces
variables.
drop v*
Par cette instruction STATA va éliminer toutes les variables commençant par v. Pour ce
qui est des observations en trop, elles correspondent à des valeurs manquantes. Il faut
donc s'appuyer sur une variable qui n'a pas de valeurs manquantes comme c'est le cas de
la variable identifiant.
drop if identifiant==.
describe
Contains data
obs:
vars:
499
8
6
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
size:
7,485 (99.9% of memory free)
-----------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
-----------------------------------------------------------------------identifiant
long
%12.0g
IDENTIFIANT
enstot
byte
%8.0g
ENSTOT
nbinst
byte
%8.0g
NBINST
nbadj
byte
%8.0g
NBADJ
nbmon
byte
%8.0g
NBMON
nbsup
byte
%8.0g
NBSUP
enshom
byte
%8.0g
ENSHOM
ensfem
byte
%8.0g
ENSFEM
-----------------------------------------------------------------------Sorted by: identifiant
On constate qu'il n'y a plus que 499 observations et 8 variables comme on le souhaitait.
Il existe une autre façon plus simple d'importer des données d'Excel à STATA, il s'agit du
copier coller de windows. Il suffit de copier sous EXCEL les données qu'on souhaite
importer puis d'aller les coller dans l'éditeur de données de STATA :
Il faut être particulièrement vigilant avec cette méthode "manuelle" car une ligne ou une
colonne est vite oubliée.
Une autre façon d'importer ou d'exporter des fichiers vers STATA, ou d'autres logiciels,
est d'avoir recours à un logiciel de transfert comme STAT/ Transfer. Ces logiciels sont
très performants et simples d'usage mais cela implique l'achat du logiciel.
7
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
2.2 La fusion de fichiers
La fusion de fichiers est un aspect essentiel car incontournable pour créer des fichiers de
données propres à l'analyse. En effet, dans la plupart des cas, il est nécessaire de réunir des
informations issues de différentes sources. Dans le cas des données PASEC, nous avons des
données de niveau élève, de niveau classe et de niveau école. Il est important de comprendre
ici que nous sommes confrontés à des données hiérarchiques au sens où les élèves sont dans
une classe qui elle-même est dans une école. Ainsi, tous les élèves de la classe N auront les
caractéristiques de cette classe et de leur école.
Deux principes doivent être connus pour fusionner des fichiers :
•
•
il est nécessaire que les fichiers possèdent une ou des variable(s) d'identification
commune(s). On comprend en effet que pour que les informations relatives à une école
soient affectées aux élèves de cette même école, il est indispensable que l'identification de
l'école soit la même dans les deux fichiers. Si l'école n°20 dans le fichier école a un autre
numéro dans le fichier élève, on ne pourra réaliser la fusion ;
Les fichiers doivent être triés en fonction de la ou des variables d'identification
commune(s) afin de permettre la fusion
Exemple : nous souhaitons fusionner les fichiers eleves.dta et classes.dta. La variable
d'identification commune est NUMECOLE.
Dans un premier temps on trie le fichier (instruction sort) classes.dta en fonction de la
variable NUMECOLE :
use C:\PASEC\classes.dta
sort NUMECOLE
save C:\PASEC\classes.dta, replace
On peut ensuite vérifier dans l'éditeur de données que le fichier a été classé en fonction de la
variable NUMECOLE par ordre croissant.
Dans un second temps, on procède à la fusion avec la syntaxe suivante :
use C:\PASEC\eleves.dta
sort NUMECOLE NUMELEVE
merge NUMECOLE using C:\PASEC\classes.dta
Ici, après avoir ouvert le fichier eleves.dta, puis l'avoir trié (sort) on le fusionne (merge) sur la
base de la variable NUMECOLE avec le fichier classes.dta.
Quand on fusionne deux fichiers, il y a toujours un risque que certaines observations ne soient
pas communes aux deux fichiers. Pour permettre de vérifier comment s’est déroulée la fusion,
STATA crée une variable : _merge.
8
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
. codebook
_merge
(unlabeled)
_merge
-----------------------------------------------------------type:
numeric (byte)
range:
unique values:
[1,3]
3
tabulation:
Freq.
1
1
2306
units:
coded missing:
1
0 / 2308
Value
1
2
3
Comme l’illustre notre exemple, la variable _merge peut prendre trois valeurs : 1, 2 et 3. La
valeur 1 indique qu’il s’agit d’une observation présente dans le premier fichier apparaissant
dans l’instruction de fusion, c'est-à-dire pour nous le fichier eleves.dta. La valeur 2 quant à
elle révèle que l’observation appartient au fichier classes.dta. Enfin, la valeur 3 correspond
aux observations présentent dans les deux fichiers eleves.dta et classes.dta. Pour les analyses
que nous voulons réaliser, il nous faut à la fois les informations relatives aux élèves mais aussi
aux classes. Il faut ici attirer l’attention sur le fait que lorsqu’on perd les informations
relatives à la classe ou à l’école, tous les élèves qui étaient dans la classe sont perdus pour
l’analyse faute d’informations. Voilà pourquoi les questionnaires contextuels (élèves, maîtres
et directeurs) doivent faire l’objet d’une grande attention dans la phase de collecte des
données.
Ici les observations dont les valeurs de _merge sont différentes de 3 sont donc inutiles pour
l’analyse, nous allons nous en débarrasser.
drop if _merge!=3
On peut alors se débarrasser de la variable _merge désormais inutile.
drop _merge
Il faut ensuite sauvegarder le nouveau fichier créé suite à la fusion des deux fichiers, nous
l’appellerons analyse.
save C:\PASEC\analyse.dta"
Nous avons maintenant un fichier avec les informations nécessaires pour mener des analyses
sur les acquis scolaires des élèves.
3) L'analyse statistique des données PASEC sous STATA
9
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Il n’est pas inutile de rappeler ici que la quasi totalité des traitements que nous allons réaliser
ici peuvent être effectuer avec d’autres logiciels statistiques et ne sont pas spécifiques à
STATA. Si la syntaxe diffèrera selon les logiciels la démarche d’analyse reste identique.
Nous ne pourrons pas ici voir de façon très détaillée le processus d’analyse, nous verrons les
principales étapes afin d’éclairer la démarche d’analyse préconisée, toutefois une présentation
plus complète est fournie dans le chapitre 7 du guide pour l'évaluation des facteurs de
performance à l'école primaire : manuel pratique d'évaluation que nous joignons en annexe.
L’objectif des analyses réalisées dans le cadre du PASEC est d’identifier les déterminants des
apprentissages et leurs poids respectifs. Il s’agit donc in fine de mener une analyse causale qui
repose sur une analyse statistique multivariée. Cependant, il y a plusieurs étapes avant
d’aboutir à l’analyse causale proprement dite. Nous mettrons ici l’accent sur les analyses
descriptives et bivariées qui sont parties intégrante du processus d’analyse.
3.1 Le type de variables
Avant de rentrer dans le processus d’analyse, il est nécessaire de considérer les catégories de
variables existantes dans la mesure où elles se traitent de façon différente. On considère
classiquement deux catégories de variables.
• Les variables discrètes ou qualitatives : elles fournissent une information sur une
caractéristique donnée comme le genre, le niveau de vie, la possession de manuels
scolaires. On distingue les variables dichotomiques qui prennent seulement deux valeurs
et les variables polytomiques qui prennent plus de deux valeurs. Par exemple, dans notre
fichier nous avons la variable FILLE qui prend la valeur 0 quand l’élève est un garçon et 1
quand c’est une fille, il s’agit d’une variable dichotomique. Par contre, la variable
NIVEAUVI, qui décrit le niveau de vie de la famille de l’élève, prend quatre valeurs 0, 1,
2 ou 3.
• Les variables continues ou quantitatives : elles permettent de mesurer une grandeur
comme une score à un test, l’âge, le nombre d’années d’expérience professionnelle, etc.
Elles prennent généralement un grand nombre de valeurs.
Selon qu’on sera confronté à l’une ou l’autre de ces catégories, les outils d’analyses requis
vont changer.
3.2 La construction des variables
Il s'agit d'une phase essentielle dans le traitement des données pour aboutir au fichier final
d'analyse. Ce n'est pas l'objet de cet atelier que de s'attarder sur cet aspect mais il semble
10
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
indispensable que chacun connaisse les rudiments pour créer une variable afin de pouvoir
éventuellement utiliser le logiciel ultérieurement avec d'autres données4.
• Construction d'une variable à partir d'une variable continue.
On suppose qu'on veut créer une variable dichotomique selon que la classe est composé de
plus de 35 élèves ou non. L'instruction pour créer une variable est generate (gen).
gen TCLASSE35=TCLASSE>35
•
Nous venons de créer une nouvelle variable TCLASSE35, qui prend la valeur 1 s'il y a
plus de 35 élèves dans la classe et 0 dans le cas contraire.
Construction d'une variable à partir d'une variable discrète.
A partir des variables REDAN1 (redoublement de la première année) et REDAN2
(redoublement de la 2ème année) codées 0/1, on veut créer une variable indiquant que
l'élève a déjà redoublé peu importe la classe :
gen REDOU=REDAN1==1|REDAN2==1
Il faut rappeler ici que STATA distingue le signe = ,(affectation d'une valeur) du signe = =
qui correspond à une égalité entre deux valeurs. La nouvelle variable REDOU prend la
valeur 1 quand l'élève a redoublé au moins l'une des classes (1ère ou 2ème année). Si on
veut une variable indiquant que l'élève a redoublé les deux classes, alors on aura :
gen REDOU=REDAN1==1&REDAN2==1
Imaginons maintenant que l'on souhaite créer une variable redoublement qui prenne les
valeurs 0 si l'élève n'a jamais redoublé, 1 si l'élève a redoublé une classe et 2 si l'élève a
redoublé deux classes :
gen REDOU=REDAN1+REDAN2
Avec l'instruction generate, on peut additionner, soustraire, diviser ou multiplier des
variables pour créer d'autres variables. Pour créer les variables de score, on additionne les
variables correspondant à chaque item du test.
Ces exemples sont incomplets mais permettent de se faire une idée sur la façon dont peuvent
se construire les variables sous STATA.
3.3 L’analyse descriptive
Comme son nom l’indique, il s’agit avant tout de décrire les données dont nous disposons.
Elle peut apporter des informations importantes sur la situation du système éducatif quand
l’échantillon dont on dispose est représentatif. Ce type d’analyse peut également soulever
certaines questions de recherche auxquelles l’analyse causale devra répondre.
Nous allons ici présenter quelques exemples sur la façon de procéder, il ne faut toutefois pas
perdre de vue que l’analyse descriptive si elle n’est pas nécessairement exhaustive doit passer
en revue systématiquement l’ensemble des variables d’intérêt pour une étude. Il s’agit d’un
premier questionnement des données.
4
Pour les principes de construction des variables, on se réfèrera au chapitre 7 du guide pour l'évaluation des
facteurs de performance à l'école primaire : manuel pratique d'évaluation que nous joignons en annexe ainsi
qu'au document sur le traitement des données.
11
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
3.3.1 Les variables discrètes
En ce qui concerne les variables discrètes, la description passe par la fréquence de telle ou
telle caractéristique dans la population. On peut, par exemple, s’interroger sur la proportion de
filles parmi les élèves, ou bien la proportion d’élèves vivant en zone rurale ou encore la
proportion d’élèves possédant des manuels scolaires. C’est l’instruction tabulate (ou son
abréviation tab) qui permet de calculer les fréquences.
. tab FILLE
FILLE |
Freq.
Percent
Cum.
------------+----------------------------------0 |
1336
57.94
57.94
1 |
970
42.06
100.00
------------+----------------------------------Total |
2306
100.00
Le tableau précédent nous indique qu’il y a 1336 garçons et 970 filles dans notre échantillon,
ainsi les filles représentent environ 42% des élèves. On peut demander à STATA de faire la
même chose pour plusieurs variable :
. tab1 RURAL LIV_FRMT
-> tabulation of RURAL
RURAL |
Freq.
Percent
Cum.
------------+----------------------------------0 |
1061
46.01
46.01
1 |
1245
53.99
100.00
------------+----------------------------------Total |
2306
100.00
-> tabulation of LIV_FRMT
LIV_FRMT |
Freq.
Percent
Cum.
------------+----------------------------------0 |
653
28.32
28.32
1 |
1653
71.68
100.00
------------+----------------------------------Total |
2306
100.00
On constate que près de 54% des élèves vivent en zone rurale et qu’un peu plus de 71% des
élèves possèdent à la fois un manuel de mathématiques et un manuel de français.
On peut également se poser d’autres questions comme de savoir si la proportion de filles est
identique selon la zone géographique.
. tab FILLE if RURAL==1
12
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
FILLE |
Freq.
Percent
Cum.
------------+----------------------------------0 |
755
60.64
60.64
1 |
490
39.36
100.00
------------+----------------------------------Total |
1245
100.00
. tab FILLE if RURAL==0
FILLE |
Freq.
Percent
Cum.
------------+----------------------------------0 |
581
54.76
54.76
1 |
480
45.24
100.00
------------+----------------------------------Total |
1061
100.00
On observe que les filles représentent seulement 39,36% des élèves en zone rurale contre plus
de 45% en zone urbaine. Une autre façon de faire permet d’obtenir les mêmes informations.
. sort RURAL
. by RURAL : tab FILLE
___________________________________________________________________________
-> RURAL = 0
FILLE |
Freq.
Percent
Cum.
------------+----------------------------------0 |
581
54.76
54.76
1 |
480
45.24
100.00
------------+----------------------------------Total |
1061
100.00
___________________________________________________________________________
-> RURAL = 1
FILLE |
Freq.
Percent
Cum.
------------+----------------------------------0 |
755
60.64
60.64
1 |
490
39.36
100.00
------------+----------------------------------Total |
1245
100.00
Si on veut connaître la proportion de filles parmi les élèves qui sont en zone rurale et qui
possèdent les manuels de français et de mathématiques, on va avoir recours à une double
condition.
. tab FILLE if RURAL==1&LIV_FRMT==1
FILLE |
Freq.
Percent
Cum.
------------+-----------------------------------
13
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
0 |
490
61.33
61.33
1 |
309
38.67
100.00
------------+----------------------------------Total |
799
100.00
Parmi les élèves en zone rurale et qui possèdent les deux manuels, 38,67% sont des filles.
Les exemples que nous avons pris ici ne sont pas anodins et illustrent la nécessité de
questionner les données sur un certain nombre d’aspects importants pour la compréhension du
fonctionnement du système éducatif.
Nous avons eu recours précédemment à ce qu’on appelle dans le jargon technique des tris
simples, on peut obtenir les mêmes informations en utilisant des tris croisés.
. tab FILLE RURAL, row column
|
RURAL
FILLE |
0
1 |
Total
-----------+----------------------+---------0 |
581
755 |
1336
|
43.49
56.51 |
100.00
|
54.76
60.64 |
57.94
-----------+----------------------+---------1 |
480
490 |
970
|
49.48
50.52 |
100.00
|
45.24
39.36 |
42.06
-----------+----------------------+---------Total |
1061
1245 |
2306
|
46.01
53.99 |
100.00
|
100.00
100.00 |
100.00
On observe que le tableau obtenu est assez complexe, on peut le simplifier en ne demandant
que l’une des options row et column selon l’information souhaitée. En colonne nous avons la
variable FILLE qui prend les valeurs 0 et 1, et en ligne la variable RURAL qui prend
également les valeurs 0 et 1. Si on considère la valeur 0 pour la variable FILLE ainsi que pour
la variable RURAL, on constate que 581 élèves sont des garçons en zone urbaine. Ils
représentent 43,49% de l’ensemble des garçons de l’échantillon et 54,76% des élèves de zone
urbaine. Si on regarde les filles en zone rurale, on remarque comme précédemment qu’elles
sont 490, qu’elles représentent 39,36% des élèves en zone rurale et 50,52% des filles de
l’échantillon. Ce type de tableau croisé fourni beaucoup d’informations mais il n’est pas
d’interprétation aisée.
3.3.2 Les variables continues
Quand on veut décrire des variables continues on s’intéresse principalement à leurs
caractéristiques de valeur centrale (médiane, moyenne) et à leurs caractéristiques de
dispersion (variance, écart type). On peut également avoir recours à des graphiques pour
14
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
visualiser les distributions des variables. Sous STATA, on utilisera l’instruction summarize
(sum).
sum SINI2F
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SINI2F |
2293
9.408635
6.213624
0
25
On a exécuté l'instruction summarize pour le score de début d'année en français. Outre le
nombre d'observations, le logiciel nous fourni la moyenne (9.408635), l'écart type (6.213624)
ainsi que les scores minimal et maximal (0 et 25). On peut obtenir plus d'informations en
utilisant l'option detail de l'instruction summarize.
. sum SINI2F, detail
SINI2F
------------------------------------------------------------Percentiles
Smallest
1%
0
0
5%
1
0
10%
2
0
Obs
2293
25%
4
0
Sum of Wgt.
2293
50%
9
75%
90%
95%
99%
14
18
20
24
Largest
25
25
25
25
Mean
Std. Dev.
9.408635
6.213624
Variance
Skewness
Kurtosis
38.60912
.3839722
2.2051
L'option detail permet une description plus précise des variables continues incluant
notamment les coefficients d'asymétrie (la valeur de skewness est de 0 pour une distribution
normale) et d'aplatissement (la valeur de kurtosis est de 3 pour une distribution normale), les
quatre valeurs les plus faibles (smallest) et les plus élevées (largest) et différents pourcentiles
dont la médiane (pourcentile = 50%).
Les chiffres ci-dessus montrent une distribution asymétrique à droite, la médiane (9) est
inférieure à la moyenne (9.4) et le coefficient d'asymétrie est positif. Par ailleurs, le
coefficient d'aplatissement ou de concentration est de 2.2 ce qui montre une distribution peu
concentrée. Afin de visualiser la distribution de SINI2F on peut demander à STATA de nous
faire un graphique.
graph SINI2F, bin(50)
L'option bin(50) permet de définir le nombre de fréquences à prendre en compte, 50 étant le
maximum.
15
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
.063672
0
0
25
SINI2F
Le graphique confirme le constat précédent, on voit que les scores faibles sur la gauche du
graphique sont plus fréquents que les scores élevés d'où l'asymétrie remarquée précédemment.
Comme pour l'instruction tabulate, on peut utiliser une condition pour calculer une moyenne
sur un groupe spécifique, par exemple imaginons que nous voulions connaître les scores
moyens de l'école n°71 en français et mathématique au début de l'année.
sum SINI2F SINI2M if NUMECOLE==71
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SINI2F |
20
12.55
5.799047
0
20
SINI2M |
20
6.7
1.592747
4
9
La moyenne de l'école n°71 en français est de 12.5, soit 3 points de plus que la moyenne de
l'échantillon, et 6.7 en mathématiques.
L'analyse des scores peut facilement amener des erreurs d'analyse notamment en comparant
des choses non comparables comme le sont un test de début d'année et un test de fin d'année.
Sur ce point on renvoie au chapitre 7 du guide pour l'évaluation des facteurs de performance
à l'école primaire : manuel pratique d'évaluation (p.181).
L'analyse des scores reste un passage obligé dans le cadre d'une évaluation des acquis des
élèves, il peut être utile de la compléter par une analyse détaillée de certains items. Par
ailleurs, dans le cadre d'enquêtes internationales la comparaison avec les scores d'autres pays
permet de situer le niveau de performance d'un système éducatif.
3.4 L'analyse bivariée
Après avoir étudier indépendamment différentes variables, il convient de les étudier
conjointement pour mettre en exergue certaines relations. Il faut cependant ici rappeler que
16
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
l'analyse bivariée ne prouve pas une relation causale (Cf. chap.7 du guide pour l'évaluation
des facteurs de performance à l'école primaire : manuel pratique d'évaluation, p.187).
L'approche de la relation entre deux variables diffère selon qu'il s'agit de variables continues
ou discrètes.
3.4.1 La relation entre deux variables continues
Une toute première approche pour identifier une éventuelle relation entre deux variables est
de faire un graphique. A titre d'exemple, nous avons ici voulu voir la relation entre le score de
début d'année et le score de fin d'année.
graph SFIN2FM SINI2FM
SFIN2FM
75
2.05405
1.38889
50
SINI2FM
Le graphique précédent nous permet de constater qu'il y a une relation positive entre le score
de début d'année et le score de fin d'année, c'est-à-dire que plus on a eu un score élevé en
début d'année et plus il y a de chance qu'on ait aussi un bon score de fin d'année. Toutefois, le
nuage de point indique que cette relation est loin d'être parfaite car on voit que pour un même
niveau initial, les scores de fin d'année peuvent varier de façon importante. On peut également
s'appuyer sur un indicateur numérique pour mesurer cette relation, il s'agit du coefficient de
corrélation.
. corr SFIN2FM
(obs=2050)
SINI2FM
| SFIN2FM SINI2FM
-------------+-----------------SFIN2FM |
1.0000
SINI2FM |
0.6075
1.0000
Le coefficient de corrélation est un indicateur de l'intensité de la relation linéaire entre deux
variables continues, il prend des valeurs entre -1 et 1. Lorsque la relation est forte la valeur du
coefficient de corrélation linéaire est élevée (proche de -1 ou +1). Dans notre cas, un
17
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
coefficient d'environ 0.61 indique une relation positive assez consistante entre les deux
variables. On reste toutefois assez éloigné de 1 qui indique une relation linéaire parfaite.
3.4.2 La relation entre une variable continue et une variable discrète
L'exemple type est de s'interroger sur les résultats des élèves selon leur genre ou encore selon
leur zone de résidence. On commencera alors par calculer le score moyen pour chaque cas de
figure.
. sort FILLE
. by FILLE : sum SFIN2FM
___________________________________________________________________________
-> FILLE = 0
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SFIN2FM |
1192
40.07498
15.79222
2.108108
75
___________________________________________________________________________
-> FILLE = 1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SFIN2FM |
871
39.37552
15.85868
2.054054
71.94595
. sort RURAL
. by RURAL : sum SFIN2FM
___________________________________________________________________________
-> RURAL = 0
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SFIN2FM |
943
42.30954
16.00642
2.108108
72.89189
___________________________________________________________________________
-> RURAL = 1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------SFIN2FM |
1120
37.64961
15.34865
2.054054
75
On constate que les filles ont un score moyen légèrement inférieur à celui des garçon (39.37
contre 40.07). L'écart entre les élèves résidant en zone urbaine et ceux résident en zone rurale
est plus marqué (42.3 contre 37.6). Doit-on prendre ces écarts directement et conclure à des
différences entre garçons et filles et entre urbains et ruraux ? La réponse est non, pour pouvoir
conclure à la différence entre deux moyennes, il faut avoir recours à test de comparaison de
moyenne.
18
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
. ttest SFIN2FM, by (FILLE)
Two-sample t test with equal variances
------------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+--------------------------------------------------------------------0 |
1192
40.07498
.4574094
15.79222
39.17756
40.9724
1 |
871
39.37552
.537351
15.85868
38.32087
40.43018
---------+-------------------------------------------------------------------combined |
2063
39.77967
.3483082
15.82025
39.0966
40.46274
---------+--------------------------------------------------------------------diff |
.6994583
.7052083
-.6835368
2.082453
------------------------------------------------------------------------------Degrees of freedom: 2061
Ho: mean(0) - mean(1) = diff = 0
Ha: diff ~= 0
t =
0.9918
P > |t| =
0.3214
Ha: diff < 0
t =
0.9918
P < t =
0.8393
Ha: diff > 0
t =
0.9918
P > t =
0.1607
Le principe du test est de voir si la différence entre les deux moyennes est nulle (Ho). Pour
cela on va tester si la différence est différente de 0, si c'est le cas on rejettera l'hypothèse Ho
sinon on l'acceptera. Ici on a P > |t| = 0.3214, cela signifie qu'on a 32 chances sur 100 de se
tromper si on affirme que la différence entre les deux moyennes est comprise entre -.6835368
et 2.082453. Il faut savoir qu'en général au-delà de 10 chances sur 100, on considère que l'on
ne peut accepter l'hypothèse. Ici, on peut donc retenir qu'il n'y a pas de différence significative
entre le score moyen des garçons et celui des filles.
Voyons pour la zone géographique :
. ttest SFIN2FM, by (RURAL)
Two-sample t test with equal variances
-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------0 |
943
42.30954
.5212408
16.00642
41.28661
43.33246
1 |
1120
37.64961
.4586287
15.34865
36.74974
38.54948
---------+-------------------------------------------------------------------combined |
2063
39.77967
.3483082
15.82025
39.0966
40.46274
---------+-------------------------------------------------------------------diff |
4.659921
.6917906
3.30324
6.016603
-----------------------------------------------------------------------------Degrees of freedom: 2061
Ho: mean(0) - mean(1) = diff = 0
Ha: diff < 0
t =
6.7360
P < t =
1.0000
Ha: diff ~= 0
t =
6.7360
P > |t| =
0.0000
Ha: diff > 0
t =
6.7360
P > t =
0.0000
Il y a moins d'une chance sur 10 000 de se tromper en disant qu'il y a une différence entre le
score moyen des élèves en zone rurale et celui des élèves en zone urbaine. Cette différence
19
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
comprise entre 3.30324 et 6.016603 points est en faveur des élèves de zone urbaine. On
conclut que les élèves en zone urbaine ont de meilleurs résultats que les élèves de zone rurale.
Cela dit à ce stade nous ne sommes pas en mesure de dire si cette différence est imputable
uniquement à la zone géographique où si elle est due à d'autres facteurs (environnement
socioculturel, équipement de l'école, formation des enseignants, etc.), c'est pour cela qu'on
parle d'effet brut.
3.4.3 La relation entre deux variables discrètes
Il est possible de décrire deux variables discrètes dans un seul tableau. On utilise alors un test
de chi2 pour vérifier si les variables sont ou non indépendantes. Prenons comme exemple la
zone géographique
. tab RURAL LIV_FRMT, chi2
|
LIV_FRMT
RURAL |
0
1 |
Total
-----------+----------------------+---------0 |
207
854 |
1061
1 |
446
799 |
1245
-----------+----------------------+---------Total |
653
1653 |
2306
Pearson chi2(1) =
75.1012
Pr = 0.000
Ici, on a moins d'une chance sur mille (Pr = 0.000) de se tromper en affirmant que les deux
variables ne sont pas indépendantes, c'est-à-dire qu'il y a un lien entre la zone géographique et
la possession de manuels scolaires.
3.5 L'analyse causale
La question de la causalité est aussi redoutable qu'incontournable, c'est pourquoi elle est
abordée ici. Il semble important effectivement de comprendre la différence de statut entre ce
type d'analyse et les analyses précédentes. Toutefois, on ne peut pas ici traiter de façon
complète cet aspect. Encore une fois nous nous référerons au chap.7 du guide pour
l'évaluation des facteurs de performance à l'école primaire : manuel pratique d'évaluation
(p.193) qui développe plus longuement la question.
On peut penser la causalité par rapport l’expérimentation telle que la pratiquent les sciences
expérimentales : on répète la même expérience plusieurs fois, mais en modifiant seulement
une des conditions de l’expérience. Si on constate que les résultats varient systématiquement
en fonction de cette condition, on infère que cette condition a un effet causal donné sur les
résultats.
20
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
En sciences sociales, l’expérimentation n’est guère possible. C’est par l’analyse comparative
de situations existantes qu’on essaie de mettre en évidence des relations causales. Même si
expérimentation et analyse comparative apparaissent fondamentalement différentes, il reste
intéressant de penser l’analyse comparative par rapport à l’expérimentation idéale. En effet,
l’analyse comparative fait un double effort pour se rapprocher des conditions de
l’expérimentation : le choix d’un échantillon comprenant une multiplicité d’individus fait
écho à la répétition de l’expérience ; et la reconstitution de conditions «toutes choses égales
par ailleurs» est l’analogue du contrôle des conditions de l’expérimentation.
Il est important de rappeler qu'une multitude de facteurs interviennent simultanément dans le
processus d'acquisition. Or, si l'on veut mesurer l'effet d'un facteur donner il faut être en
mesure de prendre en compte l'effet des autres facteurs afin de s'assurer que l'on mesure bien
l'effet du seul facteur qui nous intéresse (on parle d'effet net). Par exemple, dans la
comparaison des classes nombreuses et peu nombreuses on va constater que ces classes
diffèrent par leur localisation, par leur public d’élèves, par les moyens éducatifs mis en œuvre.
On va mesurer les effets de ces différences. On va ôter ces effets de la différence de résultats
mesurée entre classes nombreuses et classes peu nombreuses. La différence restante sera
attribuée à la taille de classe.
Pour cela, on a recours à des analyses statistiques multivariées comme la régression multiple.
Il y a en effet une difficulté pratique : pour mesurer l’effet causal de la différence de tailles de
classe, je dois connaître l’effet causal des autres variables. Mais la réciproque est vraie : pour
connaître l’effet causal des autres variables, je dois connaître l’effet causal des différences de
taille de classe. Prenons par exemple l’effet causal du milieu rural : je ne peux le déduire de la
comparaison simple des résultats en milieu urbain et en milieu rural. Car on pourrait objecter
que les classes de milieu rural sont aussi en général moins nombreuses, et que cela trouble la
comparaison. C’est pourquoi la régression multivariée identifie de façon simultanée les
différents effets.
Il faut donc élaborer un modèle statistique intégrant de multiples variables, se pose donc la
question du choix des variables. Dans cette étape, le fil directeur est donné a priori par le
modèle conceptuel présenté lors de cet atelier (présentation sur les principes et méthodologie
de l'évaluation). On a donc une idée préalable des facteurs qui expliquent les apprentissages
scolaires qui peuvent être complétés par des facteurs mis en évidence par les analyses
descriptives et bivariées. On introduira les variables nécessaires pour tester si ces effets
existent de façon significative, et quelle est leur valeur. On introduira les variables
nécessaires, ni plus, ni moins :
• pas moins, car oublier une variable pertinente c’est se heurter à l’objection de la variable
manquante qui vient fausser l’estimation des effets des autres variables. Ce qui précède a pu
persuader de l’importance du problème.
• pas plus, car ce serait demander trop des données existantes que de permettre d’identifier
simultanément les effets de dizaines de variables à partir de configurations existantes
21
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
forcément en nombre limité. En particulier, quand deux variables visent le même concept ou
semblent étroitement liées, on n’introduira que l’une des deux dans le modèle1 : par exemple,
on choisira soit NIVEAUVI, soit RICHESSE (toutes les deux sont des indicateurs du niveau de
vie, en se référant à la possession ou non de respectivement 3 et 13 objets). Concrètement, le
modèle se présente comme une grande équation où figurent, à gauche, la progression à
expliquer, et à droites les variables explicatives : score initial (pour tenir compte des effets de
rappel ou de régression à la moyenne), variables contextuelles et variables de politique
éducative.
Il faut ici mettre en évidence deux logiques complémentaires dans l'élaboration des modèles
statistiques. L'objectif de ces modèles est d'expliquer au mieux la réalité, donc on choisira,
après les avoir testées, les variables qui apporteront le plus au pouvoir explicatif du modèle.
Toutefois, une variable qui n'a pas d'effet significatif peut également s'avérer intéressante en
matière de politique éducative. Par exemple, le fait que l'électricité n'ait pas d'impact sur les
apprentissages des élèves permettrait aux décideurs de ne pas prendre prioritairement des
mesures en faveur de l'électrification des écoles mais plutôt par exemple en faveur de la
dotation en manuels scolaires. L'élaboration d'un modèle est toujours une alchimie complexe
qui repose sur le contexte éducatif, l'expérience du modélisateur et aussi sur les éléments mis
en évidence dans les analyses descriptives et bivariées.
Nous allons, sur la base des données utilisées lors de l'atelier, procéder par étape pour
construire de façon simplifiée un modèle. Tout d'abord, nous allons mettre en relation le score
de fin d'année avec le score de début d'année. L'instruction pour faire une régression multiple
(moindres carrés ordinaires) sous STATA est regress.
. regress SFIN2FM SINI2FM
Source |
SS
df
MS
-------------+-----------------------------Model | 188953.812
1 188953.812
Residual | 323065.468 2048
157.74681
-------------+-----------------------------Total |
512019.28 2049 249.887399
Number of obs
F( 1, 2048)
Prob > F
R-squared
Adj R-squared
Root MSE
=
2050
= 1197.83
= 0.0000
= 0.3690
= 0.3687
=
12.56
-----------------------------------------------------------------------------SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.9827303
.0283947
34.61
0.000
.9270448
1.038416
_cons |
19.94325
.6378465
31.27
0.000
18.69235
21.19414
------------------------------------------------------------------------------
Nous allons nous limiter aux principales statistiques pour l'interprétation du modèle.
La statistique F teste l'hypothèse que tous les coefficients du modèle à l'exception de la
constante (_cons) sont nuls, elle est rejetée ici.
22
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Le R² (R-squared) indique le pourcentage de variance expliquée par le modèle, c'est-à-dire en
quelque sorte la capacité du modèle à expliquer la réalité. Évidemment, plus le R² est élevé et
plus le modèle est performant. Toutefois, dans les sciences sociales, et en éducation en
particulier, il et extrêmement rare de voir un R² dépasser 60%, habituellement il oscille entre
35 et 50%. On constate ici que le score de début d'année permet d'expliquer à lui tout seul
36% de la variance totale, ce qui souligne l'importance du niveau initial dans les performances
en fin d'année scolaire. Le R² ajusté (Adj R-squared) tient compte des degrés de liberté et
constitue une mesure plus précise.
Dans le tableau de la régression à proprement parler, en haut à gauche apparaît la variable
qu'on cherche à expliquer (SFIN2FM). En dessous, la ou les variables explicatives et la
constante. Ici il n'y a que SINI2FM comme variable explicative, concrètement on essaie
d'expliquer le score de fin d'année par le score de début d'année. A chaque variable est associé
un coefficient (coef) qui donne l'impact de la variable explicative sur la variable Par exemple
ici, 1 point au test de début d'année (SINI2FM) se traduit par 0.98 point au test de fin d'année
(SFIN2FM)5. Nous avons également pour chaque variable son erreur type, son t de Student
qui nous permet de savoir quelle confiance accordée au coefficient. Si P>|t|>0.1 alors on dira
que le coefficient n'est pas significatif dans le cas contraire il sera accepté. Pour SINI2FM, on
a moins d'une chance sur 1000 de se tromper en disant que son coefficient est compris entre
0.9270448 et 1.038416. Le coefficient est une valeur moyenne de cet intervalle.
Nous allons maintenant introduire les variables relatives aux caractéristiques des élèves.
. regress SFIN2FM SINI2FM FILLE AGE NIVEAUVI REDAN1 REDAN2
> */ LIV_FRMT DOMFRANC DEJEUNER
Source |
SS
df
MS
-------------+-----------------------------Model | 200196.552
9 22244.0614
Residual | 311822.728 2040 152.854278
-------------+-----------------------------Total |
512019.28 2049 249.887399
/*
Number of obs
F( 9, 2040)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2050
145.52
0.0000
0.3910
0.3883
12.363
-----------------------------------------------------------------------------SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.962629
.0287136
33.53
0.000
.9063181
1.01894
FILLE |
.0511239
.5561565
0.09
0.927
-1.03957
1.141818
AGE | -.7635738
.2430641
-3.14
0.002
-1.240253
-.2868941
NIVEAUVI |
-.053223
.3495853
-0.15
0.879
-.7388043
.6323584
REDAN1 | -3.521028
.5959858
-5.91
0.000
-4.689832
-2.352224
REDAN2 | -1.339725
.7203779
-1.86
0.063
-2.752478
.0730282
LIV_FRMT |
.4793911
.6273132
0.76
0.445
-.75085
1.709632
DOMFRANC |
1.212396
.5879468
2.06
0.039
.0593573
2.365434
DEJEUNER |
1.397127
.884923
1.58
0.115
-.3383202
3.132573
_cons |
25.80326
2.254691
11.44
0.000
21.38152
30.22499
5
Les deux scores ne portent pas sur la même échelle. Habituellement, on standardise les scores pour réaliser les
régressions.
23
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Nous avons mis en gras les variables qui ont un effet significatif sur le score de fin d'année.
Par exemple, les élèves qui ont redoublé leur première année (REDAN1) ont en moyenne 3.5
points de moins que leurs camarades et ce corrigé du niveau initial. Il faut être prudent à ce
stade car beaucoup de variables restent à introduire, il y a donc des variables omises qui
peuvent influencer les estimations des coefficients. L'intérêt de procéder par étape est de tester
différentes variables et sélectionnées celles qui s'avèrent les plus intéressantes pour chaque
catégorie de variables.
On peut remarquer que le R² progresse d'à peine 2% par rapport au modèle précédent, ce qui
est modeste.
Introduisons à présent les variables relatives à l'enseignant.
. regress SFIN2FM SINI2FM
MAITRFEM DIPCYCLB NIVCYCLB FPI6M FPI1AN FPI1ANPL
Source |
SS
df
MS
-------------+-----------------------------Model | 196961.665
7 28137.3808
Residual | 315057.615 2042 154.288744
-------------+-----------------------------Total |
512019.28 2049 249.887399
Number of obs
F( 7, 2042)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2050
182.37
0.0000
0.3847
0.3826
12.421
-----------------------------------------------------------------------------SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.9708531
.0287939
33.72
0.000
.9143847
1.027322
MAITRFEM |
1.801501
.6155169
2.93
0.003
.5943946
3.008607
DIPCYCLB | -.8231398
1.048584
-0.79
0.433
-2.879545
1.233266
NIVCYCLB |
.0217694
.7124399
0.03
0.976
-1.375415
1.418954
FPI6M |
6.248291
1.604998
3.89
0.000
3.100687
9.395895
FPI1AN | -1.527851
.7718407
-1.98
0.048
-3.041528
-.0141742
FPI1ANPL | -1.999932
1.045883
-1.91
0.056
-4.05104
.0511757
_cons |
21.02862
.9372526
22.44
0.000
19.19055
22.86669
------------------------------------------------------------------------------
Encore une fois le gain de R² est assez modéré. On observe que les élèves des enseignants qui
ont suivi 6 mois de formations professionnelles ont en moyenne 6 points de plus que ceux qui
ont trois mois ou moins de formation professionnelle, en revanche les enseignants qui ont 1 an
ou plus de formation professionnelle enregistre de moins bons résultats (-1.52 et -1.99).
Voyons maintenant les caractéristiques de la classe.
. regress SFIN2FM SINI2FM DOUBLFLX MULTIGRA TCLASSE ELECLASS
Source |
SS
df
MS
-------------+-----------------------------Model | 193723.107
5 38744.6214
Residual | 318296.173 2044 155.722198
-------------+-----------------------------Total |
512019.28 2049 249.887399
Number of obs
F( 5, 2044)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2050
248.81
0.0000
0.3784
0.3768
12.479
------------------------------------------------------------------------------
24
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.9834781
.0293401
33.52
0.000
.9259384
1.041018
DOUBLFLX | -.1863239
.9915355
-0.19
0.851
-2.130849
1.758201
MULTIGRA | -5.710903
1.717185
-3.33
0.001
-9.078518
-2.343289
TCLASSE |
-.099493
.022565
-4.41
0.000
-.1437457
-.0552403
ELECLASS | -.5826906
.6724499
-0.87
0.386
-1.901449
.7360678
_cons |
24.46069
1.161748
21.06
0.000
22.18236
26.73903
------------------------------------------------------------------------------
On constate un impact négatif très marqué du multigrade et très modéré de la taille de classe.
La contribution au R² est d'à peine plus de 1%.
En ce qui concerne les caractéristiques de l'école nous nous sommes limités ici à la zone
géographique où est située l'école.
. regress SFIN2FM SINI2FM RURAL
Source |
SS
df
MS
-------------+-----------------------------Model | 191084.478
2
95542.239
Residual | 320934.802 2047 156.783001
-------------+-----------------------------Total |
512019.28 2049 249.887399
Number of obs
F( 2, 2047)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2050
609.39
0.0000
0.3732
0.3726
12.521
-----------------------------------------------------------------------------SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.9683873
.0285739
33.89
0.000
.9123503
1.024424
RURAL | -2.065765
.5603674
-3.69
0.000
-3.164715
-.9668158
_cons |
21.35494
.7422976
28.77
0.000
19.8992
22.81068
------------------------------------------------------------------------------
On constate un effet négatif assez marqué de la zone rural sur le score de fin d'année. La
contribution au R² demeure très modeste.
Dans le modèle qui suit nous avons intégré toutes les variables précédentes. On observe que le
R² est de l'ordre de 0.41 ce qui signifie que toutes les variables ajoutées au score initiale ne
contribue à expliquer qu'à peine 5% de la variance totale.
Par ailleurs, un certain nombre de résultats se confirment comme l'impact négatif du
redoublement ou encore les impacts des différentes catégories de formation professionnelle.
Ce qu’il convient de faire à partir de ce modèle global, c’est vérifier simplement qu’il n’y a
pas de problème technique. Si le coefficient d’une variable semble contre-intuitif, on va
vérifier la construction de cette variable, voir si son effet peut vraiment être identifié (par
exemple, si on a introduit l’âge du maître et son expérience et qu’on a trouvé un effet très
négatif à l’expérience et très positif à l’âge, cela peut signifier que les données n’ont pas
vraiment permis d’identifier séparément les deux effets, et donnent des résultats sans
signification. Dans ce cas, on ôtera la variable âge, pour garder seulement la variable
25
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
expérience). On peut également vérifier que les différentes catégories distinguées reposent sur
un nombre suffisant d’observations : si une catégorie n’est représentée que par moins de cinq
classes, l’effet correspond peut-être à des traits particuliers de ces cinq classes, comme par
exemple à un charisme spécifique de leurs maîtres,...
Le but, en tout cas, n’est pas d’introduire n’importe quelle variable pour maximiser le pouvoir
prédictif du modèle (le fameux R²)1. Le but est de bien tester un modèle raisonnable de
prédiction de la progression des élèves.
.
>
>
>
regress SFIN2FM SINI2FM FILLE AGE NIVEAUVI REDAN1 REDAN2 /*
*/ LIV_FRMT DOMFRANC DEJEUNER MAITRFEM DIPCYCLB NIVCYCLB /*
*/ FPI6M FPI1AN FPI1ANPL DOUBLFLX MULTIGRA TCLASSE ELECLASS /*
*/ RURAL
Source |
SS
df
MS
-------------+-----------------------------Model | 215468.455
20 10773.4228
Residual | 296550.825 2029 146.156148
-------------+-----------------------------Total |
512019.28 2049 249.887399
Number of obs
F( 20, 2029)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2050
73.71
0.0000
0.4208
0.4151
12.09
-----------------------------------------------------------------------------SFIN2FM |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------SINI2FM |
.9552138
.0292651
32.64
0.000
.8978209
1.012607
FILLE |
.0383967
.5461429
0.07
0.944
-1.032663
1.109456
AGE |
-.52071
.243631
-2.14
0.033
-.998503
-.0429171
NIVEAUVI | -.3283186
.3744636
-0.88
0.381
-1.062692
.4060546
REDAN1 | -3.508406
.5857854
-5.99
0.000
-4.65721
-2.359603
REDAN2 | -1.245231
.7066829
-1.76
0.078
-2.631131
.1406683
LIV_FRMT |
.236453
.6279555
0.38
0.707
-.9950518
1.467958
DOMFRANC |
1.42503
.588969
2.42
0.016
.269983
2.580077
DEJEUNER |
1.031735
.8819586
1.17
0.242
-.6979041
2.761374
MAITRFEM |
.9726893
.662869
1.47
0.142
-.3272856
2.272664
DIPCYCLB |
.4759906
1.045361
0.46
0.649
-1.574103
2.526084
NIVCYCLB |
.5775568
.721991
0.80
0.424
-.8383642
1.993478
FPI6M |
3.853866
1.618837
2.38
0.017
.679109
7.028623
FPI1AN | -2.556298
.7823225
-3.27
0.001
-4.090537
-1.022059
FPI1ANPL | -3.124204
1.048237
-2.98
0.003
-5.179936
-1.068471
DOUBLFLX | -1.545527
1.06358
-1.45
0.146
-3.63135
.5402965
MULTIGRA |
-4.78164
1.705509
-2.80
0.005
-8.126372
-1.436909
TCLASSE | -.1563792
.0247279
-6.32
0.000
-.2048739
-.1078845
ELECLASS | -2.173697
.7583367
-2.87
0.004
-3.660897
-.6864973
RURAL | -3.484884
.7541777
-4.62
0.000
-4.963928
-2.005841
_cons |
35.35942
2.622643
13.48
0.000
30.21606
40.50277
------------------------------------------------------------------------------
Quand on s'est assuré que le modèle statistique est suffisamment fiable6, il reste la redoutable
tâche de l'interprétation.
6
Il existe tout un ensemble de tests pour analyser les résultats d'une régression.
26
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
Un piège est de confondre le concept et une application du concept. Par exemple ici, on
observe un effet négatif marqué des classes à multigrades (MULTIGRA), on pourrait conclure
abusivement qu'il faut éviter le multigrade. Pourtant dans d'autres pays le multigrade s'est
avéré plutôt efficace, il vaudrait donc mieux s'interroger sur la façon dont s'organise le
multigrade dans le pays en question. Il est indispensable d'avoir du recul et une réflexion sur
les effets mesurés sinon on risque des interprétations un peu rapides.
Prenons le cas plus sensible de la formation professionnelle, on constate que les formations
professionnelles de 1 an et de plus d'un an ont des impacts négatifs. On peut alors dire que ce
type de formation n'est pas pertinent, mais faut-il en conclure qu'on peut se contenter de
formation de courte durée ou au contraire faut-il penser qu'il est nécessaire de revoir
complètement le contenu et l'organisation de ces formations ? Deux interprétations assez
différentes pour leurs conséquences sur la politique éducative. C'est la seconde qui nous paraît
la plus raisonnable.
On voit donc qu'outre la dimension technique de l'élaboration des modèles, leur interprétation
est un exercice délicat qui doit toujours s'effectuer en partenariat avec des acteurs du système
éducatif national qui seront à même de donner des éclairages sur certains résultats.
Conclusion
Nous n'avons ici qu'effleuré une méthode d'analyse des données d'enquête sur les acquisitions
scolaires car il s'agit d'un champ très vaste où techniques statistiques et connaissance des
systèmes éducatifs vont de pair. Notre principal objectif ici était de sensibiliser les
participants de l'atelier à des outils statistiques performants permettant d'avoir une meilleure
compréhension des phénomènes scolaires. Si on a pu convaincre que les statistiques ne sont
pas que des chiffres mais qu'elles constituent un moyen, certes imparfait, d'appréhender la
réalité scolaire alors cet objectif aura été atteint. Un autre objectif est qu'un certain nombre
d'outils présentés ici puisse être réutilisé par les participants dans leurs activités quotidiennes
dans leurs ministères respectifs. La question leur sera posée lors du prochain atelier.
27
Document de travail / Programme d'Analyse des Systèmes Educatifs de la CONFEMEN
. Liste des variables du fichier analyse :
Variables de score :
•
•
•
•
•
•
•
•
Le score initial de français :
Le score initial de mathématiques :
Le score initial global (français+mathématiques) :
Le score final de français :
Le score final de mathématiques :
Le score final global (français+mathématiques) :
L'élève a redoublé la première année
L’élève a redoublé la deuxième année
SINI2F
SINI2M
SINI2FM
SFIN2F
SFIN2M
SFIN2FM
REDAN1
REDAN2
Variables extra-scolaires :
•
•
•
•
•
•
•
Age de l'élève :
Si le niveau de vie de sa famille est relativement élevé7 ;
Si l’élève mange un repas le midi ;
Si l’élève reçoit une aide pour ses devoirs à la maison ;
Si on parle français au domicile de l’élève ;
Si l’élève est une fille ;
Si l’élève vit en milieu rural.
AGE
NIVEAUVI
DEJEUNER
AIDE
DOMFRANC
FILLE
RURAL
Variables scolaires :
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Si l’élève possède un livre de français ;
Si l’élève possède livre de mathématiques et livre de français ;
Si le maître est une femme ;
Si le maître a suivi au moins une année de lycée ;
Si le maître est titulaire du baccalauréat ;
Si le maître a reçu un à trois mois de formation prof. initiale,
ou six mois,
ou un an,
ou plus d’un an ;
Si la classe est à simple flux :
Si la classe est à double flux ;
Si la classe est multigrade ;
Le nombre d’élèves dans la classe ;
Si la classe a l’électricité.
7
LIV_FR_1
LIV_FRMT
MAITRFEM
NIVCYCLB
DIPCYCLB
FPI1_3M
FPI6M
FPI1AN
FPI1ANPL
SIMPLFLX
DOUBLFLX
MULTIGRA
TCLASSE
ELECLASS
On a choisi comme critère de niveau de vie le nombre d’objets présents à la maison parmi trois : vidéo,
réfrigérateur et voiture. NIVEAUVI peut donc prendre les valeurs 0, 1, 2 ou 3.
28