Lignes directives de gestion des données des projets de

Transcription

Lignes directives de gestion des données des projets de
Lignes directives de gestion
des données des projets de
développement
Mars 1998
Mise à jour de 2010
Traduit par Zobinou Mawusi
Université de Reading
Centre des Services Statistiques
Conseil en Biométrie et
Services de Soutien au DFID
Contenu
1. Introduction ................................................................................3
2. Ce que nous entendons par « les données » .............................3
3. Les logiciels de traitement de données ......................................6
4. Structure de base de données ...................................................7
5. Conception d'un système de saisie de données ........................9
5.1 Comprendre la structure des données .................................9
5.2 Identifier les types de renseignements collectés ..................9
5.3 Spécifier les unités de mesure et la précision.......................9
6. La saisie et la vérification ......................................................... 10
6.1 Stratégie pour la saisie des données et la vérification ........ 10
6.2 Lignes directives pour la saisie des données ..................... 11
6.3 Lignes directives pour la vérification des données ............. 12
Contrôles lorsque les données sont collectées. .................. 12
Vérifie alors que les données sont actuellement
saisies................................................................................. 13
Contrôles après la saisie ..................................................... 13
7. Piste de vérification ..................................................................14
8. Organiser les données pour l'analyse ...................................... 15
9. Analyse .................................................................................... 16
10. Sauvegarde ........................................................................... 16
11. Archivage des Données ......................................................... 17
© SSC 1998-2010 – Lignes directives de gestion des données
2
1. Introduction
Les projets de recherche gèrent souvent la collection d'un volume important de
données. Les données doivent ensuite être traitées et analysées, avec des résultats et
des résumés en cours de préparation pour publication dans une forme quelconque.
Pour cette séquence de procéder sans heurts, le projet nécessite un système bien défini
de gestion des données. Cette brochure donne des lignes directives sur les
composantes d'un tel système.
Les principales étapes du processus de gestion des données dans un projet de
recherche sont les suivantes :
 Les données brutes doivent être conclues à l'ordinateur et vérifiées;
 Les données ont ensuite à être organisée dans une forme appropriée pour l'analyse
(souvent dans différentes façons, selon l'analyse);
 Les données doivent être archivées, afin qu'elles restent disponibles tout au long
des phases ultérieures d'un projet et par la suite.
Beaucoup d'exemples dans cette brochure concerne des projets impliquant des
données expérimentales, mais les concepts sont également valables pour les enquêtes.
Les expérimentateurs ont parfois été moins conscients que leurs collègues d'enquête
de la valeur de la gestion des données prudent jusqu'à assez tard dans leur projet, et la
recherche a subi en conséquence. Nous espérons que ces lignes directives aideront les
chercheurs à planifier les aspects de la gestion des données de leur projet dès le départ.
2. Ce que nous entendons par « les données »
Au niveau plus simple, « les données » sont les valeurs enregistrées dans le livres de
champ, registres ou dispositifs d'enregistrement de données, qui sont saisies dans
l'ordinateur et ensuite analysées. Un exemple d'une simple série de données – un
tableau de lignes et de colonnes – est illustré ci-dessous.
Une simple série de données
Parcelle
Réplicat
Traitement
Fleur
Poids total
Poids des
Pieds
Poids des
grains
101
1
4
26
25.2
6.6
1.7
102
1
2
28
32.7
8.8
2.4
…
…
…
…
…
…
…
416
4
8
26
19.7
4.9
5.3
© SSC 1998-2010 – Lignes directives de gestion des données
3
L'information contenue dans ce tableau est certainement nécessaire pour l'analyse,
mais elle est incomplète. L’information supplémentaire dans le protocole qui donne
des détails sur, par exemple, les traitements, le type de conception, le plan de champ et
les unités utilisées pour les mesures, est également nécessaire, pour l'analyse et
l'archive. Cette information est parfois appelée « métadonnées » – mais quel que soit
le nom qui est utilisé, elle devrait être considérée comme faisant partie intégrante et
tout aussi important que les données du tableau.
Nous sommes maintenant dans un monde multimédia, pour les photographies et les
cartes peuvent être considérées comme partie de la « métadonnées », comme les
rapports, de discussions et d'autres documents de présentation. Pendant la majeure
partie de la présente brochure nous utilisons les données de mot relativement étroites,
mais nous retournerons au sens plus large qui englobe ces documents dans la section
sur l'archivage.
On peut considérer à peu près la tâche de gestion des données dans un projet comme
simple Si toutes les données pour être informatisées ont été collectées sur un seul type
d'unité, par exemple des parcelles ou des animaux. La tâche est complexe, où les
données ont été collectées d'un certain nombre d'unités de différents niveaux. Par
exemple, dans une étude à la ferme, il y aura souvent des données d’interview au
niveau de la ferme et réponse des mesures au niveau de la parcelle, les animaux ou les
arbres.
Parfois la complexité des tâches de gestion de données diffère selon les différentes
parties d'un projet. Un exemple est un projet régional constitué d'un essai de variété
sur chaque site, où les données doivent être assorties à chacun des sites. Dans un tel
projet, l'ensemble des variétés n'est souvent pas identique à tous les sites. Puis la saisie
de données de chaque site est simple, c'est-à-dire qu'il est un rectangle unique,
comme dans l'exemple ci-dessus. Toutefois, le Bureau de la coordination régionale
pourra avoir besoin de quatre autres séries de données, comme suit :
Données sur chaque site, par exemple, nom, emplacement, du type de sol
Site
Nombre
Site
Nom
Pays
Latitude
Longitude
Altitude
(mètres)
Sol
Type
...
1
Dori
Bénin
10.654
2.813
200
C
...
2
Gaya
Niger
12.109
4.171
175
D
...
...
...
...
...
...
...
...
...
46
Mara
Niger
12.576
2.543
140
D
...
© SSC 1998-2010 – Lignes directives de gestion des données
4
Données sur chaque expérience sur un site, par exemple la date de la plantation, les
problèmes d'insectes
Site
Nombre
Expérience
Nombre
Année
Date
Plantation
Stress
Problème
parasites
...
1
1
1997
12 Juin
doux
mineur
...
1
2
1997
16 Juin
aucun
aucun
...
1
3
1998
2 Juillet
aucun
aucun
...
2
1
1997
19 Juin
grave
majeur
...
...
...
...
...
...
...
...
Données sur chaque variété utilisée dans le projet, par exemple nom, origine, type
Code de
variété
Nom de la
variété
Origine
Type
...
12
OFT1226
Mali
ériger
...
14
PLO2279
Togo
propagation
...
...
...
...
...
...
Données de rendement de chacun des sites
Site
Nombre
Expérience
Nombre
Code de
variété
Rendement
...
...
1
1
6
4.1
...
...
1
1
14
2.9
...
...
...
...
...
...
...
...
Dans cet exemple, le Bureau de coordination doit utiliser des techniques qui sont
intégrées à des systèmes de gestion de base de données relationnelle (SGBD) pour
combiner les informations issues des différents tableaux de données et donc de fournir
une analyse globale entre les sites.
En général, lorsque les tâches de gestion de données sont complexes, un logiciel de
gestion de base de données doit être utilisé par le projet. Cela permet à toutes les
informations d’être stockées dans une manière structurée. Si le même logiciel est
utilisé pour toutes les tâches, c'est-à-dire pour la saisie des données, vérification, la
gestion et l'analyse, est pour l'équipe de projet de décider.
© SSC 1998-2010 – Lignes directives de gestion des données
5
3. Les logiciels de traitement de données
Voici les différents types de logiciel utilisés pour la gestion des données :
 Logiciels de base de données (SGBD) ou de saisie de données, par exemple,
Access, CSPro, dBase, EpiInfo ;
 Logiciels de statistiques, par exemple Genstat, MSTAT, SAS, SPSS, Stata, R ;
 Classeurs de feuille de calcul, par exemple Excel ;
 Le traitement de texte, par exemple, Word ; ou éditeurs de texte, par exemple éd,
Notepad.
Les logiciels de saisie, de base de données, de statistiques et de feuilles de calcul
disposent des facilités qui se chevauchent pour la gestion des données. Tout gérer «
rectangles » des données, comme indiqué dans la section précédente. Dans ces
rectangles, chaque ligne fait référence à un cas ou un enregistrement, tel qu'un animal
ou une parcelle, et chaque colonne se réfère à une mesure ou variable, comme le code
de traitement ou le rendement. De manière générale, les logiciels de base de données
sont très bons à manipuler (tri, sélection, comptage) beaucoup de dossiers ou de
lignes. Ils sont aussi capables de gérer des structures de données hiérarchiques, telles
que les données d'observation recueillies à la fois dans une ferme et un niveau du
champ (récoltes), où les agriculteurs ont plus d'un champ. Les Logiciels Statistiques
sont conçus principalement pour traiter les mesures, c'est-à-dire qu'ils possèdent des
outils puissants pour faire des opérations sur les valeurs dans les variables ou les
colonnes de données. Les Tableurs font du tout –, mais avec des limites.
Nos vues générales sur les logiciels de gestion de données sont présentées ensuite.
 Transfert de données entre les logiciels est maintenant suffisamment simple pour
que le même logiciel ne soit pas utilisé pour les différentes étapes du travail.
 La tâche de saisie des données doit être séparée sur le plan conceptuel de la tâche
d'analyse. Cela aidera lorsqu'on pense quel logiciel est nécessaire pour la saisie
des données, pour des fins de vérification, pour gérer «l’archive de données » et
pour l’analyse.
 Logiciels de gestion de base de données (SGBD) devront être utilisés beaucoup
plus à l'heure actuelle. Plusieurs projets de recherche impliquant des tâches de
gestion de données qui sont suffisamment complexes pour justifier l'utilisation
d'un logiciel de base de données relationnelle comme Access.
 Les Tableurs sont apparemment le type le plus simple de logiciel à utiliser. Ils
sont souvent automatiquement choisis pour la saisie des données parce qu'ils sont
familiers, répandus et souples – mais leur grande flexibilité signifie qu'ils peuvent
entraîner des pauvres saisies et gestions de données. Ils doivent donc être utilisés
© SSC 1998-2010 – Lignes directives de gestion des données
6
avec beaucoup de soin. Les utilisateurs devraient appliquer la même rigueur et
discipline qui est obligatoire avec le logiciel de saisie des données plus structuré.
 Une plus grande attention devrait être accordée aux autres logiciels de saisie de
données. Jusqu'à récemment, les solutions de rechange ont été plus difficiles à
apprendre que les feuilles de calcul, mais les choses changent. Il ya des logiciels
spécialisés de saisie de données, par exemple CSPRO. Plusiers de logiciels de
statistiques, par exemple SPSS, ont des modules spéciaux pour la saisie des
données et sont donc candidats pour utilisation aux stades de la saisie et la
vérification.
 Si un logiciel sans aucune facilité spéciale pour la vérification des données est
utilisé pour la saisie de données, une spécification claire devrait être faite de la
façon dont la vérification des données sera effectuée.
 Un logiciel de statistiques – pas un tableur – devrait normalement être utilisé pour
l'analyse.
4. Structure de base de données
Comme mentionné dans la Section 2, la tâche de gestion des données peut-être simple
ou complexe. En termes de base de données, cette distinction correspond à savoir si
les tableaux de données sont plats ou structurés – c'est-à-dire liés ensemble de diverses
façons. La structure de la base de données est plate, si toutes les données sont à un
seul niveau et peuvent être contenues dans un tableau. Les exemples connus sont: une
liste d'adresses, un indice de carte des titres de livres de bibliothèque et une liste de
références.
Les Projets expérimentaux exigent habituellement plusieurs tableaux liés pour stocker
toutes les données. Par exemple, une expérience menée au niveau régional à plusieurs
sites peut produire un fichier plat pour stocker des informations sur chaque site,
comme la pluviométrie moyenne du site, la température maximale, emplacement du
site par exemple plus proche village ou à distance du village. Ici les lignes dans le
fichier de données seront les sites, alors que les colonnes fourniraient des différents
éléments d'information sur chaque site (comme dans l'exemple de la section 2).
Un deuxième fichier plat est utilisé pour stocker les informations sur chaque parcelle.
Les lignes de ce fichier comprendront un code pour identifier la parcelle particulière,
alors que les colonnes correspondraient aux informations de la parcelle comme l'heure
à laquelle la floraison a eu lieu dans plus de 50 % de la parcelle, les rendements de la
parcelle, ou le nombre de plantes vivantes dans la parcelle.
© SSC 1998-2010 – Lignes directives de gestion des données
7
Il faudrait encore un autre fichier plat pour stocker les informations recueillies au fil
du temps à chaque parcelle. Ici, les lignes correspondraient aux échantillons, avec
plusieurs lignes de chaque date pour avoir les différentes parcelles échantillonnées à
cette date. Les deux premières colonnes du fichier de données donneraient la date
d'échantillonnage et un code d'identification de la parcelle, tandis que les autres
colonnes tiendraient les mesures, par exemple poids des gousses ou peuplement des
plantes.
Lorsque ces trois fichiers plats sont ensemble considérés, ils forment une structure
hiérarchique, illustrée dans la figure suivante.
L'information du
Site
Un enregistrement existe pour chaque site.
SITE est l'identificateur unique.
L'information de
la Parcelle
Un enregistrement existe pour chaque parcelle au sein
du site
et comprend une référence de grille pour la parcelle.
SITE + PARCELLE constitue l'identificateur unique.
L'information de
l'échantillon
Il existe un enregistrement pour chaque échantillon.
SITE + PARCELLE + DATE constitue l'identificateur
unique.
Les informations de site résident au niveau supérieur de cette structure, les
informations de traçage la parcelle résident au niveau suivant, tandis que les
renseignements recueillis pour chaque échantillon résident au niveau plus bas de la
hiérarchie. Les informations à différents niveaux de la hiérarchie sont liées par le biais
de variables clés (ou les champs clés). La variable clef est un champ unique ou une
combinaison de champs qui peut être utilisé pour identifier un enregistrement
particulier. Un – et un seul – enregistrement tiendrait une valeur spécifique clef.
Plusieurs logiciels de base de données ne vous permettent pas de saisir un nouvel
enregistrement où la valeur de clé est la même que la valeur de clef d’un
enregistrement existant. Dans le cas de données expérimentales de ressources
naturelles, le champ clef est généralement celui qui combine le code de la parcelle
avec la date (en supposant qu'il y a un maximum d'une mesure pour chaque variable
par jour).
Les valeurs de champ clef à un niveau de la structure lient un enregistrement à
l'enregistrement (ou aux enregistrements) à un autre niveau, avec les mêmes valeurs
© SSC 1998-2010 – Lignes directives de gestion des données
8
dans les champs clés correspondants. Ces liens ou les relations entre les tableaux de la
base de données définissent la structure de la base de données. La possibilité de
stocker les structures de base de données est ce qui rend un SGBD important pour les
expérimentateurs.
5. Conception d'un système de saisie de données
Dans la conception d'un système de saisie des données, il faut tenir compte de
plusieurs aspects des données. Ces aspects sont examinés successivement.
5.1 Comprendre la structure des données
Peu de projets génèrent des données simples, la plupart ont une structure complexe
avec plus d'un fichier plat qui doit être lié dans une manière clairement définie,
comme décrit dans la section précédente. Il est essentiel que les composants de fichier
plat et les liens soient entièrement spécifiés, pour s'assurer que l'information répond
aux exigences de base de données complète, à l'intégrité et au minimum de
redondance (ou duplication) de l'information. Le logiciel de base de données moderne,
relationnel rend cette tâche relativement facile. Le Tableur n’a pas – en fait il peut
rendre la tâche plus difficile.
5.2 Identifier les types de renseignements collectés
Essayez de prévoir la gamme complète des différents types de données qui seront
collectés, par exemple les données de la parcelle peuvent consister aux données de
rendement des cultures de toutes les plantes dans la parcelle, au nombre de plantes
avec gousses de récolte, au poids total des gousses et au nombre de plantes mortes.
Construire les facilités de la fiche de collecte de données pour enregistrer toutes ces
informations. Souvent les données seront collectées de la même parcelle sur un certain
nombre d'occasions d'échantillonnage. Les Dates de ces enregistrements doivent être
conservés, avec l'espace disponible sur la feuille d'enregistrement des notes de la
parcelle ou de la ferme à ce moment précis. Ces informations secondaires seront utiles
à l'étape d'analyse de données pour expliquer tout comportement curieux des données.
Les codes sont nécessaires pour distinguer les renseignements recueillis sur différents
types de parcelles. Par exemple, certaines parcelles peuvent être principalement pour
enregistrer l'incidence de la maladie, alors que d'autres sont principalement pour le
rendement. Les Abréviations peuvent servir comme codes appropriés.
5.3 Spécifier les unités de mesure et la précision
Veiller à ce que le système de base de données spécifie clairement les unités de
mesure utilisées pour toutes les variables quantitatives. Les changements dans les
© SSC 1998-2010 – Lignes directives de gestion des données
9
unités de mesure ou personnel de terrain et de la recherche ou dans les méthodes de
collecte de données, peuvent apporter des changements dans les unités de mesure. Il
faut tenir compte au stade de la conception de base de données permettant de tels
changements à être intégrés dans les systèmes d'enregistrement de données.
Spécifier clairement la précision (nombre de décimales) à laquelle toutes les masures
doivent être inscrites. Le nombre de chiffres significatifs doit correspondre à la
véritable précision des instruments de mesure ou dispositifs d'enregistrement.
6. La saisie et la vérification
Nous considérons principalement les données qui sont collectées dans les livres de
champ ou de feuilles d'enquête. Tout d'abord, nous discutons les stratégies globales
qui peuvent être adoptées pour la saisie de données et la vérification puis donnons des
directives distinctes sur les deux aspects.
6.1 Stratégie pour la saisie des données et la vérification
Lors de la planification d'une stratégie pour la saisie des données, la distinction claire
entre la saisie de données / la vérification des données / les activités de gestion de
données et de l'analyse des données. Le but ultime devrait être une archive
entièrement documentée de données contrôlées, exactes et fiables qui peuvent être
soumises à un examen scientifique sans soulever des doutes dans l'esprit des
chercheurs concernés . Malheureusement, plusieurs projets de recherche n'atteignent
pas cela.
Le processus de saisie de données comprendra normalement une personne qualifiée,
qui conçoit le système, un subalterne, formé par exemple des opérateurs de saisie de
données ou un personnel de terrain, pour effectuer la saisie réelle. La Vérification est
effectuée au moment de la saisie et par la suite. Si le projet est petit, puis la même
personne peut planifier le système, effectuer la saisie des données et faire la
vérification, mais il est toujours utile d'avoir une stratégie claire pour les activités.
Lorsque le système de planification, vise à rendre l'étape de saisie des données aussi
simple que possible. Par exemple, dans une expérience répliquée, il ne devrait jamais
être nécessaire de taper les noms des variétés ou d longs codes de traitement pour
chaque parcelle. Une seule lettre ou le numéro est généralement suffisant. Ensuite, soit
le système de saisie de données peut insérer le code complet, soit les noms complets
peuvent être disponibles dans un fichier distinct, « recherche », tel que décrit dans la
section 2. Simplifier le processus de saisie sera la tâche rapide, qui la rend moins
fastidieuse et donc aussi moins d'erreur prédisposés.
© SSC 1998-2010 – Lignes directives de gestion des données
10
La phase de vérification logique doit être réalisée par un personnel qualifié, qui
comprend la nature des données. Cette phase comporte habituellement des analyses
préliminaires, tracé etc.
Dans la pratique, la saisie de données et la vérification sont des étapes habituellement
conçues en même temps. Cependant, la façon dont la vérification des données est
effectuée dépendra de qui a saisi les données. Quelqu’un non qualifié devrait saisir
exactement ce qu'il voit sur les fiches de données ou les livres de champ, et les
contrôles logiques (par exemple les contrôles pour écarter les mâles enceints ou le
minimum supérieur à la température maximale) doivent être faits par le personnel
scientifiquement formés après que la saisie (double) est terminée. De cette manière,
les décisions peuvent être prises sur quoi faire. Si les scientifiques ont saisi euxmêmes les données alors la saisie et la vérification des données peuvent procéder
ensemble.
6.2 Lignes directives pour la saisie des données
Ces lignes directrices peuvent se résumer comme "Faire la saisie de données
rapidement, simplement et complètement. »
 Les données devraient être saisies dans leur forme « brute » – c'est-à-dire
directement à partir des feuilles d'enregistrement ou les cahiers de champs –
chaque fois que possible. Par conséquent, elles sont saisies dans le même ordre
qu'elles ont été collectées. La copie ou de la transcription des données antérieures
à la saisie doit être gardée avec un minimum absolu.
 Toutes les données doivent être Saisies. Saisir "seulement les variables
importantes," afin qu'elles puissent être analysées rapidement, limiter les
possibilités de contrôle, qui peuvent utiliser des relations entre les variables.
Souvent, lorsque les raccourcis sont tentés, la saisie complète des données
complète doit reprendre dès le début ou (plus souvent) les variables restantes ne
sont jamais saisies.
 Aucun calcul de main ne doit être fait pour la saisie des données. Le logiciel peut
être utilisé pour transformer des données en les unités appropriées pour le contrôle
et l'analyse, par exemple les grammes par parcelle de kilogrammes par hectare, ou
de prendre des moyennes des cultures répliquées, etc.
 Une des variables saisie devrait donner un numéro d'enregistrement unique. Dans
les expériences sur le terrain cela est généralement le numéro de parcelle ou de la
sous-parcelle.
 Dans les expériences sur le terrain, la position de chaque parcelle doit être inscrite.
Cela permet aux données (et de résidus lors de l'analyse) tabulées ou tracées dans
© SSC 1998-2010 – Lignes directives de gestion des données
11
leurs positions de champ – très utiles pour des fins de vérification. Lorsque les
parcelles sont régulièrement espacées, sans aucune lacune, la position peut
provenir du nombre de parcelles. Sinon, les deux colonnes supplémentaires sont
assorties donnant la coordonnée.
 Les données doivent être saisies rapidement – c'est-à-dire dès que possible après
la collecte des données. Par exemple, où les mesures sont effectuées pendant la
saison, elles devraient normalement être saisies comme elles sont faites. Cela
accélère l'ensemble du processus, parce que la tâche de saisie de données à la fin
de l’expérience ou de l’enquête n'est donc pas si grande et redoutable. Cela aide
aussi le contrôle, parce que certains contrôles peuvent indiquer de grands
changements exceptionnellement de la valeur précédente et les valeurs étranges
peuvent ensuite être vérifiées immédiatement. Les commentaires de tous les
problèmes qui sont à la collecte de données de champ peuvent aider à maintenir la
qualité des données.
Les conseils ci-dessus s'appliquent même s'il y a des complications dans les données.
Les complications types que nous avons pensées sont les suivants :
 Les expériences sur les cultures mixes, où les parcelles ont des nombres différents
de variables mesurées, selon qu'elles soient des parcelles uniques ou mixtes.
 Des expériences de l'agroforesterie, où les données sont souvent enregistrées sur
des sous-unités différentes de chaque parcelle.
 Les mesures "Chères", comme les données des neutrons (sonde), qui peuvent être
collectées sur quelques-uns des traitements, ou sur quelques-unes des répétitions.
 Les mesures répétées, où les données, par exemple sur le degré de parasite, sont
collectées pendant la saison.
 Études sur les animaux, où l'ordre de collecte des données peut être différent à
chaque occasion.
6.3 Lignes directives pour la vérification des données
L'objectif est que les données à analyser devraient être d'une grande qualité. Par
conséquent, le processus de vérification des données commence au stade de la collecte
de données et continue jusqu'à, et pendant, l'analyse.
Contrôles lorsque les données sont collectées.
 Les données doivent être collectées et enregistrées avec soin. Examiner quels
contrôles peut on incorporer dans la routine de collecte de données. Par exemple,
les meilleurs et les pires animaux pourraient avoir un rapport sur ligne pour
© SSC 1998-2010 – Lignes directives de gestion des données
12
vérifier – et peut-être expliquer – leur nature exceptionnelle. Cela confirmera
qu'ils n'étaient pas écrits par erreur.
 Prendre en considération la collecte de certaines variables supplémentaires
spécifiquement pour aider le processus de vérification. Par exemple, dans une
expérience de haricot, le nombre de plantes avec les gousses qui sont récoltées
pourrait servir à vérifier les valeurs de rendement. Il peut être relativement bon
marché de prendre des photos aériennes (en utilisant un cerf-volant ou le ballon)
pour enregistrer l'état de chaque parcelle. Si ce n'est pas possible, enregistrer «
l’état » de la parcelle, ou même de chaque ligne de plantes dans la parcelle (par
exemple, sur une échelle de 1 à 9) peut être utile.
Vérifie alors que les données sont actuellement saisies
 Si possible, utilisez le logiciel pour la saisie des données qui a les facilités de
contrôles des données.
 Reconnaître que, en ignorant les directives de saisie des données ci-dessus peut
être contre-productif pour la vérification des données. Par exemple, changer
l'ordre des données, transformer des rendements kg/ha ou calculer et en saisissant
seulement les moyennes de cultures répliquées peut provoquer toutes les erreurs
de copie ou de calcul. Cela rend aussi plus difficile de vérifier les enregistrements
informatisés aux enregistrements originaux.
 Ne vous fiez pas la lecture ou une comparaison visuelle des données informatisées
avec les documents originaux. Bien que souvent utilisé, il n'y a pas une méthode
fiable pour trouver les erreurs clefs de saisie. .
 Envisagez l'utilisation de double saisie, où la deuxième saisie se fait par une autre
personne. Cela ne prend pas beaucoup plus de temps que la comparaison visuelle
et donne une meilleure forme de validation. Le logiciel de saisie de données
moderne dispose des facilités pour un système de double-saisie en comparaison
immédiate ou ultérieure de valeurs.
 Construire davantage les contrôles si votre logiciel le permet. Les plus simples
sont les marges de contrôles, les contrôles logiques peuvent êtres aussi utilisés.
Par exemple, pour une culture donnée, le poids des grains pourrait toujours être
inférieur à la moitié du poids des pieds.
Contrôles après la saisie
 Transformer les données peut aider le processus de vérification. Il peut être plus
facile de voir si les valeurs sont étranges si elles sont transformés en unités
familières, comme kg/ha.
© SSC 1998-2010 – Lignes directives de gestion des données
13
 Les premières analyses sont le prolongement du processus de vérification et
devrait inclure un premier regard sur des résumés des données. Des choses utiles
pour arriver à ce stade sont :
valeurs extrêmes en particulier le minimum et le maximum d'observations ;
boxplots (tracées) pour comparer les groupes de données et de mettre en
évidence des valeurs aberrantes ;
diagrammes surtout si vous utilisez des couleurs distinctes pour chaque
traitement.
tableaux les données dans l'ordre de traitement.
 Avec les données expérimentales, l'analyse de la variance initiale doit également
être considérée comme partie du processus de vérification. Particulièrement avec
les données expérimentales, il est difficile de faire tous les contrôles sans tenir
compte de la structure des données – une valeur qui est étrange pour un traitement
peut être acceptable pour un autre. Alors utiliser un logiciel pour l'analyse qui
vous permet facilement d'afficher les résidus dans une variété de façons.
7. Piste de vérification
Une piste de vérification est un registre complet de changements dans les données et
les décisions prises sur les données et l'analyse, comme un carnet. En fait, c'est
l'équivalent pour la gestion des données de la notion plutôt vieille de portable
scientifique, qui est aussi pertinente aujourd'hui que jamais. Une piste de vérification
bien entretenue, journal de bord ou ordinateur portable facilite assez les tâches
ultérieures de rédiger des rapports sur les données et de répondre aux requêtes de
données.
Il est important d'enregistrer tout ce que vous faites au moment où vous le faites,
comme les souvenirs sont toujours pauvres à un stade ultérieur. Par exemple, lorsque
des erreurs sont détectées au cours de vérification et les changements sont faits à la
copie des données, il faut une note dans la piste de vérification. Garder les Notes aussi
sur les analyses que vous faites (y compris les préliminaires faites pour des fins de
vérification), écrire les noms de tous les fichiers créés. Chaque saisie dans le journal
de bord doit être datée et paraphée.
Il y a vraiment rien de nouveau ici – nous sommes simplement repris une exigence
fondamentale de la méthode scientifique, à savoir que vous devez vous assurer que la
gestion de vos données est un travail répétable, en gardant les bons enregistrements
de ce que vous faites.
© SSC 1998-2010 – Lignes directives de gestion des données
14
8. Organiser les données pour l'analyse
Nous avons recommandé que les données doivent être saisies dans leur forme brute.
C'est pourquoi la première étape d'organisation ou de la gestion des données implique
souvent des calculs pour réorganiser les données dans le formulaire approprié pour
l'analyse. Cela peut soit être effectué dans le logiciel utilisé pour la saisie des données,
ou dans le logiciel de statistiques qui est utilisé pour l'analyse. Nous vous
recommandons :
Un enregistrement doit être conservé pour toutes les modifications apportées aux
données. Ce dossier devient une partie de la base de données et est conservé dans
la piste de vérification. Plusieurs logiciels permettent de transformer les données
et de les réorganiser visuellement, mais encore générer un fichier correspondant
qui enregistre les transformations.
Il devrait être une seule « copie maître » des données. Il s'agit d'un principe standard
de gestion des données, afin de préserver l'intégrité des données.
La copie principale augmentera la taille comme données ont augmenté. Même après
que la saisie de base soit terminée, les erreurs qui seront détectées et devraient
évidemment être corrigées dans la copie principale. Il y a donc quelque chose qui
change au cours de la saisie des données, la gestion des données et l'analyse. Non
seulement ce processus doit être documenté, mais un système cohérent de «
numérotation de version » devrait être évolué et utilisé par tous les analystes de
données et d'autres utilisateurs.
À notre avis la « copie maître » devrait généralement être gardée à l'aide d'un SGBD.
Seulement quelques-uns des tableaux de données seront changés par les modifications
de données. Par exemple, Mr. A. l'anthropologue ne peut pas immédiatement se
préoccuper de modifications apportées aux documents expérimentales faites par Mme
B le biologiste, mais devrait être à jour avec des ajouts à la liste des sites convenus par
Dr C le chef. Suivre et communiquer les modifications apportées à la copie principale
des données doit être une activité de gestion de projet comme la gestion budgétaire.
Habituellement les analyses et les rapports seront basés sur des extraits de la copie
principale des données. Lorsque les produits finis pour la présentation ou la
publication sont produits, il est important, qu’ils soient corrects, cohérents et complets
puisqu'ils sont tous basés sur la version finale de copie principale des données. Les
analyses provisoires ont été faites sur des données provisoires, et pour éviter toute
confusion et incohérence, l’analyse des séries de données, les noms de fichier et les
résultats devraient avoir un enregistrement du numéro de version de copie principale
d'où ils proviennent.
© SSC 1998-2010 – Lignes directives de gestion des données
15
9. Analyse
Dans la perspective de gestion de données, l'analyse simplement prend les données
brutes et produit des résumés. On peut considérer le processus en deux étapes. La
première est la production de résultats pour permettre à l'équipe de recherche de
comprendre leurs données. La seconde est la préparation des résumés clés qui sera
présentée aux autres dans les rapports et les séminaires. Le logiciel de statistiques
utilisé pour l'analyse devrait donc satisfaire aux exigences des deux stades.
 Il devrait inclure des capacités de reproduction des tableaux et de graphiques pour
faciliter les investigations exploratoires des données. Une de ces utilisations est de
poursuivre le processus de vérification et donc s'assurer que les résumés présentés
sont significatifs.
 Les possibilités pour l'analyse devraient permettre la présentation des résultats
sous une forme qui aide l'équipe de recherche dans leur interprétation des
données.
 Le logiciel devrait permettre d’afficher les résultats d'une manière qui se
rapproche étroitement aux tableaux, graphiques et autres résumés qui seront inclus
dans les rapports.
La plupart des logiciels statistiques actuels disposent de bonnes facilités pour les
graphismes exploratoires qui aident les chercheurs à poursuivre le contrôle des
données et à comprendre leurs données. Certains, par exemple R et Stata, ont
également d'excellentes facilités pour les graphiques de présentation, mais d'autres ne
correspondent pas à ceux des logiciels graphiques spécialisés, au moins pour une
utilisation facile. Si cela est important dans une étude particulière, le logiciel de
statistiques doit être capable de gérer les données de synthèse d'une manière qui peut
facilement être exportée à un logiciel de graphiques.
10. Sauvegarde
Il est essentiel d'élaborer un système régulier "backups" (copies) de vos fichiers de
données et des fichiers des commandes. L'omission de le faire peut entraîner des
pertes des éléments importants des données de recherche. Les gestionnaires de projet
devraient établir une routine documentée pour faire régulièrement des copies de
sécurité des données et insistent pour que tous les membres de l'équipe de recherche
suivent la routine.
© SSC 1998-2010 – Lignes directives de gestion des données
16
11. Archivage des Données
Les données et les programmes d'un projet de recherche doivent être archivés de telle
manière qu'ils sont sans danger et qu'ils peuvent être consultés par un utilisateur à
l’avenir.
Bien que la copie de données à l'archive est à la fin du projet, la façon dont
l'information sera transférée à l'archive devrait être planifiée dès le départ. La
planification attentive sera utile tout au long du projet, car elle contribue à promouvoir
une structure cohérente de répertoire et une convention d'appellation des fichiers
informatiques et encourage également l'enregistrement de toutes les étapes du projet
(voir la section 7).
L'archive est plus qu'un lieu de stockage permanent pour les fichiers utilisés pour
l'analyse. Elle doit donner accès à toutes les informations de l'expérience ou de projet.
Au cours de la phase opérationnelle d'un projet, l'information sur la recherche est en
partie dans l'ordinateur, en partie sur papier et d'autres médias (tels que les
photographies) et en partie dans l'esprit de l'équipe de recherche. L'archive n’a pas
besoin de tout informatisé, mais elle doit inclure tous les renseignements pertinents,
non-éphémères qui sont dans l'esprit de l'équipe de recherche. Lorsque les données ne
peuvent pas être archivées électroniquement, les sources d'information doivent encore
être enregistrées dans l'archive.
En l'absence d'un système d'archivage approprié, le résultat habituel est que les
chercheurs en congé, emportent avec eux la seule copie de leur part des données et
espèrent que l'analyse et la description seront plus tard poursuivies. Finalement
l'espoir diminue et les séries de données deviennent effectivement perdues pour des
recherches plus intéressés. Pour éviter ce résultat, nous croyons que (i) au moins une
copie complète de l'archive doit être laissée localement, et (ii) le rapport final devrait
détailler la structure de l'archive et les mesures prises pour s'assurer de sa bonne
sauvegarde.
© SSC 1998-2010 – Lignes directives de gestion des données
17
Le Centre des Services Statistiques (SSC) est rattaché au Département de Statistiques
Appliquées de l'Université de Reading, Royaume-Uni, et assure les formations et
donne conseils, dans un but non-lucratif pour les clients en dehors de l'Université.
Ces guides statistiques ont été développés dans le cadre d'un contrat avec le DFID
pour donner des orientations et soutenir le personnel de recherche travaillant sur les
ressources naturelles des projets DFID.
Les titres disponibles sont listés ci-dessous.



















Statistical Guidelines for Natural Resources Projects
On-Farm Trials – Some Biometric Guidelines
Data Management Guidelines for Experimental Projects
Guidelines for Planning Effective Surveys
Project Data Archiving – Lessons from a Case Study
Informative Presentation of Tables, Graphs and Statistics
Concepts Underlying the Design of Experiments
One Animal per Farm?
Disciplined Use of Spreadsheets for Data Entry
The Role of a Database Package for Research Projects
Excel for Statistics: Tips and Warnings
The Statistical Background to ANOVA
Moving on from MSTAT (to Genstat)
Some Basic Ideas of Sampling
Modern Methods of Analysis
Confidence & Significance: Key Concepts of Inferential Statistics
Modern Approaches to the Analysis of Experimental Data
Approaches to the Analysis of Survey Data
Mixed Models and Multilevel Data Structures in Agriculture
Les guides sont disponibles sous forme imprimée et sous forme Electronique. Pour
obtenir des exemplaires ou pour de plus amples renseignements au sujet du SSC, s'il
vous plaît utiliser les coordonnées ci-dessous.
Statistical Services Centre,
University of Reading
P.O. Box 240, Reading, RG6 6FN United Kingdom
tel: SSC Administration
+44 118 378 8025
fax:
+44 118 378 8458
e-mail:
[email protected]
web:
http://www.reading.ac.uk/ssc/