Lignes directives de gestion des données des projets de
Transcription
Lignes directives de gestion des données des projets de
Lignes directives de gestion des données des projets de développement Mars 1998 Mise à jour de 2010 Traduit par Zobinou Mawusi Université de Reading Centre des Services Statistiques Conseil en Biométrie et Services de Soutien au DFID Contenu 1. Introduction ................................................................................3 2. Ce que nous entendons par « les données » .............................3 3. Les logiciels de traitement de données ......................................6 4. Structure de base de données ...................................................7 5. Conception d'un système de saisie de données ........................9 5.1 Comprendre la structure des données .................................9 5.2 Identifier les types de renseignements collectés ..................9 5.3 Spécifier les unités de mesure et la précision.......................9 6. La saisie et la vérification ......................................................... 10 6.1 Stratégie pour la saisie des données et la vérification ........ 10 6.2 Lignes directives pour la saisie des données ..................... 11 6.3 Lignes directives pour la vérification des données ............. 12 Contrôles lorsque les données sont collectées. .................. 12 Vérifie alors que les données sont actuellement saisies................................................................................. 13 Contrôles après la saisie ..................................................... 13 7. Piste de vérification ..................................................................14 8. Organiser les données pour l'analyse ...................................... 15 9. Analyse .................................................................................... 16 10. Sauvegarde ........................................................................... 16 11. Archivage des Données ......................................................... 17 © SSC 1998-2010 – Lignes directives de gestion des données 2 1. Introduction Les projets de recherche gèrent souvent la collection d'un volume important de données. Les données doivent ensuite être traitées et analysées, avec des résultats et des résumés en cours de préparation pour publication dans une forme quelconque. Pour cette séquence de procéder sans heurts, le projet nécessite un système bien défini de gestion des données. Cette brochure donne des lignes directives sur les composantes d'un tel système. Les principales étapes du processus de gestion des données dans un projet de recherche sont les suivantes : Les données brutes doivent être conclues à l'ordinateur et vérifiées; Les données ont ensuite à être organisée dans une forme appropriée pour l'analyse (souvent dans différentes façons, selon l'analyse); Les données doivent être archivées, afin qu'elles restent disponibles tout au long des phases ultérieures d'un projet et par la suite. Beaucoup d'exemples dans cette brochure concerne des projets impliquant des données expérimentales, mais les concepts sont également valables pour les enquêtes. Les expérimentateurs ont parfois été moins conscients que leurs collègues d'enquête de la valeur de la gestion des données prudent jusqu'à assez tard dans leur projet, et la recherche a subi en conséquence. Nous espérons que ces lignes directives aideront les chercheurs à planifier les aspects de la gestion des données de leur projet dès le départ. 2. Ce que nous entendons par « les données » Au niveau plus simple, « les données » sont les valeurs enregistrées dans le livres de champ, registres ou dispositifs d'enregistrement de données, qui sont saisies dans l'ordinateur et ensuite analysées. Un exemple d'une simple série de données – un tableau de lignes et de colonnes – est illustré ci-dessous. Une simple série de données Parcelle Réplicat Traitement Fleur Poids total Poids des Pieds Poids des grains 101 1 4 26 25.2 6.6 1.7 102 1 2 28 32.7 8.8 2.4 … … … … … … … 416 4 8 26 19.7 4.9 5.3 © SSC 1998-2010 – Lignes directives de gestion des données 3 L'information contenue dans ce tableau est certainement nécessaire pour l'analyse, mais elle est incomplète. L’information supplémentaire dans le protocole qui donne des détails sur, par exemple, les traitements, le type de conception, le plan de champ et les unités utilisées pour les mesures, est également nécessaire, pour l'analyse et l'archive. Cette information est parfois appelée « métadonnées » – mais quel que soit le nom qui est utilisé, elle devrait être considérée comme faisant partie intégrante et tout aussi important que les données du tableau. Nous sommes maintenant dans un monde multimédia, pour les photographies et les cartes peuvent être considérées comme partie de la « métadonnées », comme les rapports, de discussions et d'autres documents de présentation. Pendant la majeure partie de la présente brochure nous utilisons les données de mot relativement étroites, mais nous retournerons au sens plus large qui englobe ces documents dans la section sur l'archivage. On peut considérer à peu près la tâche de gestion des données dans un projet comme simple Si toutes les données pour être informatisées ont été collectées sur un seul type d'unité, par exemple des parcelles ou des animaux. La tâche est complexe, où les données ont été collectées d'un certain nombre d'unités de différents niveaux. Par exemple, dans une étude à la ferme, il y aura souvent des données d’interview au niveau de la ferme et réponse des mesures au niveau de la parcelle, les animaux ou les arbres. Parfois la complexité des tâches de gestion de données diffère selon les différentes parties d'un projet. Un exemple est un projet régional constitué d'un essai de variété sur chaque site, où les données doivent être assorties à chacun des sites. Dans un tel projet, l'ensemble des variétés n'est souvent pas identique à tous les sites. Puis la saisie de données de chaque site est simple, c'est-à-dire qu'il est un rectangle unique, comme dans l'exemple ci-dessus. Toutefois, le Bureau de la coordination régionale pourra avoir besoin de quatre autres séries de données, comme suit : Données sur chaque site, par exemple, nom, emplacement, du type de sol Site Nombre Site Nom Pays Latitude Longitude Altitude (mètres) Sol Type ... 1 Dori Bénin 10.654 2.813 200 C ... 2 Gaya Niger 12.109 4.171 175 D ... ... ... ... ... ... ... ... ... 46 Mara Niger 12.576 2.543 140 D ... © SSC 1998-2010 – Lignes directives de gestion des données 4 Données sur chaque expérience sur un site, par exemple la date de la plantation, les problèmes d'insectes Site Nombre Expérience Nombre Année Date Plantation Stress Problème parasites ... 1 1 1997 12 Juin doux mineur ... 1 2 1997 16 Juin aucun aucun ... 1 3 1998 2 Juillet aucun aucun ... 2 1 1997 19 Juin grave majeur ... ... ... ... ... ... ... ... Données sur chaque variété utilisée dans le projet, par exemple nom, origine, type Code de variété Nom de la variété Origine Type ... 12 OFT1226 Mali ériger ... 14 PLO2279 Togo propagation ... ... ... ... ... ... Données de rendement de chacun des sites Site Nombre Expérience Nombre Code de variété Rendement ... ... 1 1 6 4.1 ... ... 1 1 14 2.9 ... ... ... ... ... ... ... ... Dans cet exemple, le Bureau de coordination doit utiliser des techniques qui sont intégrées à des systèmes de gestion de base de données relationnelle (SGBD) pour combiner les informations issues des différents tableaux de données et donc de fournir une analyse globale entre les sites. En général, lorsque les tâches de gestion de données sont complexes, un logiciel de gestion de base de données doit être utilisé par le projet. Cela permet à toutes les informations d’être stockées dans une manière structurée. Si le même logiciel est utilisé pour toutes les tâches, c'est-à-dire pour la saisie des données, vérification, la gestion et l'analyse, est pour l'équipe de projet de décider. © SSC 1998-2010 – Lignes directives de gestion des données 5 3. Les logiciels de traitement de données Voici les différents types de logiciel utilisés pour la gestion des données : Logiciels de base de données (SGBD) ou de saisie de données, par exemple, Access, CSPro, dBase, EpiInfo ; Logiciels de statistiques, par exemple Genstat, MSTAT, SAS, SPSS, Stata, R ; Classeurs de feuille de calcul, par exemple Excel ; Le traitement de texte, par exemple, Word ; ou éditeurs de texte, par exemple éd, Notepad. Les logiciels de saisie, de base de données, de statistiques et de feuilles de calcul disposent des facilités qui se chevauchent pour la gestion des données. Tout gérer « rectangles » des données, comme indiqué dans la section précédente. Dans ces rectangles, chaque ligne fait référence à un cas ou un enregistrement, tel qu'un animal ou une parcelle, et chaque colonne se réfère à une mesure ou variable, comme le code de traitement ou le rendement. De manière générale, les logiciels de base de données sont très bons à manipuler (tri, sélection, comptage) beaucoup de dossiers ou de lignes. Ils sont aussi capables de gérer des structures de données hiérarchiques, telles que les données d'observation recueillies à la fois dans une ferme et un niveau du champ (récoltes), où les agriculteurs ont plus d'un champ. Les Logiciels Statistiques sont conçus principalement pour traiter les mesures, c'est-à-dire qu'ils possèdent des outils puissants pour faire des opérations sur les valeurs dans les variables ou les colonnes de données. Les Tableurs font du tout –, mais avec des limites. Nos vues générales sur les logiciels de gestion de données sont présentées ensuite. Transfert de données entre les logiciels est maintenant suffisamment simple pour que le même logiciel ne soit pas utilisé pour les différentes étapes du travail. La tâche de saisie des données doit être séparée sur le plan conceptuel de la tâche d'analyse. Cela aidera lorsqu'on pense quel logiciel est nécessaire pour la saisie des données, pour des fins de vérification, pour gérer «l’archive de données » et pour l’analyse. Logiciels de gestion de base de données (SGBD) devront être utilisés beaucoup plus à l'heure actuelle. Plusieurs projets de recherche impliquant des tâches de gestion de données qui sont suffisamment complexes pour justifier l'utilisation d'un logiciel de base de données relationnelle comme Access. Les Tableurs sont apparemment le type le plus simple de logiciel à utiliser. Ils sont souvent automatiquement choisis pour la saisie des données parce qu'ils sont familiers, répandus et souples – mais leur grande flexibilité signifie qu'ils peuvent entraîner des pauvres saisies et gestions de données. Ils doivent donc être utilisés © SSC 1998-2010 – Lignes directives de gestion des données 6 avec beaucoup de soin. Les utilisateurs devraient appliquer la même rigueur et discipline qui est obligatoire avec le logiciel de saisie des données plus structuré. Une plus grande attention devrait être accordée aux autres logiciels de saisie de données. Jusqu'à récemment, les solutions de rechange ont été plus difficiles à apprendre que les feuilles de calcul, mais les choses changent. Il ya des logiciels spécialisés de saisie de données, par exemple CSPRO. Plusiers de logiciels de statistiques, par exemple SPSS, ont des modules spéciaux pour la saisie des données et sont donc candidats pour utilisation aux stades de la saisie et la vérification. Si un logiciel sans aucune facilité spéciale pour la vérification des données est utilisé pour la saisie de données, une spécification claire devrait être faite de la façon dont la vérification des données sera effectuée. Un logiciel de statistiques – pas un tableur – devrait normalement être utilisé pour l'analyse. 4. Structure de base de données Comme mentionné dans la Section 2, la tâche de gestion des données peut-être simple ou complexe. En termes de base de données, cette distinction correspond à savoir si les tableaux de données sont plats ou structurés – c'est-à-dire liés ensemble de diverses façons. La structure de la base de données est plate, si toutes les données sont à un seul niveau et peuvent être contenues dans un tableau. Les exemples connus sont: une liste d'adresses, un indice de carte des titres de livres de bibliothèque et une liste de références. Les Projets expérimentaux exigent habituellement plusieurs tableaux liés pour stocker toutes les données. Par exemple, une expérience menée au niveau régional à plusieurs sites peut produire un fichier plat pour stocker des informations sur chaque site, comme la pluviométrie moyenne du site, la température maximale, emplacement du site par exemple plus proche village ou à distance du village. Ici les lignes dans le fichier de données seront les sites, alors que les colonnes fourniraient des différents éléments d'information sur chaque site (comme dans l'exemple de la section 2). Un deuxième fichier plat est utilisé pour stocker les informations sur chaque parcelle. Les lignes de ce fichier comprendront un code pour identifier la parcelle particulière, alors que les colonnes correspondraient aux informations de la parcelle comme l'heure à laquelle la floraison a eu lieu dans plus de 50 % de la parcelle, les rendements de la parcelle, ou le nombre de plantes vivantes dans la parcelle. © SSC 1998-2010 – Lignes directives de gestion des données 7 Il faudrait encore un autre fichier plat pour stocker les informations recueillies au fil du temps à chaque parcelle. Ici, les lignes correspondraient aux échantillons, avec plusieurs lignes de chaque date pour avoir les différentes parcelles échantillonnées à cette date. Les deux premières colonnes du fichier de données donneraient la date d'échantillonnage et un code d'identification de la parcelle, tandis que les autres colonnes tiendraient les mesures, par exemple poids des gousses ou peuplement des plantes. Lorsque ces trois fichiers plats sont ensemble considérés, ils forment une structure hiérarchique, illustrée dans la figure suivante. L'information du Site Un enregistrement existe pour chaque site. SITE est l'identificateur unique. L'information de la Parcelle Un enregistrement existe pour chaque parcelle au sein du site et comprend une référence de grille pour la parcelle. SITE + PARCELLE constitue l'identificateur unique. L'information de l'échantillon Il existe un enregistrement pour chaque échantillon. SITE + PARCELLE + DATE constitue l'identificateur unique. Les informations de site résident au niveau supérieur de cette structure, les informations de traçage la parcelle résident au niveau suivant, tandis que les renseignements recueillis pour chaque échantillon résident au niveau plus bas de la hiérarchie. Les informations à différents niveaux de la hiérarchie sont liées par le biais de variables clés (ou les champs clés). La variable clef est un champ unique ou une combinaison de champs qui peut être utilisé pour identifier un enregistrement particulier. Un – et un seul – enregistrement tiendrait une valeur spécifique clef. Plusieurs logiciels de base de données ne vous permettent pas de saisir un nouvel enregistrement où la valeur de clé est la même que la valeur de clef d’un enregistrement existant. Dans le cas de données expérimentales de ressources naturelles, le champ clef est généralement celui qui combine le code de la parcelle avec la date (en supposant qu'il y a un maximum d'une mesure pour chaque variable par jour). Les valeurs de champ clef à un niveau de la structure lient un enregistrement à l'enregistrement (ou aux enregistrements) à un autre niveau, avec les mêmes valeurs © SSC 1998-2010 – Lignes directives de gestion des données 8 dans les champs clés correspondants. Ces liens ou les relations entre les tableaux de la base de données définissent la structure de la base de données. La possibilité de stocker les structures de base de données est ce qui rend un SGBD important pour les expérimentateurs. 5. Conception d'un système de saisie de données Dans la conception d'un système de saisie des données, il faut tenir compte de plusieurs aspects des données. Ces aspects sont examinés successivement. 5.1 Comprendre la structure des données Peu de projets génèrent des données simples, la plupart ont une structure complexe avec plus d'un fichier plat qui doit être lié dans une manière clairement définie, comme décrit dans la section précédente. Il est essentiel que les composants de fichier plat et les liens soient entièrement spécifiés, pour s'assurer que l'information répond aux exigences de base de données complète, à l'intégrité et au minimum de redondance (ou duplication) de l'information. Le logiciel de base de données moderne, relationnel rend cette tâche relativement facile. Le Tableur n’a pas – en fait il peut rendre la tâche plus difficile. 5.2 Identifier les types de renseignements collectés Essayez de prévoir la gamme complète des différents types de données qui seront collectés, par exemple les données de la parcelle peuvent consister aux données de rendement des cultures de toutes les plantes dans la parcelle, au nombre de plantes avec gousses de récolte, au poids total des gousses et au nombre de plantes mortes. Construire les facilités de la fiche de collecte de données pour enregistrer toutes ces informations. Souvent les données seront collectées de la même parcelle sur un certain nombre d'occasions d'échantillonnage. Les Dates de ces enregistrements doivent être conservés, avec l'espace disponible sur la feuille d'enregistrement des notes de la parcelle ou de la ferme à ce moment précis. Ces informations secondaires seront utiles à l'étape d'analyse de données pour expliquer tout comportement curieux des données. Les codes sont nécessaires pour distinguer les renseignements recueillis sur différents types de parcelles. Par exemple, certaines parcelles peuvent être principalement pour enregistrer l'incidence de la maladie, alors que d'autres sont principalement pour le rendement. Les Abréviations peuvent servir comme codes appropriés. 5.3 Spécifier les unités de mesure et la précision Veiller à ce que le système de base de données spécifie clairement les unités de mesure utilisées pour toutes les variables quantitatives. Les changements dans les © SSC 1998-2010 – Lignes directives de gestion des données 9 unités de mesure ou personnel de terrain et de la recherche ou dans les méthodes de collecte de données, peuvent apporter des changements dans les unités de mesure. Il faut tenir compte au stade de la conception de base de données permettant de tels changements à être intégrés dans les systèmes d'enregistrement de données. Spécifier clairement la précision (nombre de décimales) à laquelle toutes les masures doivent être inscrites. Le nombre de chiffres significatifs doit correspondre à la véritable précision des instruments de mesure ou dispositifs d'enregistrement. 6. La saisie et la vérification Nous considérons principalement les données qui sont collectées dans les livres de champ ou de feuilles d'enquête. Tout d'abord, nous discutons les stratégies globales qui peuvent être adoptées pour la saisie de données et la vérification puis donnons des directives distinctes sur les deux aspects. 6.1 Stratégie pour la saisie des données et la vérification Lors de la planification d'une stratégie pour la saisie des données, la distinction claire entre la saisie de données / la vérification des données / les activités de gestion de données et de l'analyse des données. Le but ultime devrait être une archive entièrement documentée de données contrôlées, exactes et fiables qui peuvent être soumises à un examen scientifique sans soulever des doutes dans l'esprit des chercheurs concernés . Malheureusement, plusieurs projets de recherche n'atteignent pas cela. Le processus de saisie de données comprendra normalement une personne qualifiée, qui conçoit le système, un subalterne, formé par exemple des opérateurs de saisie de données ou un personnel de terrain, pour effectuer la saisie réelle. La Vérification est effectuée au moment de la saisie et par la suite. Si le projet est petit, puis la même personne peut planifier le système, effectuer la saisie des données et faire la vérification, mais il est toujours utile d'avoir une stratégie claire pour les activités. Lorsque le système de planification, vise à rendre l'étape de saisie des données aussi simple que possible. Par exemple, dans une expérience répliquée, il ne devrait jamais être nécessaire de taper les noms des variétés ou d longs codes de traitement pour chaque parcelle. Une seule lettre ou le numéro est généralement suffisant. Ensuite, soit le système de saisie de données peut insérer le code complet, soit les noms complets peuvent être disponibles dans un fichier distinct, « recherche », tel que décrit dans la section 2. Simplifier le processus de saisie sera la tâche rapide, qui la rend moins fastidieuse et donc aussi moins d'erreur prédisposés. © SSC 1998-2010 – Lignes directives de gestion des données 10 La phase de vérification logique doit être réalisée par un personnel qualifié, qui comprend la nature des données. Cette phase comporte habituellement des analyses préliminaires, tracé etc. Dans la pratique, la saisie de données et la vérification sont des étapes habituellement conçues en même temps. Cependant, la façon dont la vérification des données est effectuée dépendra de qui a saisi les données. Quelqu’un non qualifié devrait saisir exactement ce qu'il voit sur les fiches de données ou les livres de champ, et les contrôles logiques (par exemple les contrôles pour écarter les mâles enceints ou le minimum supérieur à la température maximale) doivent être faits par le personnel scientifiquement formés après que la saisie (double) est terminée. De cette manière, les décisions peuvent être prises sur quoi faire. Si les scientifiques ont saisi euxmêmes les données alors la saisie et la vérification des données peuvent procéder ensemble. 6.2 Lignes directives pour la saisie des données Ces lignes directrices peuvent se résumer comme "Faire la saisie de données rapidement, simplement et complètement. » Les données devraient être saisies dans leur forme « brute » – c'est-à-dire directement à partir des feuilles d'enregistrement ou les cahiers de champs – chaque fois que possible. Par conséquent, elles sont saisies dans le même ordre qu'elles ont été collectées. La copie ou de la transcription des données antérieures à la saisie doit être gardée avec un minimum absolu. Toutes les données doivent être Saisies. Saisir "seulement les variables importantes," afin qu'elles puissent être analysées rapidement, limiter les possibilités de contrôle, qui peuvent utiliser des relations entre les variables. Souvent, lorsque les raccourcis sont tentés, la saisie complète des données complète doit reprendre dès le début ou (plus souvent) les variables restantes ne sont jamais saisies. Aucun calcul de main ne doit être fait pour la saisie des données. Le logiciel peut être utilisé pour transformer des données en les unités appropriées pour le contrôle et l'analyse, par exemple les grammes par parcelle de kilogrammes par hectare, ou de prendre des moyennes des cultures répliquées, etc. Une des variables saisie devrait donner un numéro d'enregistrement unique. Dans les expériences sur le terrain cela est généralement le numéro de parcelle ou de la sous-parcelle. Dans les expériences sur le terrain, la position de chaque parcelle doit être inscrite. Cela permet aux données (et de résidus lors de l'analyse) tabulées ou tracées dans © SSC 1998-2010 – Lignes directives de gestion des données 11 leurs positions de champ – très utiles pour des fins de vérification. Lorsque les parcelles sont régulièrement espacées, sans aucune lacune, la position peut provenir du nombre de parcelles. Sinon, les deux colonnes supplémentaires sont assorties donnant la coordonnée. Les données doivent être saisies rapidement – c'est-à-dire dès que possible après la collecte des données. Par exemple, où les mesures sont effectuées pendant la saison, elles devraient normalement être saisies comme elles sont faites. Cela accélère l'ensemble du processus, parce que la tâche de saisie de données à la fin de l’expérience ou de l’enquête n'est donc pas si grande et redoutable. Cela aide aussi le contrôle, parce que certains contrôles peuvent indiquer de grands changements exceptionnellement de la valeur précédente et les valeurs étranges peuvent ensuite être vérifiées immédiatement. Les commentaires de tous les problèmes qui sont à la collecte de données de champ peuvent aider à maintenir la qualité des données. Les conseils ci-dessus s'appliquent même s'il y a des complications dans les données. Les complications types que nous avons pensées sont les suivants : Les expériences sur les cultures mixes, où les parcelles ont des nombres différents de variables mesurées, selon qu'elles soient des parcelles uniques ou mixtes. Des expériences de l'agroforesterie, où les données sont souvent enregistrées sur des sous-unités différentes de chaque parcelle. Les mesures "Chères", comme les données des neutrons (sonde), qui peuvent être collectées sur quelques-uns des traitements, ou sur quelques-unes des répétitions. Les mesures répétées, où les données, par exemple sur le degré de parasite, sont collectées pendant la saison. Études sur les animaux, où l'ordre de collecte des données peut être différent à chaque occasion. 6.3 Lignes directives pour la vérification des données L'objectif est que les données à analyser devraient être d'une grande qualité. Par conséquent, le processus de vérification des données commence au stade de la collecte de données et continue jusqu'à, et pendant, l'analyse. Contrôles lorsque les données sont collectées. Les données doivent être collectées et enregistrées avec soin. Examiner quels contrôles peut on incorporer dans la routine de collecte de données. Par exemple, les meilleurs et les pires animaux pourraient avoir un rapport sur ligne pour © SSC 1998-2010 – Lignes directives de gestion des données 12 vérifier – et peut-être expliquer – leur nature exceptionnelle. Cela confirmera qu'ils n'étaient pas écrits par erreur. Prendre en considération la collecte de certaines variables supplémentaires spécifiquement pour aider le processus de vérification. Par exemple, dans une expérience de haricot, le nombre de plantes avec les gousses qui sont récoltées pourrait servir à vérifier les valeurs de rendement. Il peut être relativement bon marché de prendre des photos aériennes (en utilisant un cerf-volant ou le ballon) pour enregistrer l'état de chaque parcelle. Si ce n'est pas possible, enregistrer « l’état » de la parcelle, ou même de chaque ligne de plantes dans la parcelle (par exemple, sur une échelle de 1 à 9) peut être utile. Vérifie alors que les données sont actuellement saisies Si possible, utilisez le logiciel pour la saisie des données qui a les facilités de contrôles des données. Reconnaître que, en ignorant les directives de saisie des données ci-dessus peut être contre-productif pour la vérification des données. Par exemple, changer l'ordre des données, transformer des rendements kg/ha ou calculer et en saisissant seulement les moyennes de cultures répliquées peut provoquer toutes les erreurs de copie ou de calcul. Cela rend aussi plus difficile de vérifier les enregistrements informatisés aux enregistrements originaux. Ne vous fiez pas la lecture ou une comparaison visuelle des données informatisées avec les documents originaux. Bien que souvent utilisé, il n'y a pas une méthode fiable pour trouver les erreurs clefs de saisie. . Envisagez l'utilisation de double saisie, où la deuxième saisie se fait par une autre personne. Cela ne prend pas beaucoup plus de temps que la comparaison visuelle et donne une meilleure forme de validation. Le logiciel de saisie de données moderne dispose des facilités pour un système de double-saisie en comparaison immédiate ou ultérieure de valeurs. Construire davantage les contrôles si votre logiciel le permet. Les plus simples sont les marges de contrôles, les contrôles logiques peuvent êtres aussi utilisés. Par exemple, pour une culture donnée, le poids des grains pourrait toujours être inférieur à la moitié du poids des pieds. Contrôles après la saisie Transformer les données peut aider le processus de vérification. Il peut être plus facile de voir si les valeurs sont étranges si elles sont transformés en unités familières, comme kg/ha. © SSC 1998-2010 – Lignes directives de gestion des données 13 Les premières analyses sont le prolongement du processus de vérification et devrait inclure un premier regard sur des résumés des données. Des choses utiles pour arriver à ce stade sont : valeurs extrêmes en particulier le minimum et le maximum d'observations ; boxplots (tracées) pour comparer les groupes de données et de mettre en évidence des valeurs aberrantes ; diagrammes surtout si vous utilisez des couleurs distinctes pour chaque traitement. tableaux les données dans l'ordre de traitement. Avec les données expérimentales, l'analyse de la variance initiale doit également être considérée comme partie du processus de vérification. Particulièrement avec les données expérimentales, il est difficile de faire tous les contrôles sans tenir compte de la structure des données – une valeur qui est étrange pour un traitement peut être acceptable pour un autre. Alors utiliser un logiciel pour l'analyse qui vous permet facilement d'afficher les résidus dans une variété de façons. 7. Piste de vérification Une piste de vérification est un registre complet de changements dans les données et les décisions prises sur les données et l'analyse, comme un carnet. En fait, c'est l'équivalent pour la gestion des données de la notion plutôt vieille de portable scientifique, qui est aussi pertinente aujourd'hui que jamais. Une piste de vérification bien entretenue, journal de bord ou ordinateur portable facilite assez les tâches ultérieures de rédiger des rapports sur les données et de répondre aux requêtes de données. Il est important d'enregistrer tout ce que vous faites au moment où vous le faites, comme les souvenirs sont toujours pauvres à un stade ultérieur. Par exemple, lorsque des erreurs sont détectées au cours de vérification et les changements sont faits à la copie des données, il faut une note dans la piste de vérification. Garder les Notes aussi sur les analyses que vous faites (y compris les préliminaires faites pour des fins de vérification), écrire les noms de tous les fichiers créés. Chaque saisie dans le journal de bord doit être datée et paraphée. Il y a vraiment rien de nouveau ici – nous sommes simplement repris une exigence fondamentale de la méthode scientifique, à savoir que vous devez vous assurer que la gestion de vos données est un travail répétable, en gardant les bons enregistrements de ce que vous faites. © SSC 1998-2010 – Lignes directives de gestion des données 14 8. Organiser les données pour l'analyse Nous avons recommandé que les données doivent être saisies dans leur forme brute. C'est pourquoi la première étape d'organisation ou de la gestion des données implique souvent des calculs pour réorganiser les données dans le formulaire approprié pour l'analyse. Cela peut soit être effectué dans le logiciel utilisé pour la saisie des données, ou dans le logiciel de statistiques qui est utilisé pour l'analyse. Nous vous recommandons : Un enregistrement doit être conservé pour toutes les modifications apportées aux données. Ce dossier devient une partie de la base de données et est conservé dans la piste de vérification. Plusieurs logiciels permettent de transformer les données et de les réorganiser visuellement, mais encore générer un fichier correspondant qui enregistre les transformations. Il devrait être une seule « copie maître » des données. Il s'agit d'un principe standard de gestion des données, afin de préserver l'intégrité des données. La copie principale augmentera la taille comme données ont augmenté. Même après que la saisie de base soit terminée, les erreurs qui seront détectées et devraient évidemment être corrigées dans la copie principale. Il y a donc quelque chose qui change au cours de la saisie des données, la gestion des données et l'analyse. Non seulement ce processus doit être documenté, mais un système cohérent de « numérotation de version » devrait être évolué et utilisé par tous les analystes de données et d'autres utilisateurs. À notre avis la « copie maître » devrait généralement être gardée à l'aide d'un SGBD. Seulement quelques-uns des tableaux de données seront changés par les modifications de données. Par exemple, Mr. A. l'anthropologue ne peut pas immédiatement se préoccuper de modifications apportées aux documents expérimentales faites par Mme B le biologiste, mais devrait être à jour avec des ajouts à la liste des sites convenus par Dr C le chef. Suivre et communiquer les modifications apportées à la copie principale des données doit être une activité de gestion de projet comme la gestion budgétaire. Habituellement les analyses et les rapports seront basés sur des extraits de la copie principale des données. Lorsque les produits finis pour la présentation ou la publication sont produits, il est important, qu’ils soient corrects, cohérents et complets puisqu'ils sont tous basés sur la version finale de copie principale des données. Les analyses provisoires ont été faites sur des données provisoires, et pour éviter toute confusion et incohérence, l’analyse des séries de données, les noms de fichier et les résultats devraient avoir un enregistrement du numéro de version de copie principale d'où ils proviennent. © SSC 1998-2010 – Lignes directives de gestion des données 15 9. Analyse Dans la perspective de gestion de données, l'analyse simplement prend les données brutes et produit des résumés. On peut considérer le processus en deux étapes. La première est la production de résultats pour permettre à l'équipe de recherche de comprendre leurs données. La seconde est la préparation des résumés clés qui sera présentée aux autres dans les rapports et les séminaires. Le logiciel de statistiques utilisé pour l'analyse devrait donc satisfaire aux exigences des deux stades. Il devrait inclure des capacités de reproduction des tableaux et de graphiques pour faciliter les investigations exploratoires des données. Une de ces utilisations est de poursuivre le processus de vérification et donc s'assurer que les résumés présentés sont significatifs. Les possibilités pour l'analyse devraient permettre la présentation des résultats sous une forme qui aide l'équipe de recherche dans leur interprétation des données. Le logiciel devrait permettre d’afficher les résultats d'une manière qui se rapproche étroitement aux tableaux, graphiques et autres résumés qui seront inclus dans les rapports. La plupart des logiciels statistiques actuels disposent de bonnes facilités pour les graphismes exploratoires qui aident les chercheurs à poursuivre le contrôle des données et à comprendre leurs données. Certains, par exemple R et Stata, ont également d'excellentes facilités pour les graphiques de présentation, mais d'autres ne correspondent pas à ceux des logiciels graphiques spécialisés, au moins pour une utilisation facile. Si cela est important dans une étude particulière, le logiciel de statistiques doit être capable de gérer les données de synthèse d'une manière qui peut facilement être exportée à un logiciel de graphiques. 10. Sauvegarde Il est essentiel d'élaborer un système régulier "backups" (copies) de vos fichiers de données et des fichiers des commandes. L'omission de le faire peut entraîner des pertes des éléments importants des données de recherche. Les gestionnaires de projet devraient établir une routine documentée pour faire régulièrement des copies de sécurité des données et insistent pour que tous les membres de l'équipe de recherche suivent la routine. © SSC 1998-2010 – Lignes directives de gestion des données 16 11. Archivage des Données Les données et les programmes d'un projet de recherche doivent être archivés de telle manière qu'ils sont sans danger et qu'ils peuvent être consultés par un utilisateur à l’avenir. Bien que la copie de données à l'archive est à la fin du projet, la façon dont l'information sera transférée à l'archive devrait être planifiée dès le départ. La planification attentive sera utile tout au long du projet, car elle contribue à promouvoir une structure cohérente de répertoire et une convention d'appellation des fichiers informatiques et encourage également l'enregistrement de toutes les étapes du projet (voir la section 7). L'archive est plus qu'un lieu de stockage permanent pour les fichiers utilisés pour l'analyse. Elle doit donner accès à toutes les informations de l'expérience ou de projet. Au cours de la phase opérationnelle d'un projet, l'information sur la recherche est en partie dans l'ordinateur, en partie sur papier et d'autres médias (tels que les photographies) et en partie dans l'esprit de l'équipe de recherche. L'archive n’a pas besoin de tout informatisé, mais elle doit inclure tous les renseignements pertinents, non-éphémères qui sont dans l'esprit de l'équipe de recherche. Lorsque les données ne peuvent pas être archivées électroniquement, les sources d'information doivent encore être enregistrées dans l'archive. En l'absence d'un système d'archivage approprié, le résultat habituel est que les chercheurs en congé, emportent avec eux la seule copie de leur part des données et espèrent que l'analyse et la description seront plus tard poursuivies. Finalement l'espoir diminue et les séries de données deviennent effectivement perdues pour des recherches plus intéressés. Pour éviter ce résultat, nous croyons que (i) au moins une copie complète de l'archive doit être laissée localement, et (ii) le rapport final devrait détailler la structure de l'archive et les mesures prises pour s'assurer de sa bonne sauvegarde. © SSC 1998-2010 – Lignes directives de gestion des données 17 Le Centre des Services Statistiques (SSC) est rattaché au Département de Statistiques Appliquées de l'Université de Reading, Royaume-Uni, et assure les formations et donne conseils, dans un but non-lucratif pour les clients en dehors de l'Université. Ces guides statistiques ont été développés dans le cadre d'un contrat avec le DFID pour donner des orientations et soutenir le personnel de recherche travaillant sur les ressources naturelles des projets DFID. Les titres disponibles sont listés ci-dessous. Statistical Guidelines for Natural Resources Projects On-Farm Trials – Some Biometric Guidelines Data Management Guidelines for Experimental Projects Guidelines for Planning Effective Surveys Project Data Archiving – Lessons from a Case Study Informative Presentation of Tables, Graphs and Statistics Concepts Underlying the Design of Experiments One Animal per Farm? Disciplined Use of Spreadsheets for Data Entry The Role of a Database Package for Research Projects Excel for Statistics: Tips and Warnings The Statistical Background to ANOVA Moving on from MSTAT (to Genstat) Some Basic Ideas of Sampling Modern Methods of Analysis Confidence & Significance: Key Concepts of Inferential Statistics Modern Approaches to the Analysis of Experimental Data Approaches to the Analysis of Survey Data Mixed Models and Multilevel Data Structures in Agriculture Les guides sont disponibles sous forme imprimée et sous forme Electronique. Pour obtenir des exemplaires ou pour de plus amples renseignements au sujet du SSC, s'il vous plaît utiliser les coordonnées ci-dessous. Statistical Services Centre, University of Reading P.O. Box 240, Reading, RG6 6FN United Kingdom tel: SSC Administration +44 118 378 8025 fax: +44 118 378 8458 e-mail: [email protected] web: http://www.reading.ac.uk/ssc/