Le rôle d`un logiciel de base de données pour les projets de recherche
Transcription
Le rôle d`un logiciel de base de données pour les projets de recherche
Le rôle d'un logiciel de base de données pour les projets de recherche Novembre 2000 Mise à jour d'Octobre 2010 Traduit en français par Hamado TAPSOBA The University of Reading Statistical Services Centre Biometrics Advisory and Support Service to DFID Table des matières 1. Introduction 3 2. Gestion des données dans Excel 4 2.1 Données d’enquête dans Excel 4 2.2 Validation et formulaires de saisie de données 5 2.3 Lier des données de feuilles différentes 7 2.4 Données au niveau Activité 7 2.5 Les tables croisés dynamiques 8 2.6 Revue de Excel 9 3. Composantes d'un logiciel de base de données 10 3.1 Conception de la base de données 10 3.2 Saisie dans les tables 15 3.3 Vérification et validation 18 3.4 Utilisation des données 20 3.5 Les objets dans Access 22 3.6 Exportation à partir d'Access 22 3.7 Revue de Access 23 4. Le flux de données 24 5. Savoir plus sur un logiciel de base de données 25 5.1 Faire appel à un consultant externe 25 5.2 Travailler en partenariat avec un consultant externe 26 5.3 Construire la base de données en interne 27 5.4 Recommandations 27 Remerciements © 2010 Statistical Services Centre, The University of Reading, UK 27 1. Introduction Dans notre guide intitulé "Guide sur la gestion de données pour les projets de développement", nous avons souligné l'importance d'avoir une bonne stratégie de gestion des données des projets de recherche. Nous avons dit que là où il ya des tableurs sont utilisés, ils doivent être utilisés avec la même discipline qui est imposée automatiquement lorsqu’un logiciel de base de données est utilisé. Le guide intitulé «Utilisation disciplinée des tableurs pour la saisie des données», explique ce qu'on entend par utilisation d'un tableur avec «discipline» et le guide intitulé "Excel pour les statistiques" est conçu pour aider les chercheurs à se prononcer sur le rôle d'un tableur pour leurs analyses. Ce guide est destiné à aider les chercheurs et les gestionnaires de la recherche à décider s’ils ont besoin de faire usage d'un logiciel de base de données pour gérer leurs données. Nous utilisons Microsoft Access à titre d'exemple, mais les concepts sont d'ordre général et s'appliquent également à tout logiciel de base de données relationnelle. Il existe de nombreux manuels sur Access, mais ils se concentrent principalement sur COMMENT utiliser le logiciel. Ce guide se concentre sur SI le logiciel est nécessaire et si oui, quelles sont les compétences que les différents membres de l'équipe du projet ont besoin. Nous supposons une certaine familiarité avec le tableur et commençons, à la section 2, avec un exemple de données d’enquête qui ont été saisies dans Excel. Nous passons en revue brièvement les concepts, à partir du guide de saisie de données, sur l'utilisation de Excel avec discipline pour améliorer le processus de saisie des données. Cette section vise en partie à introduire les concepts d'un système de base de données par rapport à une feuille de calcul. C'est aussi parce que la plupart des projets auront une certaine utilisation de feuilles de calcul. La principale question est habituellement quelque chose comme «Étant donné que nous sommes raisonnablement confiants avec Excel, pourquoi avons-nous aussi besoin d'apprendre un logiciel de base de données (Access)?" Dans la section 3, nous passons en revue les composantes d'un ensemble de bases de données et voyons comment les données que nous avons utilisées à la section 2 pourraient être saisies et gérées dans Access. Nous montrons la conception de la base de données et examinons des exemples de formulaires et rapports pour la saisie et l'extraction des données. Dans la section 4, nous considérons le «flux» de données pendant un projet de recherche allant de la saisie à l'étape d’archivage des données à la fin du projet. Nous considérons le rôle d'un logiciel de base de données dans tout ce © SSC 2000 & 2010 – Role of a Database Package for Research Projects 3 processus. Nous terminons la section 5 par un bref examen des compétences nécessaires pour le personnel du projet pour pouvoir utiliser un logiciel de base de données modernes d'une manière efficace. 2. Gestion des données dans Excel Dans cette section, nous passons en revue certains aspects de la gestion des données dans Excel. Beaucoup de ces sujets sont traités plus en détail dans notre guide sur l'utilisation d'Excel avec discipline. 2.1 Données d’enquête dans Excel Les données de la Figure 1 sont d'une étude de journal d'activités effectuée au Malawi. Les individus au sein des ménages tiennent un registre des activités menées à quatre moments différents de la journée. Les ménages sont regroupés en clusters ou mbumbas. Un cluster est un ensemble de ménages pour une mère, ses filles adultes, leurs maris et enfants. Il ya donc trois niveaux de données, à savoir le Mbumba, le ménages et la personne. Dans un classeur Excel, il est pratique pour stocker chaque niveau de données dans une feuille séparée. Un nom approprié est donné à chaque feuille. Ceci est illustré dans la Figure 1. Figure 1 - Extrait de Excel montrant plusieurs feuilles de calcul dans un seul fichier Dans cette enquête, le niveau Mbumba comprend le nom du Mbumba, son emplacement, etc. Au niveau ménage, le nom de famille est stocké. Le niveau personne comprend le nom, l'âge et le sexe de l'individu. L'identificateur unique de la personne est une combinaison du numéro du Mbumba, du ménage au sein du Mbumba et de la personne au sein de Mbumba. Ainsi la personne 2518 est la 18e personne du Mbumba n° 2 et est dans le ménage n° 5 du Mbumba n° 2. Dans la Figure 4 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 1 on peut voir les détails de la feuille du niveau personne. Nous voyons que les numéros du Mbumba et du ménage sont également stockés à ce niveau et ils agissent comme une référence dans les feuilles des niveaux ménage et Mbumba. La plupart des données qui a été enregistrée étaient des activités. Elles ont été enregistrées à 4 fois dans la journée. Elles ont été stockées sur une quatrième feuille comme le montre la Figure 2, quoiqu’une une meilleure façon est présentée plus loin. Cela a introduit un 4ème niveau de données, à savoir un niveau heure de la journée. Figure 2 - Extrait de la feuille de calcul des activités dans le fichier Excel Des codes ont été affectés aux activités. Une table de codage est stockée dans une cinquième feuille dans le même fichier. Un maximum de 10 activités à tout moment de la journée est pris en charge. 2.2 Validation et formulaires de saisie de données Comme mentionné dans notre guide sur Excel, il est possible de définir des contrôles de validation sur les cellules dans une feuille de calcul Excel. Comme il ya 47 activités numérotées de 1 à 47, nous pouvons définir des contrôles de validation sur les colonnes D à M comme le montre la Figure 3. Dans les versions antérieures de Excel, une autre fonctionnalité utile était la possibilité d'utiliser un formulaire pour la saisie des données. Choisir Formulaire dans le menu Données pour produire le formulaire présenté dans la Figure 4. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 5 Figure 3 – Règles de validation dans Excel Figure 4 – formulaire de saisie de données dans Excel. Lorsque les données sont saisies via un formulaire elles sont vérifiées selon les règles de validation seulement à la fin de chaque enregistrement et non après la saisie de chaque valeur. 6 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 2.3 Lier des données de feuilles différentes Nous avons dit que chaque personne se voit attribuer un identifiant unique. Cet identifiant est utilisé dans la feuille Activités et agit comme un lien vers les données du niveau Personne. En utilisant ce lien, nous sommes en mesure d'afficher les données du niveau Personne à côté des données dans la feuille Activités. Par exemple, la Figure 5 montre la feuille Activités avec des colonnes supplémentaires pour l'Age et le Sexe. Nous avons utilisé la fonction RECHERCHEV pour afficher les données stockées dans la feuille du niveau personne. Le point clé ici est que ces données ne sont stockées qu’une fois - dans la feuille du niveau personne - mais en utilisant RECHERCHEV nous sommes capables de les afficher dans d'autres feuilles. Stocker une valeur de données une seule fois permet de minimiser les erreurs. Ceci a été obtenu en divisant les données en niveaux et le stockage de chaque élément de données au niveau approprié. Figure 5 - Utilisation de RECHERCHEV pour combiner des données de feuilles séparées 2.4 Données au niveau Activité Dans cette enquête, les répondants ont été invités à dresser la liste des activités qu'ils ont menées à des moments précis de la journée comme le montre la Figure 5. Ceci est un exemple d'une question à réponses multiples qui est commune dans les enquêtes. Un répondant pourrait liste une ou plusieurs activités et le nombre d'activités est différent pour chaque personne. Une façon de saisir et de stocker les données d'activités est présentée dans les figures 2 et 5, mais elle n'est pas entièrement © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 7 satisfaisante, car elle se traduit par un bloc non rectangulaire de données. Cela se voit dans la Figure 5 - peu de personnes ont jusqu'à 10 activités et par conséquent il ya beaucoup de valeurs manquantes. Une autre manière d'entrer ces données consiste à envisager un niveau Activité plutôt qu'un niveau heure de la journée. L'équivalent de la Figure 5 est illustré à la Figure 6, où chaque ligne de données se réfère maintenant à une activité plutôt qu’à une heure de la journée. Cette disposition utilise plusieurs lignes de données, mais a l'avantage d'une structure rectangulaire simple sans limite arbitraire sur le nombre d'activités. Nous verrons, à section 3, que cette structure est le choix naturel à utiliser si les données doivent être stockées dans un logiciel de base de données. Figure 6 - Une seule activité par ligne 2.5 Les tables croisés dynamiques Une fois que les données sont saisies elles doivent être analysées. Les analyses simples consistent généralement en des tables et graphiques: les deux sont des caractéristiques standard des tableurs. Dans la Figure 7, nous illustrons avec une table récapitulative qui utilise une puissante fonctionnalité de Excel qu’est le Table croisé dynamique. Il s'agit en fait des tables croisés avec l'avantage d'être interactive - vous pouvez facilement échanger des lignes et des colonnes par exemple. La Figure 7 montre une table croisée dynamique créé à l'aide des données d'activités, où un sous-ensemble des activités a été choisi et est présenté comme têtes de ligne. Les individus ont été regroupés en garçons, filles, hommes et femmes en fonction de leur âge et sexe, et ces 8 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche regroupements apparaissent comme des têtes de colonne dans la table. Les cellules de la table indiquent le nombre d'enregistrements dans chaque catégorie. Ces tables peuvent donner des pourcentages et d'autres valeurs de synthèse. Si les données originales sont modifiées, cette table croisée dynamique peut être actualisé pour refléter ces changements. Figure 7 - Table croisé dynamique dans Excel 2.6 Revue de Excel Nous pouvons maintenant passer en revue quelques-uns des points forts et les faiblesses de Excel pour la saisie et la gestion des données scientifiques. Lorsqu'il est utilisé avec la discipline il est approprié pour les données qui ont une structure simple. Nous définissons une «structure simple» comme n’ayant pas beaucoup de niveaux. Dans le guide pour la saisie des données dans Excel, nous avons examiné des données avec un ou deux niveaux et Excel semble suffisant. Ici nous avons eu 4 niveaux et ce niveau de complexité a déjà rendu Excel plus difficile à utiliser. Notez également que la question à réponses multiples dont nous avons discutée plus tôt sur les activités menées à une heure donnée de la journée, a été facilement manipulée par la saisie des données d'activités dans une feuille séparée. Lorsque les enquêtes ont plus d'une question à réponses multiples la saisie des données nécessite encore plus de tables. Un deuxième problème similaire avec Excel a été montré dans la Figure 4 où nous avons utilisé un simple formulaire de saisie de données. Lorsque nous avons beaucoup de données, il est judicieux de rendre le processus de saisie aussi simples que possible, c'est à dire faire le formulaire à l'écran qui ressemble à la fiche du questionnaire, et cela ne peut pas se faire efficacement dans Excel seul. Si Access est disponible sur votre ordinateur, il est possible d'utiliser les formulaires de Access dans Excel. Cela se fait via le Microsoft AccessLinks Add-In pour Excel. Lorsque vous utilisez cette fonction, Excel crée une base de données Access avec votre feuille de calcul actuelle comme une table liée - les modifications apportées aux données dans Access seront © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 9 répercutées dans le fichier Excel. Avec cette fonctionnalité, vous avez plus de flexibilité sur la conception du formulaire et pouvez exploiter toutes les fonctionnalités de conception de formulaire de Access. Il convient de noter, toutefois, que les règles de validation mis en place dans Excel ne sont pas transposées dans Access - vous aurez besoin de définir des contrôles sur le formulaire de Access lui-même. Une troisième limite possible, lorsque nous avons des structures complexes de données, c'est que nous avons souvent de nombreuses façons différentes de vouloir résumer les données. Dans Excel, il est généralement approprié de considérer dans chaque cas comme l'équivalent d'une simple «rapport» et chacun ira sur une nouvelle feuille. Une fois que nous avons beaucoup des feuilles (de rapport), nous devons être sûrs que nous documentons bien notre classeur, afin que nous puissions examiner ce que nous avons fait à une prochaine occasion. Excel et les autres tableurs ont des atouts majeurs. Il s'agit notamment du fait que ce que vous faites est toujours visible. Ils sont aussi puissants et très flexible. A l’opposée de cela, il y a le fait qu'il est difficile de travailler avec la «discipline» si les ensembles de données sont importants et/ou complexes dans leur structure. Alors, une approche structurée est nécessaire pour la saisie et la gestion pour exploiter pleinement les données. Un logiciel de base de données fournit cette structure. 3. Composantes d'un logiciel de base de données Dans cette section, nous passons en revue brièvement les composantes d'un logiciel de base de données. Nous nous appuyons sur les idées de la section 2, mais utilisons un jargon standard de base de données. Cela afin que les lecteurs soient en mesure de comprendre les consultants et lire la littérature qui loue les vertus des bases de données. Nous examinons la conception de la base de données, la saisie des données, et l’utilisation des données. A titre d'exemple, nous utilisons les données de l'étude d’activités que nous avons présentée dans la section 2. 3.1 Conception de la base de données Dans un logiciel de base de données les données sont stockées dans des «tables». L'exemple de la section 2 avait quatre tables, pour les niveaux Mbumba, ménage, personne et activité. Dans un logiciel de base de données les tables doivent être créées avant que les données ne puissent être saisies. Au minimum, vous devez spécifier le nombre de champs ou de colonnes de données requis, donner un nom à chaque champ et de définir le type de données, par exemple texte ou numérique. Cela va en grande partie vers l’application de la «discipline» que nous avons encouragée dans l'utilisation 10 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche de Excel dans notre guide sur Excel et la section 2 du présent guide. La Figure 8 montre l'écran de création de table. C'est là que les noms de champs et les types de données sont définis. Figure 8 - Création de table dans Access Figure 9 – Vue "Feuille de données" des données du niveau Personne L'écran de création de table dans la Figure 8 montre la conception du table au niveau Personne. Nous devons spécifier les noms des champs et de définir leurs types de données. Une fois que la table est créée, nous pouvons saisir les données via la feuille de données ou la vue feuille de calcul. Ceci est illustré à la Figure 9. La feuille de données ressemble à la feuille de calcul Excel. La feuille de données est adaptée aux données que vous voulez saisir, chaque colonne se réfère à un champ dans la table et © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 11 n'accepte que les données du type spécifié lors de la conception de la table. Il n'y a pas de limite au nombre de lignes que vous pouvez saisir autre que la limite physique de la taille de votre disque. Une différence vous pouvez remarquer entre la feuille de données dans Access et la feuille de calcul dans Excel est qu'il n'y a pas de numérotation automatique des lignes dans Access. Toutefois, les informations en bas de la fenêtre vous indique à quelle entrée ou ligne vous êtes et combien d’entrées il ya au total. Comme avec l'utilisation d'un tableur, il est important que vous utilisiez un logiciel de base de données "avec discipline". La discipline minimale - définir le nombre de champs et leur type de données - est obligatoire, mais vous devriez normalement faire plus que le minimum. A titre d'exemple, nous expliquons pourquoi il est important que toutes les tables aient ce qu'on appelle une clé primaire. Toutes les données, qu'elles soient stockées dans une base de données, un tableur, ou ailleurs, doivent avoir un identifiant unique pour chaque entrée. Ce peut être un champ unique ou une combinaison de champs. Dans Excel et autres tableurs il n'existe aucun moyen pour garantir l'unicité de cet identifiant et des doublons peuvent donc se produire. Dans Access et d’autres logiciels de base de données, cependant, vous pouvez et devez définir une clé primaire pour chaque table. Il s'agit soit d'un seul champ ou combinaison de champs, qui agit comme un identificateur unique. La clé primaire est toujours unique - Access ne permet pas de doublons dans la clé primaire. Au niveau Personne l'identifiant unique est l'ID. Se référant à nouveau à la Figure 8, nous voyons que ce champ a un symbole de clé à son côté indiquant que c'est le champ de clé primaire de cette table. Dans de nombreux cas, le choix du champ de clé primaire est évident. Considérons maintenant une situation où le champ de clé primaire n'est pas si évident. Les données au niveau Activité incluent PersonID, Date, TOD, Activity. Un extrait de ces données est présenté dans la Figure 10. Il est clair qu'aucun de ces champs n’est unique en soi. Ainsi, nous devons examiner les combinaisons de champs et quand nous faisons cela, nous constatons que la seule combinaison qui doit être unique est la combinaison de ces quatre champs. Il est possible de définir cette combinaison comme notre clé primaire, cependant, les clés primaires multi-champ, comprenant plus de 2 champs, deviennent difficiles à manipuler et peuvent facilement conduire à des erreurs lors de l'établissement des relations. 12 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche Figure 10 – Vue “Feuille de données" des données au niveau Activité Une alternative est d'utiliser un champ NuméroAuto comme clé primaire. Cela assignera un numéro unique à chaque entrée. Cependant, nous voulons toujours faire en sorte que la combinaison des quatre champs d'origine soit unique. Nous pouvons faire cela en créant ce que Access appelle un «index». Un index peut être créé pour tout champ et toute combinaison de champs et accélère le processus de tri et de sélection. Une fois qu’un index a été créé, il peut être rendu unique, en d'autres termes vous ne seriez pas en mesure de saisir de doublons dans ce champ ou combinaison de champs. La Figure 11 montre l'écran de création de table pour les données du niveau Activité et comprend le champ de numérotation automatique que nous avons ajouté comme la clé primaire. Nous pouvons également voir la fenêtre Index, qui montre qu'il existe un index appelé "identifiant" qui est une combinaison des quatre champs d'origine. La propriété Unique a été fixée à "Oui" pour cet index. Un important supplémentaire qui vient avec les logiciels de base de données relationnelles tel que Access, est la capacité à créer des relations ou des liens entre les tables de données. Ceci est implicite dans notre discussion précédente sur Excel lorsque nous avons parlé de liaison de données à partir de feuilles différentes en utilisant RECHERCHEV. Ces liens peuvent être intégrés à la conception dans Access. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 13 Figure 11 - Création de table avec la fenêtre Index La Figure 12 montre la même structure de données que nous avons développée dans Excel, mais dans Access. Les 4 niveaux sont traduits en 4 tables avec des relations entre eux. Les relations sont tous du type " un-à-plusieurs" en ce sens qu’une entrée dans un table est liée à potentiellement plusieurs entrées dans un autre table. Par exemple, chaque ménage a plusieurs personnes. Figure 12: Structure de base de données dans Access Access inclut un ensemble de règles connu sous le nom de l'Intégrité Référentielle. Lorsqu’elle est appliquée elle permet de valider les relations en ne permettant pas de saisir un entrée d'une table sur le côté «plusieurs» d'une relation où il n'ya pas d'entrée correspondant dans la table sur le côté «un». Par exemple, avec l'intégrité référentielle vous ne seriez pas en mesure de saisir les détails d'un individu avant qu'il y ait un ménage pour cette personne. Une fois que vous vous rendez compte de la valeur de plusieurs tables, vous trouverez que vous pouvez en utiliser plus. Considérons par exemple les «activités» dans notre 14 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche exemple de base de données. Les activités sont codées de 1 à 47 et le code est stocké dans la base de données. Il serait relativement facile d'ajouter une table à 2 colonnes contenant ces codes et leurs descriptions associées. La Figure 13 montre quelques-unes des données de la Table «Activités» et la Figure 14 montre comment cette table et les tables correspondantes pour le «heure de la journée» et «lien familial» peuvent être ajoutées à la structure de la base de données. Figure 13 - Extrait de la table des activités Figure 14 - Structure complète de la base de données Contrairement à une feuille de calcul, où sept tables avec des données seraient source de confusion, il s'agit d'une structure assez simple pour une base de données. Une base de données a généralement entre 5 et 50 tables. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 15 3.2 Saisie dans les tables L’aspect suivant que nous devons prendre en compte est la façon de saisir les données dans les tables. Nous avons déjà mentionné que les données peuvent être saisies directement dans la table par la feuille de données. Nous avons vu un exemple de feuille de données à la Figure 9. Quand il ya juste une petite quantité de données, ce sera facile et c'est tout ce qui est nécessaire. La Figure 15 montre les cinq entrées de la table Mbumba sous forme d’une « feuille de calcul ». Figure 15 - Données du niveau Mbumba Figure 16 - Simple formulaire de saisie des données du niveau Personne Pour des volumes plus grands de données, il est plus fréquent de mettre en place des formulaires spécifiques de saisie de données. Un peu plus pratique est nécessaire que dans Excel, mais les formulaires simples sont très faciles à concevoir. Le formulaire de la Figure 16 est pour la saisie des données sur les individus. Ce formulaire a été généré automatiquement à partir de la table correspondante à l'aide l'un des Assistants AutoForm dans Access, et la structure est semblable à la Figure 4 qui a été donnée dans Excel. 16 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche La Figure 17 montre le même formulaire, après quelques simples modifications de conception. Ainsi, il est facile de commencer avec un formulaire généré automatiquement et modifier la disposition pour correspondre à votre questionnaire. La facilité de produire des formulaires de ce type dans Access est l'une des raisons de sa popularité. Figure 17 - Variation sur le formulaire de saisie de données du niveau Personne Toutefois, un formulaire d'enquête comprend souvent des données de plus d'une table. Dans notre cas, la fiche personne comprenais de l’espace pour enregistrer les données du niveau Activité. Idéalement, nous aurions donc voulu saisir des données à partir d'un questionnaire unique en 2 ou même 3 tables en même temps. Cette nouvelle étape nécessite une certaine expertise, mais est aussi relativement facile dans un logiciel de base de données tel que Access. Ceci est important car il permet une saisie des données beaucoup plus facile et donc plus fiables. La Figure 18 montre un formulaire qui a été utilisé dans cette étude. La partie supérieure du formulaire est pour la saisie des données sur les individus. Ceci est similaire au formulaire dans les figures 16 et 17. La moitié inférieure du formulaire est pour la saisie des données d'activité. C'est en fait un sous-formulaire et les données saisies sont stockées dans la table d'activité. En raison des liens entre le formulaire principal et le sous-formulaire, vous voyez seulement les données d'activité de l'individu affiché dans le formulaire principal. Généralement, il ya une relation un-à-plusieurs entre les données dans le formulaire principal et les données dans le sous-formulaire. Dans la Figure 18, nous pouvons voir que cette personne en particulier a plusieurs activités pour le matin du 1er Juin 1998. Ainsi, la question à réponses multiples sur les différentes activités dans chaque période de temps se traduit par une entrée distincte pour chaque réponse. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 17 Figure 18 - formulaire du niveau Personnes avec sous-formulaire du niveau Activité Dans notre guide Excel nous avons souligné l'importance de la distinction entre la personne qui a conçu le «système» pour la saisie des données et le personnel qui fait effectivement la saisie. C'est désormais une distinction beaucoup plus claire avec un logiciel de base de données. S'il s’agit d’une enquête ou d’une base de données complexe, la tâche de conception d’un système efficace de saisie des données demande de hautes qualifications. 3.3 Vérification et validation Dans la discussion qui suit, nous considérons la validation comme vérification des données au moment de la saisie, et interprétons la vérification comme la vérification des données une fois saisies. Le processus d’audit que nous décrivons dans notre guide Excel peut être considéré comme la vérification dans cette définition. Dans la saisie de données d'enquête, il est important que les données soient vérifiées. Cela peut être fait en fournissant des contrôles quand les données sont saisies ou par un système comme la double saisie. Un système de double saisie est celui dans lequel deux opérateurs saisissent les mêmes données dans des fichiers séparés qui sont ensuite comparés. Les différences sont vérifiées par rapport à la version papier originale des données. 18 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche La saisie double des données est une fonctionnalité automatique dans certains logiciels conçus pour la saisie des données d’enquête. Dans certains cas, ce logiciel combine plusieurs des concepts de base de données décrite jusque-là avec des moyens faciles d'une double saisie. Un exemple de ces logiciels est Epi-Info. C’est gratuit et peut être téléchargé à partir du Web. Epi-Info vous propose une méthode rigoureuse de vérification des données. Après que les entrées aient été saisies et enregistrées dans un fichier, il ya une option pour résaisir et vérifier les entrées dans le fichier de données existant. Les données sont saisies exactement comme pour les nouvelles entrées. Quand une entrée correspond aux données dans le fichier le curseur se déplace sur exactement comme pour les nouvelles entrées. Quand une entrée ne correspond pas un message apparaît et il est donné une chance à l'opérateur de ré-saisir la valeur ou de comparer l'entrée originale à la nouvelle et faire un choix. Les données de Epi-Info peuvent être importées dans Access. Il est donc possible d'utiliser quelque chose comme Epi-Info pour la phase de saisie de données principale, puis transférer les données dans Access pour le stockage et la gestion. Dans Access, vous pouvez définir des règles de validation des champs individuels. La Figure 11 montre une règle de validation de Compris entre 1 et 47 pour le champ Activité. Il est également possible de fixer des règles de validation sur la table. Cela pourrait être utilisé par exemple lorsque la valeur dans un champ ne peut pas dépasser la valeur dans un autre champ. Par exemple supposons que nous ayons stocké le nombre de personnes dans le ménage et le nombre d'enfants. Évidemment, il ne peut avoir plus d'enfants qu’il ya de gens et nous pouvons donc fixer une règle de validation des [gens]> [enfants] pour la table. Les logiciels de base de données tels que Access ont été principalement conçus pour les utilisateurs du monde des affaires où le processus de saisie de données et d’utilisation des données est un cycle continu. Le cas de la double saisie est moins évident dans ces conditions et ne sont pas fournis par Access ou d’autres logiciels similaires de base de données. Dans les enquêtes et les travaux scientifiques, cependant, il ya une phase reconnue de saisie des données et dans ces cas la vérification est nécessaire. Pour toute application donnée, il est relativement facile de construire un système simple système de double saisie dans Access. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 19 3.4 Utilisation des données Dans Excel, nous avons montré dans la Figure 7 comment une table croisée dynamique a été utilisé pour résumer et présenter les données. Dans Access, nous utilisons des requêtes et des rapports pour faire la même chose. Une requête simple fournit un moyen d'afficher ou de résumer un sous-ensemble de données d'une table donnée dans la base de données. Un exemple est montré dans la Figure 19, qui est semblable à une table croisée dynamique produite par Excel. Figure 19 – Requête d’analyse croisée, équivalent d’un table croisé dynamique Toutefois, l'idée d'une base de données est que les tables sont liées. Par conséquent, il ne sera pas surprenant de constater que les requêtes peuvent porter sur des données provenant de plusieurs tables. La Figure 20 montre les résultats d'une requête qui inclut les données, tant au niveau personne qu’au niveau Activité. La requête compte le nombre d'activités pour chaque individu. Figure 20 - Requête de comptage des activités pour les personnes sélectionnées Les résultats d'une requête peuvent être utilisés dans un rapport, utilisés comme base pour d'autres questions, visualisés avec un formulaire, exportés vers un autre logiciel ou stockées dans une nouvelle table. 20 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche Une autre façon d'utiliser les données dans Access est de créer des états. Un état fournit une vue «instantané» des données à un moment donné. Ils peuvent être conçus pour montrer le même type de données que vous pouvez voir dans une requête, mais ils s'étendent l'idée d'une requête en permettant un affichage des données ou un résumé pour répondre à vos besoins. L'extrait ci-dessous à la Figure 21 est tiré d'un état qui énumère les activités pour chaque individu et pour chaque période. Figure 21 - Etat de la liste des activités pour chaque période Contrairement à Excel, lorsque vous enregistrez les requêtes et les états vous n’enregistrez généralement pas les résultats. Plutôt, vous enregistrez les instructions qui produisent les résultats. Chaque fois qu'une requête ou un état est exécuté, les données sont extraites de la (ou des) table (s) sous-jacente (s). Ainsi, les résultats vont toujours tenir compte des changements récents dans les données. C'est un peu comme "actualiser" une table croisée dynamique dans Excel de sorte qu'il reflète les changements dans les données. Les résultats d'un état peuvent être consultés à l'écran, envoyés à une imprimante ou enregistrés dans un fichier «instantané». Access 2000 contient une Visionneuse d’état qui est utilisé pour afficher ces fichiers de capture instantanée. La Visionneuse peut être acquise séparément à partir d'Access et d'un addin est disponible pour Access 97 afin de permettre l’enregistrement de fichiers d’état. Parce que Access stocke les instructions pour exécuter les requêtes et les états il est possible de faire une enquête pilote, ou simplement collecter quelques entrées au départ et de développer toutes les requêtes et les états que vous voulez, juste sur la base des quelques entrées. Les données ne sont utilisées que pour vérifier que vous © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 21 produisez la table ou le résumé approprié. Ensuite, lorsque vous avez saisi toutes les données réelles, il vous suffit d'exécuter les requêtes et / ou les états pour produire les résultats. 3.5 Les objets dans Access Access considère les tables et les formulaires comme des objets. Une base de données Access peut comprendre jusqu'à six différents types d'objets. Nous avons jusqu'ici parlé de quatre, à savoir tables, formulaires, requêtes et états. Les deux autres, les macros et les modules, peuvent être utilisés pour automatiser des tâches et lier les autres objets dans une application base de données conviviale. L'utilisation de ces objets n'est pas essentielle pour la pratique d’une bonne gestion des données. Tous les objets dans une base de données sont accessibles à partir de la fenêtre principale base de données, dont un exemple est illustré à la Figure 22 ci-dessous. Figure 22 - Fenêtre Base de données de Access Les objets sont regroupés par type et en cliquant sur l'onglet approprié, il est facile de passer de la liste des tables à la liste des formulaires par exemple. Ceci est un exemple d'un « système » de gestion des données. 3.6 Exportation à partir d'Access Un aspect qui décourage souvent les utilisateurs d'adopter un logiciel de base de données tel que Access est la difficulté qu'ils perçoivent dans l'extraction de données dans un format prêt pour l'analyse. Cependant, par sa nature même Access est plus souple à cet égard que Excel. Par l'utilisation de requêtes, il est facile d'extraire des sous-ensembles de données sur la base de critères spécifiques, d’afficher les données 22 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche de tables liées, les données de synthèse, et ainsi effectuer des calculs simples et des résumés. Les données produites à partir de requêtes peuvent, en cliquant sur un bouton, être exportées vers Excel. De nombreux logiciels de statistiques tels que SPSS, GENSTAT et Stata utilisent maintenant ODBC (Open DataBase Connectivity) pour importer des données directement à partir de logiciels de base de données. Transférer les données entre logiciels n'est plus un problème comme autrefois. Vous vous demandez pourquoi si vous avez déjà vos données dans Excel, vous devez les transférer Access pour vous voir dire que vous pouvez facilement les exporter vers Excel. Ce que nous proposons est de stocker et gérer vos données dans Access et puis extraire des sous-ensembles de celles-ci vers Excel ou un autre logiciel pour l'analyse quand le besoin se présente. La facilité de transfert de données vous permet d'utiliser les meilleures caractéristiques de chaque logiciel. 3.7 Revue de Access Nous avons conclu la section 2 en examinant les points positifs et négatifs sur les feuilles de calcul. Ici, nous ferons la même chose avec les logiciels de base de données. Sur le plan positif, les logiciels de base de données sont conçus pour traiter des volumes importants et complexes de données. Nous croyons que les éviter, en faveur des feuilles de calcul, est risqué dans la tâche d'exploiter pleinement les données de recherche. Les logiciels de base de données exigent une grande partie de "l’utilisation disciplinée" que nous avons encouragée dans le guide de Excel et dans la première partie de ce guide. Utiliser une base de données ne garantit pas que vous aurez des données complètes et sans erreur, mais utilisées de manière efficace, elles peuvent vous approcher de cet objectif. Le simple fait d'avoir à concevoir des tables pour vos données vous force à réfléchir sur les données et leur structure. C'est en soi une bonne chose. Nous avons vu dans la section 3.4 comment les différents objets dans Access sont séparés et facilement accessible dans la base de données. Cela diffère sensiblement dans Excel où les données et les résultats, les tables croisés dynamiques, les calculs, les graphiques, etc., sont tous stockés de la même manière comme feuilles dans le classeur. Sauf si vous êtes bien organisé et documentez tous vos travaux, il n'est pas toujours facile de trouver la feuille que vous recherchez. Dans Access les données et les résultats sont séparés. En général, les résultats ne sont pas stockés dans la base de données mais sont générés à chaque fois que la requête ou l’état est exécuté. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 23 Une base de données peut être utilisée comme une étape finale, pour laisser une archive utilisable après la fin du projet. Dans de tels cas, il est plus efficace d'utiliser une base de données dès le début, afin que l'équipe du projet puisse bénéficier du système de gestion des données. Du côté négatif, une certaine expertise est nécessaire pour construire une base de données efficace. Parfois, nous constatons que les utilisateurs inexpérimentés n’ajoutent pas les relations du type représenté sur les Figures 12 et 14. Une base de données sans relations, c'est comme une feuille de calcul, sauf qu'il est plus difficile de voir toutes les données. 4. Le flux de données Dans cette section, nous considérons le «flux» de données pendant la durée de vie d'un projet de recherche et réfléchissons sur le rôle du logiciel de base de données dans ce processus. On peut considérer quatre aspects ici, à savoir la saisie des données, la gestion des données, l’analyse des données et l'archivage des données. Pour les gros volumes de données ou des données collectées à plus de deux niveaux, nous vous recommandons d'utiliser un logiciel de base de données pour la saisie et la gestion des données. Un des rôles de la gestion des données est de fournir des données de bonne qualité pour l'analyse. Nous avons déjà dit que l'utilisation d'un logiciel de base de données ne garantit pas cela en soi mais quand s’il est utilisé efficacement avec les contrôles de validation, des champs de clé primaire, l'intégrité référentielle sur les relations et ainsi de suite, nous pouvons au moins aller dans la bonne direction. Access n'est généralement pas suffisant pour l'analyse des données. Des croisements de tables sont possibles en utilisant des requêtes, mais le table croisé dynamique de Excel est beaucoup plus souple. Dans Access, les graphiques sont extrêmement limités. C'est le point où des sous-ensembles de données doivent être exportés à d'autres logiciels. Il est important de réaliser que lorsque les données sont exportées vous avez une duplication - si vous constatez une erreur dans les données exportées, la correction doit être effectuée dans la base de données et les données exportées à nouveau. Si ce n'est pas fait alors l'intégrité des données peut être compromise. La base de données doit contenir la copie définitive des données. On peut penser à l’archivage des données comme une simple copie de la base de données contenant toutes les données du projet, mais il peut être beaucoup plus que cela. Idéalement, il devrait également inclure des copies des graphiques, les résultats des analyses et des copies des programmes exécutés sur les données. Un CD d'archives 24 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche devrait inclure tous les fichiers de sortie et fichiers de données, que ce soit dans Excel, SPSS, Access ou autre. Tout cela doit être documenté et une façon de documenter cela est d'utiliser une base de données. Nous avons vu combien il est facile d'ajouter des tables d'addition à la base de données ; pourquoi ne pas ajouter une table pour stocker des informations sur les analyses qui ont été effectués. Une entrée pourrait inclure le nom du fichier de données, le nom du fichier de résultats, le logiciel utilisé, le type d'analyse, la date à laquelle l'analyse a été effectuée, la personne qui a conduit l'analyse, et ainsi de suite. En plus des données texte et numérique Access peut stocker des images. Il est donc également possible de numériser des photos et des cartes et de les stocker dans la base de données comme des images. 5. Savoir plus sur un logiciel de base de données Dans cette section, nous considérons les membres de l'équipe qui ont des compétences sur Excel et envisagent d'intégrer un logiciel de base de données dans leur travail. Avec un tableur, comme Excel, il est souvent suffisant pour les membres du personnel de démarrer sans un cours de formation formelle et il suffit d'ajouter à leurs connaissances du logiciel quand le besoin se fait sentir. Les tableurs sont normalement utilisés sur une base individuelle, avec les données à partager étant souvent copiées à chaque personne. Les bases de données peuvent être utilisées de la même manière, mais il est généralement plus efficace de partager les données à partir d'une base de données unique. Ceci est la façon naturelle de fonctionner lorsque les ordinateurs sont en réseau, mais s'applique même si la base de données est sur une seule machine autonome. Ainsi, la mise en place d'une ou plusieurs bases de données impliquera normalement des décisions sur la responsabilité de la saisie, de la validation et de l'utilisation des données. Cette formalité supplémentaire est généralement aussi importante pour assurer des données de bonne qualité. Quand un logiciel de base de données est utilisé, les choix alternatifs vont de faire appel à un consultant externe, à procéder d'une approche étape par étape, similaire à celle souvent utilisée pour Excel. Nous considérons ces choix l’un après l’autre. 5.1 Faire appel à un consultant externe Une option est de faire appel à un consultant externe ou un professionnel de base de données pour construire chaque base de données pour le projet. Vous informez le consultant sur les éléments de données qui doivent être stockées et indiquez comment vous voulez saisir, afficher et extraire les données. Il crée alors la structure de base de données avec un ensemble de requêtes, formulaires et états. Le consultant pourrait © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 25 aussi produire une interface à votre base de données afin que les états puissent être exécutés et des données extraites en cliquant sur un bouton. Cela transforme efficacement votre base de données en une application. A ce niveau, toute l'équipe du projet doit savoir comment exécuter cette application. L’introduction à la façon d'utiliser la base de données peut prendre peut-être une demi-journée à la fin de la consultation. Cette option nécessite très peu de temps et d'effort des membres de l'équipe du projet. Toutefois, cette option est dangereuse et coûteuse et nous n'aurions pas normalement recommandé cette voie. Si aucun membre de l'équipe ne comprend suffisamment les principes de base de données, il est souvent difficile de préciser exactement ce qu'il faut. Les irrégularités dans le cahier des charges deviennent normalement évidentes lorsque le système initial est livré et plus de temps et de dépenses sont alors nécessaires pour améliorer le système. Les modifications et ajouts sont souvent nécessaires pendant la durée du projet et faire à nouveau appel à une consultant externe demande à la fois du temps et de l’argent. Enfin, bien qu'il soit facile de trouver des consultants en base de données, la plupart sont expérimentés dans les applications d'entreprise et vous pouvez leur poser de nouveaux défis, aussi bien dans les conditions de saisie des données que dans les requêtes et les états nécessaires. 5.2 Travailler en partenariat avec un consultant externe Nous pensons qu’une certaine connaissance des bases de données est nécessaire par les membres de l'équipe du projet pour qu'ils soient en mesure de travailler de manière constructive avec un consultant. Pour le personnel qui est déjà familiarisés avec Windows et Excel, cela peut se faire habituellement par un cours de 2 jours et une semaine, avec environ la moitié du temps consacré à la construction des requêtes et des états. La partie difficile du travail est la mise en place de la base de données initiale, avec les relations et les formulaires de saisie. Nous suggérons qu'un consultant pourrait être utilisé pour ce travail. Le système tel que livré, devrait également contenir certaines requêtes et des états. Dans la section 3.3, nous avons discuté de vérification. Cela devrait être considéré au stade de la conception de la base de données. Rappelez-vous un consultant externe peut n’avoir pas considéré cet aspect et il est donc important de bien lui décrire vos besoins à cet égard. 26 © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche Il est alors relativement facile pour le personnel du projet d’ajouter au besoin des requêtes ou des états supplémentaires. Ils pourraient également apporter des modifications mineures à la structure. Il ya cependant une différence entre ces deux types de tâches. Une erreur dans une requête n'affecte que la personne qui souhaite exécuter la requête, mais une erreur lors du changement de la structure de la feuille pourrait rendre la base de données inutilisable. 5.3 Construire la base de données en interne Le niveau final est de construire entièrement la base de données en interne. Cela est l’approche est évidente si un membre de l'équipe du projet est un expert en base de données, sinon nous conseillons la prudence. Il est tout aussi facile de construire une mauvaise base de données comme il l’était d'écrire un mauvais programme il n’y a pas longtemps. Le schéma des relations ressemble à un plat de spaghettis et il devient difficile d’élaborer des états ou de modifier la structure. 5.4 Recommandations Dans les équipes de projet qui ne comprennent pas un expert en base de données, nous pensons que l'approche de partenariat est normalement appropriée. Le changement majeur dans les logiciels de base de données ces dernières années a été la facilité avec laquelle les utilisateurs qui ont relativement peu d'expérience peuvent modifier un système une fois qu'il est en place. Alors qu’avec Excel, il peut y avoir le même niveau de formation, le cas échéant, pour tous les membres de l'équipe, nous conseillons qu'il convient normalement de sélectionner une partie de l'équipe pour la formation aux rudiments de la gestion de base de données. Ils pourront, peut-être en collaboration avec un consultant, offrir un cours d'une journée sur les principes du système actuel pour les données du projet, une fois une version d'essai est disponible. Le personnel de saisie de données aurait une formation spéciale. Leur tâche devrait être plus simple à cause des dispositions disponibles dans un système de base de données efficace pour faciliter la saisie des données. Si la saisie de données n'est pas simple, l'équipe du projet devrait demander que des améliorations soient apportées. Remerciements Les données utilisées dans ce guide viennent d’études socio-anthropologiques menées du projet Farming Systems Integrated Pest Management (FSIPM) financé par le DFID au Malawi. Nous sommes reconnaissants à Julie Lawson-McDowall (anthropologue) et Mark Ritchie (chef d'équipe, FSIPM) pour la permission d'utiliser les données. © SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche 27 Le Centre des Services Statistiques est rattaché au Département de statistique appliquée à l'Université de Reading, Royaume-Uni, et entreprend des formations et des consultations sur une base non-lucrative pour des clients externe à l'Université. Ces guides statistiques ont été écrits dans le cadre d'un contrat avec le DFID pour donner des conseils au personnel de la recherche et de soutien des projets de ressources naturelles du DFID. Les titres disponibles sont listés ci-dessous. Statistical Guidelines for Natural Resources Projects On-Farm Trials – Some Biometric Guidelines Data Management Guidelines for Experimental Projects Guidelines for Planning Effective Surveys Project Data Archiving – Lessons from a Case Study Informative Presentation of Tables, Graphs and Statistics Concepts Underlying the Design of Experiments One Animal per Farm? Disciplined Use of Spreadsheets for Data Entry The Role of a Database Package for Research Projects Excel for Statistics: Tips and Warnings The Statistical Background to ANOVA Moving on from MSTAT (to Genstat) Some Basic Ideas of Sampling Modern Methods of Analysis Confidence & Significance: Key Concepts of Inferential Statistics Modern Approaches to the Analysis of Experimental Data Approaches to the Analysis of Survey Data Mixed Models and Multilevel Data Structures in Agriculture Les guides sont disponibles sous forme imprimée et électronique. Pour obtenir des exemplaires ou pour de plus amples renseignements au sujet du SSC, veuillez utiliser les coordonnées ci-dessous. Statistical Services Centre, University of Reading P.O. Box 240, Reading, RG6 6FN United Kingdom tel: SSC Administration +44 118 378 8025 fax: +44 118 378 8458 e-mail: [email protected] web: http://www.reading.ac.uk/ssc/