TP : Introduction aux TPs de statistique - membres
Transcription
TP : Introduction aux TPs de statistique - membres
Université Joseph Fourier L2/STA240 TP : Introduction aux TPs de statistique Objectifs : L’objectif de ces travaux pratiques est de vous rendre capables de réaliser une analyse statistique de base :à partir de données expérimentales. Outils informatiques : Nous avons choisi d’utiliser dans un premier temps le tableur de Open Office pour faire ces TPs. En effet, très simple d’utilisation, cet outil vous permet de visualiser les données, de réaliser un certain nombre de calculs, de les représenter graphiquement. De plus, l’importation de données à partir d’un fichier ainsi que l’exportation de tableaux, de graphiques dans un rapport est aisée. Enfin, le logiciel assiste les utilisateurs afin qu’ils se forment eux même et deviennent rapidement autonomes. Dans un second temps, nous utiliserons un logiciel très utilisé par les statisticiens : le logiciel R. R est un lociel libre. Le langage utilisé est interprété. Les utilisateurs, essentièlement des chercheurs en statistique mettent à la disposition de tous des ”packages”, des librairies regroupant les formats, données et fonction autour d’un thème qui peut être soit une méthode statistique, soit une application particulière. On y trouve par exemple ”tree” pour la ”classification and regression tree”, ou ”mritc” pour ”MRI tissus classification ”. Utiliser ce logiciel permet l’utilisation de méthodes statistiques nouvelles, mises en place par ceux qui les créent. Déroulement des TPs : C’est un même jeu de données qui servira de fil conducteur à l’ensemble des TPs. Il s’agit d’un fichier de données, recoltées par le Baystate Medical Center à Springfield en 1986. Le fichier original contient 189 lignes (individus) et 10 colonnes (variables). Nous avons extrait de ce jeu, 2 jeux : le premier que nous avons appelé “BB mères fumeuses.csv” contient 74 lignes et 2 colonnes. Un individu est ici un bébé dont la mère est fumeuse et il est caractérisé par 2 variables : l’âge de la mère lors de la naissance et le poids du bébé à la naissance. Le second jeu, “BB mères non fumeuses.csv” contient les données relatives à 115 bébés issus de mère non fumeuse. Le jeu de données “BB mères fumeuses.ods” est entièrement traité en ligne. Ainsi vous disposez de fichierssolutions dans lesquels des conseils concernant l’utilisation du tableur vous sont donnés textuellement. Cette aide en ligne est une assistance Open office orienté statistique qui a pour but de vous aider à être rapidement autonome. Nous vous conseillons pour les premiers TP de toujours essayer de vous en sortir avec les conseils textuels et, si vous n’y arrivez pas, de regarder la solution. Pour chaque nouvelle manipulation ou nouvelle fonction du logiciel, vous bénéficiez ainsi d’une aide. La notion introduite est alors considérée comme acquise, c’est à dire que vous devez savoir l’utiliser avec l’assistant du logiciel et vous n’aurez, dans les TPs suivants, aucune assistance concernant cette notion. Les 2 premiers TPs sont consacrés à l’étude d’un caractère -discret (l’âge) : présentation des données dans un tableau de distribution, résumé des données, représentations gra- phiques et distance avec certaines distributions théoriques, puis - continu (poids des béés. Le TP suivant sera dédié à la notion d’ “aléatoire” et à la simulations de données. C’est le seul TP qui n’utilise pas le jeu de données et c’est une occasion de comprendre ce que représente vraiment la notion d’aléa. Sachant manipuler des données et ayant compris ce qu’est une loi de probabilité, vous pourrez alors construire des intervalles de confiance pour les paramêtres que vous aurez estimé à partir des données (TP 4). Enfin vous aurez tous les outils nécessaires pour réaliser des tests sur vos données : égalité d’un paramètre avec une valeur fixée, comparaison d’échantillons, test d’ajustement, d’indépendance (2 séances). Le dernier TP traitera de la regression linéaire. Les bases d’OpenOffice : Avant de commencer à proprement dit les TP, voici quelques manipulations de base vous permettant de bien démarrer avec le logiciel. Comprenez bien que le logiciel ne s’utilise pas en lignes de commande, c’est à dire que vous devez utiliser au maximum la souris et non les touches du clavier. Ainsi il est essentiel : – de cliquer sur les cases que vous voulez utiliser dans vos calculs, l’adresse de cette case s’affichera automatiquement. Il ne faut jamais taper des chiffres en dur dans les fonctions, ni même les adresses des cases, – de savoir nommer une case, en changeant volontairemenent le nom de l’adresse de cette case. Par exemple vous mettez x au lieu de A9, – de savoir étendre une formule à toutes les cases d’un tableau en utilisant à bon essian le signe $ ou en nommant une case. Le signe $ se met toujours avant la lettre ou le chiffre à fixer. Par ex, $A9 fixe le A, A$9 fixe le 9 de la cellule d’adresse A9, – d’utiliser le sous menu ’Insérer fonction’ de ’Insérer’ pour utiliser une fonction : les différents arguments de la fonction vous sont alors demandés dans l’ordre dans lequel la fonction les prend. Bien démarrer avec Open Office Calc : manipulations de base : 1. Repérer que le tableur est fait pour être utilisé avec la souris : – Ouvrez Open Office Calc et nommez ce nouveau fichier type feuille de calcul “intro.ods”. – Placez vous dans la première case (A1) et inscrivez y le chiffre 2. Observez où est inscrit l’adresse A1, ou est inscrit la valeur 2. – Placez vous dans la case A2 et ecrivez =A1+1. Concrètement, vous devez taper le signe “=”, puis “sélectionner à la souris la case A1” puis taper “+1”. Chaque commande se termine par un retour chariot (Return/Entrée). – Etendez cette formule jusqu’a A10 : A l’aide du bouton droit de la souris, copiez la case A2, sélectionnez les cases allant de A3 à A10 et utilisez ’coller’. – Placez vous sur la case A7 et cliquez 2 fois avec la souris. Observez. 2. Etendre une formule et utilisation du signe $ : – Placez vous en B1 et ecrivez =A1/A10 , en cliquant sur A1 et A10. – Copiez/collez cette formule jusqu’à B10. – Placez vous en B7. Cliquez 2 fois avec la souris. Observez. – Placez vous en C1 et ecrivez =A1/A10 , en cliquant sur A1 et A10. – Fixez dans cette formule avec le signe $ ce qui ne doit pas bouger dans A10 lorsque vous recopierez cette formule jusqu’a C10. – Copier/coller cette formule jusqu’à C10. – Placez vous en C7. Cliquez 2 fois avec la souris. Observez. 2 3. Nommer une cellule : – Placez vous en A10 et nommez cette case diviseur. Pour ce faire, ecrivez le mot diviseur là ou apparait l’adresse de la case, (en haut à gauche de la feuille de calcul). – Placez vous en D1 et ecrivez =A1/diviseur , en cliquant sur A1 et en ecrivant diviseur ou bien en utilisant ’insertion/nom/insérer’. – Copiez/collez cette formule jusqu’à D10. – Placez vous en D10. Cliquez 2 fois avec la souris. Observez. 4. Utiliser une fonction : – Copiez les cellules A7 :A10. – Placez vous en A12 et copier ces valeurs en utilsant ’collage spécial’, en décochant ’Insérer tout’ et ’Formule’ et en cochant ’Nombre’ et Transposé’. – Enfin on souhaite connaitre le reste de la division de D12 par A12. Placez vous en A13, tapez ”=” puis sélectionnez la fonction MOD dans ’Insertion/Fonction’ et suivre l’assistant pour rentrer les bons paramètres. – Etendre en utilisant à bon essian le signe $ cette formule de B13 jusqu’à D13. 3