TP : Introduction aux TPs de statistique - membres

Transcription

TP : Introduction aux TPs de statistique - membres
Université Joseph Fourier
L2/STA240
TP : Introduction aux TPs de statistique
Objectifs : L’objectif de ces travaux pratiques est de vous rendre capables de réaliser
une analyse statistique de base :à partir de données expérimentales.
Outils informatiques : Nous avons choisi d’utiliser dans un premier temps le tableur de
Open Office pour faire ces TPs. En effet, très simple d’utilisation, cet outil vous permet de
visualiser les données, de réaliser un certain nombre de calculs, de les représenter graphiquement. De plus, l’importation de données à partir d’un fichier ainsi que l’exportation de
tableaux, de graphiques dans un rapport est aisée. Enfin, le logiciel assiste les utilisateurs
afin qu’ils se forment eux même et deviennent rapidement autonomes.
Dans un second temps, nous utiliserons un logiciel très utilisé par les statisticiens : le logiciel R. R est un lociel libre. Le langage utilisé est interprété. Les utilisateurs, essentièlement
des chercheurs en statistique mettent à la disposition de tous des ”packages”, des librairies regroupant les formats, données et fonction autour d’un thème qui peut être soit une
méthode statistique, soit une application particulière. On y trouve par exemple ”tree”
pour la ”classification and regression tree”, ou ”mritc” pour ”MRI tissus classification ”.
Utiliser ce logiciel permet l’utilisation de méthodes statistiques nouvelles, mises en place
par ceux qui les créent.
Déroulement des TPs : C’est un même jeu de données qui servira de fil conducteur
à l’ensemble des TPs. Il s’agit d’un fichier de données, recoltées par le Baystate Medical
Center à Springfield en 1986. Le fichier original contient 189 lignes (individus) et 10 colonnes (variables). Nous avons extrait de ce jeu, 2 jeux : le premier que nous avons appelé
“BB mères fumeuses.csv” contient 74 lignes et 2 colonnes. Un individu est ici un bébé
dont la mère est fumeuse et il est caractérisé par 2 variables : l’âge de la mère lors de la
naissance et le poids du bébé à la naissance. Le second jeu, “BB mères non fumeuses.csv”
contient les données relatives à 115 bébés issus de mère non fumeuse. Le jeu de données
“BB mères fumeuses.ods” est entièrement traité en ligne. Ainsi vous disposez de fichierssolutions dans lesquels des conseils concernant l’utilisation du tableur vous sont donnés
textuellement. Cette aide en ligne est une assistance Open office orienté statistique qui a
pour but de vous aider à être rapidement autonome. Nous vous conseillons pour les
premiers TP de toujours essayer de vous en sortir avec les conseils textuels et, si vous n’y
arrivez pas, de regarder la solution. Pour chaque nouvelle manipulation ou nouvelle fonction du logiciel, vous bénéficiez ainsi d’une aide. La notion introduite est alors considérée
comme acquise, c’est à dire que vous devez savoir l’utiliser avec l’assistant du logiciel et
vous n’aurez, dans les TPs suivants, aucune assistance concernant cette notion.
Les 2 premiers TPs sont consacrés à l’étude d’un caractère -discret (l’âge) : présentation
des données dans un tableau de distribution, résumé des données, représentations gra-
phiques et distance avec certaines distributions théoriques, puis - continu (poids des béés.
Le TP suivant sera dédié à la notion d’ “aléatoire” et à la simulations de données. C’est
le seul TP qui n’utilise pas le jeu de données et c’est une occasion de comprendre ce que
représente vraiment la notion d’aléa. Sachant manipuler des données et ayant compris ce
qu’est une loi de probabilité, vous pourrez alors construire des intervalles de confiance
pour les paramêtres que vous aurez estimé à partir des données (TP 4). Enfin vous aurez
tous les outils nécessaires pour réaliser des tests sur vos données : égalité d’un paramètre
avec une valeur fixée, comparaison d’échantillons, test d’ajustement, d’indépendance (2
séances). Le dernier TP traitera de la regression linéaire.
Les bases d’OpenOffice : Avant de commencer à proprement dit les TP, voici quelques
manipulations de base vous permettant de bien démarrer avec le logiciel. Comprenez
bien que le logiciel ne s’utilise pas en lignes de commande, c’est à dire que
vous devez utiliser au maximum la souris et non les touches du clavier. Ainsi
il est essentiel :
– de cliquer sur les cases que vous voulez utiliser dans vos calculs, l’adresse de cette
case s’affichera automatiquement. Il ne faut jamais taper des chiffres en dur dans
les fonctions, ni même les adresses des cases,
– de savoir nommer une case, en changeant volontairemenent le nom de l’adresse de
cette case. Par exemple vous mettez x au lieu de A9,
– de savoir étendre une formule à toutes les cases d’un tableau en utilisant à bon
essian le signe $ ou en nommant une case. Le signe $ se met toujours avant la lettre
ou le chiffre à fixer. Par ex, $A9 fixe le A, A$9 fixe le 9 de la cellule d’adresse A9,
– d’utiliser le sous menu ’Insérer fonction’ de ’Insérer’ pour utiliser une fonction :
les différents arguments de la fonction vous sont alors demandés dans l’ordre dans
lequel la fonction les prend.
Bien démarrer avec Open Office Calc : manipulations de base :
1. Repérer que le tableur est fait pour être utilisé avec la souris :
– Ouvrez Open Office Calc et nommez ce nouveau fichier type feuille de calcul
“intro.ods”.
– Placez vous dans la première case (A1) et inscrivez y le chiffre 2. Observez où est
inscrit l’adresse A1, ou est inscrit la valeur 2.
– Placez vous dans la case A2 et ecrivez =A1+1. Concrètement, vous devez taper
le signe “=”, puis “sélectionner à la souris la case A1” puis taper “+1”. Chaque
commande se termine par un retour chariot (Return/Entrée).
– Etendez cette formule jusqu’a A10 : A l’aide du bouton droit de la souris, copiez
la case A2, sélectionnez les cases allant de A3 à A10 et utilisez ’coller’.
– Placez vous sur la case A7 et cliquez 2 fois avec la souris. Observez.
2. Etendre une formule et utilisation du signe $ :
– Placez vous en B1 et ecrivez =A1/A10 , en cliquant sur A1 et A10.
– Copiez/collez cette formule jusqu’à B10.
– Placez vous en B7. Cliquez 2 fois avec la souris. Observez.
– Placez vous en C1 et ecrivez =A1/A10 , en cliquant sur A1 et A10.
– Fixez dans cette formule avec le signe $ ce qui ne doit pas bouger dans A10 lorsque
vous recopierez cette formule jusqu’a C10.
– Copier/coller cette formule jusqu’à C10.
– Placez vous en C7. Cliquez 2 fois avec la souris. Observez.
2
3. Nommer une cellule :
– Placez vous en A10 et nommez cette case diviseur. Pour ce faire, ecrivez le mot
diviseur là ou apparait l’adresse de la case, (en haut à gauche de la feuille de
calcul).
– Placez vous en D1 et ecrivez =A1/diviseur , en cliquant sur A1 et en ecrivant
diviseur ou bien en utilisant ’insertion/nom/insérer’.
– Copiez/collez cette formule jusqu’à D10.
– Placez vous en D10. Cliquez 2 fois avec la souris. Observez.
4. Utiliser une fonction :
– Copiez les cellules A7 :A10.
– Placez vous en A12 et copier ces valeurs en utilsant ’collage spécial’, en décochant
’Insérer tout’ et ’Formule’ et en cochant ’Nombre’ et Transposé’.
– Enfin on souhaite connaitre le reste de la division de D12 par A12. Placez vous
en A13, tapez ”=” puis sélectionnez la fonction MOD dans ’Insertion/Fonction’
et suivre l’assistant pour rentrer les bons paramètres.
– Etendre en utilisant à bon essian le signe $ cette formule de B13 jusqu’à D13.
3