Cristina Butucea Mod`eles linéaires Exercice 1 Nous avons observé
Transcription
Cristina Butucea Mod`eles linéaires Exercice 1 Nous avons observé
Cristina Butucea Modèles linéaires Exercice 1 Nous avons observé chez 28 animaux au hasard le poids du corps et le poids du cerveau conformément au tableau 1. On cherche à expliquer le poids du cerveau par le poids du corps chez les animaux observés. 1. Rentrer la variable explicative X et la variable expliquée Y . 2. En regardant les nuages de points, quel modèle linéaire vous semble le plus approprié ? Y Y = θ0 + θ1 X + ε = θ0 + θ1 log(X) + ε √ Y = θ0 + θ1 X + ε log(Y ) = θ0 + θ1 log(X) + ε √ log(Y ) = θ0 + θ1 X + ε 3. Estimer les coefficients du modèle linéaire choisi précédemment. 4. Tester si l’apport du poids du corps est négligeable sur le poids du cerveau ou pas. 5. Evaluer l’adéquation du modèle choisi précédemment aux données. 6. Analyser les résidus. 7. Peut-on valider le modèle linéaire étudié ? Comment faire pour améliorer le modèle ? 8. Pour le nouveau modèle, établir des intervalles de confiance des coefficients et de la droite de régression. Donner la prévision du poids du cerveau d’un écureuil qui aurait un poids du corps de 0,68kg ainsi que son intervalle de confiance à 5%. 1 Espèce Castor des montagnes Vache Loup gris Chèvre Cochon d’Inde Diplodocus Eléphant d’Asie Ane Cheval Singe Potar Chat Girafe Gorille Humain Eléphant d’Afrique Tricératops Singe Rhésus Kangourou Hamster Souris Lapin Mouton Jaguar Chimpanzé Brachiosaure Rat Taupe Cochon Poids du corps (en kg) 1,35 465,00 36,33 27,66 1,04 11700,00 2547,00 187,10 521,00 10,00 3,30 529,00 207,00 62,00 6654,00 9400,00 6,80 35,00 0,12 0,02 2,50 55,50 100,00 52,16 87000,00 0,28 0,12 192,00 Table 1 – 2 Poids du cerveau (en g) 8,1 423,0 119,5 115,0 5,5 50,0 4603,0 419,0 655,0 115,0 25,6 680,0 406,0 1320,0 5712,0 70,0 179,0 56,0 1,0 0,4 12,1 175,0 157,0 440,0 154,5 1,9 3,0 180,0 Exercice 2 Dans le fichier RMV.csv vous trouvez des données concernant la pollution de l’air dans des villes américaines en 1960. On veut expliquer le taux de mortalité TMR (exprimé en 1/10 000). Les variables candidates à l’explication : GE65 : pourcentage (×10) de la population des 65 ans et plus LPOP : logarithme (en base 10 et ×10) de la population NONPOOR : pourcentage de ménages avec un revenu au dessus du seuil de pauvreté PERWH : pourcentage de population blanche PMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de particules suspendues dans l’air (en µg /m3 × 10) PMIN : plus petite valeur des relevés réalisés deux fois par semaine de particules suspendues dans l’air (en µg /m3 × 10) LPMAX : logarithme de la plus grande valeur des relevés réalisés deux fois par semaine de particules suspendues dans l’air (en µg /m3 × 10) SMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de sulfate (en µg /m3 × 10) SMIN : plus petite valeur des relevés réalisés deux fois par semaine de sulfate (en µg /m3 × 10) SMAX : plus grande valeur des relevés réalisés deux fois par semaine de sulfate (en µg /m3 × 10) LPM2 : logarithme de la densité de la population par mile carré (×0,1) 3 Exercice 3 Quinze veaux ont été répartis au hasard en trois lots, alimentés chacun d’une façon différente. Les gains de poids observés au cours d’une même période et exprimé en kg étant les suivants, peut-on admettre qu’il n’y a pas de relation entre l’alimentation et la croissance des veaux ? 1 37,7 44,6 42,1 45,1 43,2 2 45,2 54,2 38,1 48,3 55,1 3 48,3 44,1 56,9 42,2 54 Exercice 4 Les niveaux annuels des hautes et basses eaux ont été relevés de 1962 à 1978 à Iquitos (haut = Hautes eaux en m, bas = Basses eaux en m). A partir de 1970, l’ouverture des routes dans la haute vallée de l’ Amazone a autorisé une déforestation à large échelle. Cette pratique est susceptible d’avoir des conséquences climatologiques et hydrologiques importantes. Ces conséquences sont-elles perceptibles dans les données ci-dessus ? an 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 haut 25,82 25,35 24,29 24,05 24,89 25,35 25,23 25,06 27,13 27,36 26,65 27,13 27,49 27,08 27,51 27,54 26,21 4 bas 18,24 16,5 20,26 20,97 19,43 19,31 20,85 19,54 20,49 21,91 22,51 18,81 19,42 19,1 18,8 18,8 17,57 Exercice 5 Chez le rat on teste l’effet de l’ouabaı̈ne sur la teneur en noradrénaline du myocarde. Les résultats pour 4 dosages d’ouabaı̈ne injectée sont dans le tableau ci-dessous. 0 0,49 0,66 0,59 0,62 0,76 0,57 0,62 0,53 1,03 0,25 0,63 0,93 0,48 0,34 0,83 0,44 0,86 0,5 1 0,51 0,66 0,53 0,48 0,28 0,25 0,7 0,3 0,43 0,35 0,4 0,61 0,46 0,45 0,26 0,41 Exercice 6 On veut tester l’efficacité de trois insecticides X, Y, Z contre la pyrale (papillon) du maı̈s. Cinq champs non contigus de formes variables sont subdivisés en 4 parceles de même surface et sur chacune on teste un insecticide ou rien (témoin T ). Pour chaque parcelle, on mesure le pods de grains en kg d’un nombre constant de plants. parcelle insecticide 1 2 3 4 5 X 17,4 16,4 15,5 17,3 18,6 5 Y Z T 17 17,6 15,9 15,8 16 15,3 15 17 14,2 16,2 16,9 16 18,6 16,1 14,7 Exercice 7 Le tableau suivant concerne une étude sur la pollution atmosphérique des villes aux Etats-Unis. Les variables sont les suivantes : pollution : Teneur annuelle moyenne en S02 en mg/m3 temp : Température annuelle moyenne en degrés Farenheit usi : Nombre d’entreprises de plus de 20 personnes pop : Population en milliers d’habitants (1970). Atlanta Baltimore Chicago Denver Des Moines Detroit Hartford Indianapolis Jacksonville Kansas City Little Rock Louisville Miami Minneapolis New Orleans Phoenix San Francisco Washington Wichita Wilmington pollution 24 47 110 17 17 35 56 28 14 14 13 30 10 29 9 10 12 29 8 36 temp 62 55 51 52 49 50 49 52 68 55 61 56 76 44 68 70 57 57 57 54 usi pop 368 497 625 905 3344 3369 454 515 104 201 1064 1513 412 158 361 746 136 529 381 507 91 132 291 593 207 335 669 744 204 361 213 582 434 757 434 757 125 277 80 80 Modéliser la pollution dans les villes des Etats-Unis à partir de cet échantillon. 6 Exercice 8 On étudie la durée de survie de femmes atteintes d’un cancer du sein, ceci pour trois types de traitements A, B et C. Le tableau suivant figure également l’âge d’apparition du cancer : Trait Age 32.7 37.2 37.3 39.8 42.6 44.2 45.4 47 47.4 47.6 49.3 50.2 50.4 51.4 51.8 52 53.5 53.6 55.8 56.4 58.7 59.4 63.3 A Trait Survie Age 6.5 33.3 8.8 40.4 10 41.6 8.7 43.4 8.4 44.5 4.1 46.5 6.1 47.8 5.6 47.9 3.7 49.2 8.9 52.3 6.4 52.8 5.2 52.8 7.4 53 4 55.2 7 56.1 6.8 56.4 4.6 56.5 4.7 56.6 4.7 4.7 4.3 3.8 2.1 B Trait Survie Age 8.5 30.3 5.6 31.7 9.1 31.9 7.4 33.9 4.1 36.2 5.9 39.9 7.7 41.4 6.4 42.6 5.8 43.3 6.3 43.6 5.7 43.6 3.3 44.1 2.7 44.5 4 45.9 3.2 46.5 4.3 48.8 3.8 49 1.5 49.2 50.4 50.7 52.7 C Survie 11.9 5.6 7.9 9 8.7 9.8 9.5 7.6 7.7 5.2 8.5 7.4 5.1 5.7 7.3 4.6 6.8 5.8 8.6 5.1 6.5 1. Sans tenir compte de l’âge d’apparition du cancer, tester l’existence d’un effet de traitement sur la durée de survie. 2. Peut-on envisager un modèle linéaire pour expliquer la durée de survie par l’âge d’apparition de la maladie ? (Tous traitements confondus). 3. Est-ce que le traitement a une influence sur le modèle linéaire de la question 2 ? 7