Cristina Butucea Mod`eles linéaires Exercice 1 Nous avons observé

Transcription

Cristina Butucea Mod`eles linéaires Exercice 1 Nous avons observé
Cristina Butucea
Modèles linéaires
Exercice 1 Nous avons observé chez 28 animaux au hasard le poids du corps et le poids
du cerveau conformément au tableau 1. On cherche à expliquer le poids du cerveau par
le poids du corps chez les animaux observés.
1. Rentrer la variable explicative X et la variable expliquée Y .
2. En regardant les nuages de points, quel modèle linéaire vous semble le plus approprié ?
Y
Y
= θ0 + θ1 X + ε
= θ0 + θ1 log(X) + ε
√
Y = θ0 + θ1 X + ε
log(Y ) = θ0 + θ1 log(X) + ε
√
log(Y ) = θ0 + θ1 X + ε
3. Estimer les coefficients du modèle linéaire choisi précédemment.
4. Tester si l’apport du poids du corps est négligeable sur le poids du cerveau ou pas.
5. Evaluer l’adéquation du modèle choisi précédemment aux données.
6. Analyser les résidus.
7. Peut-on valider le modèle linéaire étudié ? Comment faire pour améliorer le modèle ?
8. Pour le nouveau modèle, établir des intervalles de confiance des coefficients et de
la droite de régression. Donner la prévision du poids du cerveau d’un écureuil qui
aurait un poids du corps de 0,68kg ainsi que son intervalle de confiance à 5%.
1
Espèce
Castor des montagnes
Vache
Loup gris
Chèvre
Cochon d’Inde
Diplodocus
Eléphant d’Asie
Ane
Cheval
Singe Potar
Chat
Girafe
Gorille
Humain
Eléphant d’Afrique
Tricératops
Singe Rhésus
Kangourou
Hamster
Souris
Lapin
Mouton
Jaguar
Chimpanzé
Brachiosaure
Rat
Taupe
Cochon
Poids du corps (en kg)
1,35
465,00
36,33
27,66
1,04
11700,00
2547,00
187,10
521,00
10,00
3,30
529,00
207,00
62,00
6654,00
9400,00
6,80
35,00
0,12
0,02
2,50
55,50
100,00
52,16
87000,00
0,28
0,12
192,00
Table 1 –
2
Poids du cerveau (en g)
8,1
423,0
119,5
115,0
5,5
50,0
4603,0
419,0
655,0
115,0
25,6
680,0
406,0
1320,0
5712,0
70,0
179,0
56,0
1,0
0,4
12,1
175,0
157,0
440,0
154,5
1,9
3,0
180,0
Exercice 2 Dans le fichier RMV.csv vous trouvez des données concernant la pollution
de l’air dans des villes américaines en 1960.
On veut expliquer le taux de mortalité TMR (exprimé en 1/10 000).
Les variables candidates à l’explication :
GE65 : pourcentage (×10) de la population des 65 ans et plus
LPOP : logarithme (en base 10 et ×10) de la population
NONPOOR : pourcentage de ménages avec un revenu au dessus du seuil de pauvreté
PERWH : pourcentage de population blanche
PMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de particules
suspendues dans l’air (en µg /m3 × 10)
PMIN : plus petite valeur des relevés réalisés deux fois par semaine de particules suspendues dans l’air (en µg /m3 × 10)
LPMAX : logarithme de la plus grande valeur des relevés réalisés deux fois par semaine
de particules suspendues dans l’air (en µg /m3 × 10)
SMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de sulfate (en
µg /m3 × 10)
SMIN : plus petite valeur des relevés réalisés deux fois par semaine de sulfate (en µg /m3 ×
10)
SMAX : plus grande valeur des relevés réalisés deux fois par semaine de sulfate (en
µg /m3 × 10)
LPM2 : logarithme de la densité de la population par mile carré (×0,1)
3
Exercice 3 Quinze veaux ont été répartis au hasard en trois lots, alimentés chacun d’une
façon différente. Les gains de poids observés au cours d’une même période et exprimé en
kg étant les suivants, peut-on admettre qu’il n’y a pas de relation entre l’alimentation et
la croissance des veaux ?
1
37,7
44,6
42,1
45,1
43,2
2
45,2
54,2
38,1
48,3
55,1
3
48,3
44,1
56,9
42,2
54
Exercice 4 Les niveaux annuels des hautes et basses eaux ont été relevés de 1962 à 1978
à Iquitos (haut = Hautes eaux en m, bas = Basses eaux en m).
A partir de 1970, l’ouverture des routes dans la haute vallée de l’ Amazone a autorisé
une déforestation à large échelle. Cette pratique est susceptible d’avoir des conséquences
climatologiques et hydrologiques importantes. Ces conséquences sont-elles perceptibles
dans les données ci-dessus ?
an
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
haut
25,82
25,35
24,29
24,05
24,89
25,35
25,23
25,06
27,13
27,36
26,65
27,13
27,49
27,08
27,51
27,54
26,21
4
bas
18,24
16,5
20,26
20,97
19,43
19,31
20,85
19,54
20,49
21,91
22,51
18,81
19,42
19,1
18,8
18,8
17,57
Exercice 5 Chez le rat on teste l’effet de l’ouabaı̈ne sur la teneur en noradrénaline du
myocarde. Les résultats pour 4 dosages d’ouabaı̈ne injectée sont dans le tableau ci-dessous.
0
0,49
0,66
0,59
0,62
0,76
0,57
0,62
0,53
1,03
0,25
0,63
0,93
0,48
0,34
0,83
0,44
0,86
0,5
1
0,51 0,66
0,53 0,48
0,28 0,25
0,7 0,3
0,43 0,35
0,4 0,61
0,46 0,45
0,26
0,41
Exercice 6 On veut tester l’efficacité de trois insecticides X, Y, Z contre la pyrale (papillon) du maı̈s. Cinq champs non contigus de formes variables sont subdivisés en 4 parceles
de même surface et sur chacune on teste un insecticide ou rien (témoin T ). Pour chaque
parcelle, on mesure le pods de grains en kg d’un nombre constant de plants.
parcelle insecticide
1
2
3
4
5
X
17,4
16,4
15,5
17,3
18,6
5
Y
Z
T
17 17,6 15,9
15,8 16 15,3
15
17 14,2
16,2 16,9 16
18,6 16,1 14,7
Exercice 7 Le tableau suivant concerne une étude sur la pollution atmosphérique des
villes aux Etats-Unis. Les variables sont les suivantes :
pollution : Teneur annuelle moyenne en S02 en mg/m3
temp : Température annuelle moyenne en degrés Farenheit
usi : Nombre d’entreprises de plus de 20 personnes
pop : Population en milliers d’habitants (1970).
Atlanta
Baltimore
Chicago
Denver
Des Moines
Detroit
Hartford
Indianapolis
Jacksonville
Kansas City
Little Rock
Louisville
Miami
Minneapolis
New Orleans
Phoenix
San Francisco
Washington
Wichita
Wilmington
pollution
24
47
110
17
17
35
56
28
14
14
13
30
10
29
9
10
12
29
8
36
temp
62
55
51
52
49
50
49
52
68
55
61
56
76
44
68
70
57
57
57
54
usi
pop
368 497
625 905
3344 3369
454 515
104 201
1064 1513
412 158
361 746
136 529
381 507
91
132
291 593
207 335
669 744
204 361
213 582
434 757
434 757
125 277
80
80
Modéliser la pollution dans les villes des Etats-Unis à partir de cet échantillon.
6
Exercice 8 On étudie la durée de survie de femmes atteintes d’un cancer du sein, ceci
pour trois types de traitements A, B et C. Le tableau suivant figure également l’âge
d’apparition du cancer :
Trait
Age
32.7
37.2
37.3
39.8
42.6
44.2
45.4
47
47.4
47.6
49.3
50.2
50.4
51.4
51.8
52
53.5
53.6
55.8
56.4
58.7
59.4
63.3
A
Trait
Survie Age
6.5
33.3
8.8
40.4
10
41.6
8.7
43.4
8.4
44.5
4.1
46.5
6.1
47.8
5.6
47.9
3.7
49.2
8.9
52.3
6.4
52.8
5.2
52.8
7.4
53
4
55.2
7
56.1
6.8
56.4
4.6
56.5
4.7
56.6
4.7
4.7
4.3
3.8
2.1
B
Trait
Survie Age
8.5
30.3
5.6
31.7
9.1
31.9
7.4
33.9
4.1
36.2
5.9
39.9
7.7
41.4
6.4
42.6
5.8
43.3
6.3
43.6
5.7
43.6
3.3
44.1
2.7
44.5
4
45.9
3.2
46.5
4.3
48.8
3.8
49
1.5
49.2
50.4
50.7
52.7
C
Survie
11.9
5.6
7.9
9
8.7
9.8
9.5
7.6
7.7
5.2
8.5
7.4
5.1
5.7
7.3
4.6
6.8
5.8
8.6
5.1
6.5
1. Sans tenir compte de l’âge d’apparition du cancer, tester l’existence d’un effet de
traitement sur la durée de survie.
2. Peut-on envisager un modèle linéaire pour expliquer la durée de survie par l’âge
d’apparition de la maladie ? (Tous traitements confondus).
3. Est-ce que le traitement a une influence sur le modèle linéaire de la question 2 ?
7