Droite des moindres carrés de x en y - LAMFA

Transcription

Droite des moindres carrés de x en y - LAMFA
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
Université de Picardie Jules Verne
UFR des Sciences
2011-2012
Licence mention Mathématiques et mention Informatique parcours MIAGE - Semestre 3
Statistique et Probabilités
Régression - Droite des moindres carrés
Le chapitre précédent traitait de la statistique descriptive univariée, c’est-à-dire de la description d’une
série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser et
mesurer (le cas échéant) les liens existant entre deux variables : c’est l’objet de la statistique descriptive
bivariée.
On considère une population sur laquelle on étudie deux variables (ou caractères) quantitatives X et Y. On
étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables X, Y . On veut
savoir si les deux variables sont liés par une liaison fonctionnelle du type Y f X (c’est-à-dire que l’on peut
prévoir les valeurs de Y à partir des valeurs de X), ou X f Y (c’est-à-dire que l’on peut prévoir les valeurs
de X à partir des valeurs de Y).
Précisons dès maintenant que l’existence d’une telle liaison entre les deux variables X et Y ne signifie pas
obligatoirement un lien de cause à effet entre elles.
Exemple fondamental : Y
aX
b (liaison fonctionnelle affine).
Sur un échantillon de n individus extrait de la population, on observe n couples x 1 , y 1 ,
x 2 , y 2 , , x n , y n de valeurs de X et Y.
Représentation graphique : nuage de points.
Ces observations peuvent être représentées dans le plan. A chaque couple x i , y i , i 1, , n, on fait
correspondre un point M i . On obtient un nuage de point.
La forme du nuage obtenu peut indiquer le type de dépendance possible entre X et Y. Si les points sont
”plutôt” alignés, on peut envisager une relation de type Y aX b (équation de droite). Si le nuage ”forme”
une parabole, on peut envisager une relation de type Y aX 2 bX c.
On dit que l’on cherche à ajuster une courbe au nuage de points.
1. Droite des moindres carrés (ou de régression) de y en x
On cherche à ajuster une droite d’équation y ax b au nuage de points.
Le critère d’ajustement est la distance totale entre les points du nuage M i x i , y i et les points
P i x i , ax i b correspondant sur la droite d’ajustement.
n
On cherche donc le couple a, b qui minimise f a, b
n
soit
n
2 yi
ax i
b
xi
i 1
n
soit
2 yi
ax i
i 1
n
b xi
0 et
n
yixi
i 1
x 2i
a
b
i 1
yi
i 1
n
xi
En divisant par n, on obtient : 1
n
Variances : s 2x
Stéphane Ducay
1
n
n
xi
i 1
ax i
x
b
1
nb
0.
0,
0,
b
n
yi
a
i 1
n
xi
i 1
yixi
i 1
i 1
1
n
a1
n
1
n
xi, y
2
0,
n
0 et
1
n
ax i
n
i 1
Moments. Moyennes : x
f
a, b
b
0 et
i 1
n
yi
soit
0 et
b 2.
ax i
i 1
f
a, b
a
Conditions nécessaires de minimum :
yi
n
x 2i
i 1
n
n
x 2i
i 1
b1
n
n
xi
i 1
0 et 1
n
n
yi
i 1
a1
n
n
xi
b
0.
i 1
yi,
i 1
x 2 , s 2y
1
n
n
y 2i
y
2
i 1
1
S3 Maths et Info-MIAGE 2011-2012
Covariance : cov x, y
1
n
Statistique et Probabilités
n
xi
x yi
n
1
n
y
i 1
Régression - Droite des moindres carrés
xiyi
xy.
i 1
x 2
bx 0 et y
On a alors : cov x, y xy a s 2x
De b y ax on déduit cov x, y xy a s 2x
x 2
cov x, y
soit cov x, y as 2x 0, soit a
.
s 2x
On admet que ce couple a, b minimise f a, b .
ax b 0.
y ax x 0,
La droite des moindres carrés (ou de régression) de y en x a donc pour équation :
cov x, y
D y/x : y ax b, avec a
et b y ax.
s 2x
Exemple.
On considère la série double statistique suivante :
xi 2 3
5
1 4
y i 4 9 11 3 8
Le nuage de points correspondant est représenté sur le graphe ci-dessous.
y
12
10
8
6
4
2
0
0
1
2
3
4
5
6
x
Nuage de points
La droite de regression de y en x a pour équation : y
xi
y i x i y i x 2i
2
4
8
4
3
9
27
9
5
1
4
11
3
8
55
3
32
1
n
On a x
1
n
s 2x
1
1
5
xi
i 1
1
n
cov x, y
25
16
n
ax
15
n
xy
2
1
5
1
5
i 1
n
x 2i
x
i 1
1
n
3, y
xiyi
cov x, y
et b
s 2x
b, avec a
n
yi
i 1
125
55
3
3
2
7
35
2
3
7,
4,
cov x, y
4
2 et b y ax
2
s 2x
La droite de regression de y en x a donc pour équation : y
y
ax.
2.
On en déduit que a
15 35 125 55
1
5
y
7
2x
1.
1.
12
10
8
6
4
2
0
0
1
2
3
4
5
6
x
Nuage de points et droite de régression de y
Stéphane Ducay
2
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
Remarque. Cette droite passe par deux des points du nuage : c’est une coïncidence ! Cela ne se produit
pas en général.
2. Droite des moindres carrés de x en y.
On suit une démarche analogue à celle qui a donné la droite des moindres carrés de y en x :
cov x, y
et b y ax.
D y/x : y ax b, avec a
s 2x
On cherche à ajuster une droite D x/y d’équation x a y b au nuage de points.
On obtient la droite des moindres carrés de x en y :
cov x, y
D x/y : x a y b , avec a
et b
x a y.
s 2y
Remarque. Ces équations peuvent aussi s’écrire :
D y/x : y y
a x
x
D x/y : x x a y
Les droites D y/x et D x/y se coupent donc au point G x, y .
y
Exemple.
Reprenons l’exemple précédent. On a toujours x
n
1
1 291 7
On calcule s 2y
y 2i
y 2
n
5
i 1
3, y
2
7, cov x, y
9, 2, d’où a
La droite de regression de x en y a donc pour équation x
x
a y
4, s 2x
cov x, y
s 2x
2 et a
4
9, 2
y , soit x
3
c’est-à-dire y 2, 3x 0, 1.
On retrouve également une équation de la droite de régression de y en x : y
y 7 2 x 3 , c’est-à-dire y 2x 1.
Les droites D y/x et D x/y se coupent au point G x, y
G 3, 7 .
y
y
2.
1 .
2, 3
1 y
2, 3
a x
7 ,
x , soit
12
10
8
6
4
2
0
0
1
2
3
4
5
6
x
Droites de régression de y en x et de x en y
3. Coefficient de corrélation linéaire entre x et y
cov x, y
sxsy .
Le coefficient de corrélation linéaire est donné par : r x,y
Qualité de l’ajustement.
On peut démontrer que r 2x,y
n
yi
si
ax i
b
2
1
1 1
s 2y n
0, c’est-à-dire y i
n
yi
ax i
b
2
1. On en déduit que r 2x,y
1 si et seulement
i 1
ax i
b
0, pour tout i
1,
, n, soit M i x i , y i
D y/x . Ainsi,
i 1
r 2x,y
1 si et seulement si les points M i sont alignés sur D y/x .
De façon générale, plus r 2x,y est proche de 1, meilleur est l’ajustement de la droite des moindres carrés au
Stéphane Ducay
3
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
nuage de points. Le signe de r x,y (même signe que celui de a) indique le sens de la liaison (croissante si
r x,y 0, décroissante si r x,y 0) entre X et Y.
Signification de r x,y .
La question se pose de savoir si une forte valeur de r x,y (en valeur absolue) ou de r 2x,y prouve qu’il y a une
forte corrélation entre les deux caractères X et Y (par exemple lorsque l’ajustement est bon) ou si elle est due
au hasard de l’échantillonage (par exemple lorsque n est petit). Pour obtenir une réponse, on peut utiliser des
tests statistiques (voir statistique inférentielle).
Formule de décomposition.
La notion de liaison entre X et Y signifie qu’une variation de X entraîne une variation de Y. La formule de
décomposition permet de préciser la part de variation de Y expliquée par la variation de X :
n
yi
y
n
2
yi
i 1
n
2
y
yi
i 1
yi
2
, avec y i
ax i
b.
i 1
La démonstration repose sur le fait que le double produit s’annule :
n
n
yi
y
yi
yi
a
i 1
xi
x ei
0, avec e i
yi
y i (erreur observée), et grâce aux équations
i 1
définissant a et b.
n
La somme des carrés totale :
yi
y
2
mesure la variation globale des y i autour de leur moyenne y.
i 1
n
La somme des carrés expliquée par la variable X :
yi
y
2
n
a2
i 1
xi
x
2
mesure la variation de
i 1
Y expliquée par la variable X. Ce terme n’est d’ailleurs fonction que de la pente de la droite des moindres
carrés et des valeurs de X.
n
yi
La somme des carrés résiduelle :
yi
n
2
e 2i mesure la variation de Y non expliquée par la
i 1
i 1
variable X.
Coefficient de détermination.
Il est naturel de mesurer la force de la liaison entre les variables X et Y à l’aide du coefficient de
détermination :
n
R2
yi
y
yi
y
i 1
n
2
somme des carrés expliquée
somme des carrés totale
2
i 1
On peut vérifier que R 2
r 2x,y . Ce qui explique que r x,y mesure la force de la liaison entre X et Y.
Position relative de D y/x et D x/y .
Si r 2x,y
0, alors cov x, y
Si r 2x,y
0, alors a
0, et donc a
0 et a
a
0. Ainsi, D y/x : y
0. On a alors : D y/x : y
y
a x
y et D x/y : x
x et D x/y : y
x.
y
1
x
x .
a
2
cov x, y cov x, y
cov x, y
r 2x,y .
2
2
sxsy
sx
sy
1 et donc D a pour équation : y y
Si r 2x,y 1, alors a
x/y
a
de D y/x . Ainsi, D x/y D y/x .
On a : aa
Si 0
r 2x,y
- soit 0
1, alors 0
r x,y
1 x
a
x
a x
x , soit l’équation
aa
1 et deux cas sont possibles :
1 ;
1 et alors a 0, a
0 et a
a
- soit 1
Stéphane Ducay
r x,y
0 et alors a
0, a
0 et a
1 .
a
4
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
4. Point de vue géométrique ; réprésentation vectorielle
4.1. Introduction
Considérons les points M x de coordonnées x i et M y de coordonnées y i dans une espace affine n
associé à n , ou de manière équivalente les vecteurs M x de coordonnées x i et M y de coordonnées y i dans
l’espace vectoriel n .
Pour comparer ces vecteurs et essayer d’établir d’éventuelles relations entre eux, on est amené à utiliser la
distance euclidienne, ce qui revient à privilégier les notions de moyenne arithmétique et d’écart-type.
Notons U le vecteur dont toutes les coordonnées sont égales à 1, et considérons les vecteurs xU et yU,
ainsi que les vecteurs V x M x xU et V y M y yU. Par propriété de la distance euclidienne, V x et V y sont
orthogonaux à U, et donc à xU et yU.
B
Vx
xU
Vy
Mx
U
Vx
O
Définition de Vx
A
Représentation de Vx et Vy
Dans la suite, on suppose n 0, V x 0 et V y 0, c’est-à-dire X et Y non constantes. On représente alors
V x et V y , dans un même plan, par des vecteurs OA et OB, avec OA segment horizontal avec A à droite de O.
La longueur OA est proportionnelle à
n
Vx
xi
x
2
n sx
yi
y
2
n sy
i 1
De même, la longueur OB est proportionnelle à
n
Vy
i 1
L’écart angulaire de OA et OB est implicitement défini par
cos OA, OB
cos V x , V y
Vx. Vy
Vx
Vy
Vx. Vy
ns x s y
Pour éliminer les effets d’échelles dûs à des unités différentes (pour une comparaison plus universelle des
Vy
V x et W
couples de variables quantitatives), on peut considérer les vecteurs normés W x
,
y
Vx
Vy
représentés par des vecteurs OA et OB , de longueur égale à l’unité, colinéaires à OA et OB et de même sens.
On a ainsi cos OA, OB
cos OA , OB
cos W x , W y
Wx. Wy.
4.2. Corrélation linéaire
Le point de vue géométrique introduit l’importante notion de corrélation linéaire. On s’intéresse alors à la
colinéarité éventuelles des vecteurs V x et V y .
S’il existe une liaison fonctionnelle affine entre Y et X du type Y aX b, avec a 0, alors y ax b.
Il en résulte que M y yU a M x xU , soit V y aV x , ce qui signifie que les vecteurs V x et V y sont
colinéaires. On dit que les caractères sont parfaitement corrélés.
Stéphane Ducay
5
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
Réciproquement, si les vecteurs V x et V y sont colinéaires (non nuls), il existe un réel a non nul tel que, par
exemple, V y aV x , soit M y yU a M x xU . Ce qui signifie que pour tout entier i entre 1 et n,
y i y a x i x , soit y i ax i y ax. Autrement dit, il existe une liaison fonctionnelle affine entre Y et X
du type Y aX b, avec b y ax.
1 suivant que V x et V y sont dans le même sens ou pas.
Dans ce cas, cos V x , V y
A contrario, si les vecteurs V x et V y sont orthogonaux (cosinus nul), on dit que les variables X et Y sont
non corrélées. Dans ce cas, on a la double équivalence
n
Vx. Vy
0
Mx
xU
My
yU
0
xi
x yi
y
0
i 1
Entre ces deux situations extrêmes, l’écart angulaire des vecteurs V x et V y , ou plus précisément son
cosinus, fournit une mesure du degré de corrélation linéaire entre les deux variables X et Y étudiées. On a
alors
cos V x , V y
r x,y
Partageant arbitrairement le plan en secteurs de 30°, on obtient 5 zones permettant de définir une bonne,
3
1 , ce
médiocre ou mauvaise corrélation entre X et Y. Sachant que cos 30°
0, 866 et cos 60°
2
2
critère graphique se traduit numériquement par :
3
- si
|r x,y | 1, il existe une bonne corrélation linéaire entre X et Y ;
2
3
- si 1
, la corrélation linéaire entre X et Y est médiocre ;
|r x,y |
2
2
1 , la corrélation linéaire entre X et Y est mauvaise.
- si 0 |r x,y |
2
4.3. Coefficients de régression
Considérons les vecteurs M y de coordonnées y i ax i b , V y M y yU de coordonnées y i y ,
M e M y M y de coordonnées e i y i y i , V e V y V y de coordonnées e i e y i y y i y .
La méthode des moindres carrés (appliquées aux écarts verticaux) consiste à déterminer les réels a et b de
2
soit minimale.
façon que M e
Il est clair que M e V e eU. Les vecteurs V y et V y étant orthogonaux à U, il en est de même pour V e .
n , il s’ensuit (théorème de Pythagore)
Puisque U
Me
2
Ve
2
ne 2
Cette somme de deux carrés indépendants est minimale lorsque chacun de ses termes est minimal.
Pour n 0, le terme ne 2 est minimal lorsque e 0, c’est-à-dire y y : la variable Y et son modèle affine
Y ont alors la même moyenne. Or y ax b, donc y ax b, d’où b y ax.
Par ailleurs, pour tout entier i entre 1 et n, y i y ax i b ax b
a x i x , d’où V y aV x . Les
vecteurs V y et V x sont donc colinéaires.
Notant OA V x , OB V y et OH V y , il en résulte que les points O, H et A sont alignés.
B
Vy
Vx
O
V~y
H
A
Position du point H
Comme HB
Stéphane Ducay
V e , on voit que
Ve
2
est minimale si et seulement si H appartient à la droite OA et la
6
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
distance HB est minimale, c’est-à-dire si et seulement si H est la projection orthogonale de B sur OA .
Les vecteurs V e et V x sont alors orthogonaux, ce qui donne les égalités équivalentes suivantes :
Ve. Vx
et a
0, V y V y . V x 0, V y . V x V y . V x , ncov x, y
cov x, y
(puisque s x 0 et n 0).
s 2x
aV x . V x
a Vx
2
ans 2x
4.4. Décomposition de la variance
On a la formule de décomposition suivante : s 2y s 2y s 2e ,
c’est à dire Variance totale en Y Variance expliquée Variance résiduelle.
2
2
2
Ceci résulte des résultats précédents : OB 2 OH 2 HB 2 , c’est-à-dire V y
Vy
V e , soit
encore ns 2y ns 2y ns 2e , d’où la formule annoncée.
En utilisant cette formule de décomposition, on peut mesurer la part de la variance expliquée par la
régression de Y en X par rapport à la variance totale. Plus cette part est grande, plus la variance résiduelle est
petite (plus l’erreur est faible), plus l’ajustement affine est justifié.
s 2y
On appelle coefficient de détermination le réel d x,y défini par d x,y
. On a alors
s 2y
2
Vy
d x,y
aV x
2
2
cov 2 x, y s 2x
s 4x
s 2y
a 2 s 2x
s 2y
2
cov 2 x, y
s 2x s 2y
r 2x,y .
Vy
Vy
On a toujours 0 d x,y r 2x,y 1. Reformulant le critère de corrélation linéaire, on aura :
3 , il existe une forte corrélation linéaire entre Y et X et l’ajustement affine est justifié ;
- si d x,y
4
- si d x,y 0, X et Y ne sont pas corrélées.
5. Généralisation
On considère une population sur laquelle on étudie deux caractères quantitatifs X et Y pouvant prendre
respectivement r et s valeurs distinctes.
On extrait de cette population un échantillon de taille n et on note n ij l’effectif observé d’individus
prenant la i ème valeur de X et la j ème valeur de Y.
La représentation graphique d’une telle série statistique à deux variables pourra se faire à l’aide d’un
stéréogramme (en 3 dimensions). On pourra aussi la représenter à l’aide d’une nuage de points (en 2
dimensions), en indiquant, entre parenthèses à coté de chaque point de coordonnées x i , y j , l’effectif n ij
correspondant.
Les effectifs marginaux observés sont :
s
ni
r
n ij
n i1
n i2
n is et n
n ij
j
j 1
n 1j
n 2j
n rj .
i 1
X \ Y y1
y2
ys
ni
x1
n 11 n 12
n 1s n 1
x2
n 21 n 22
n 2s n 2
xr
n r1 n r2
n rs n r
n
n
n
j
1
n
2
s
n
On redéfinit alors les moments.
r
Moyennes : x
1
n
s
1
n
ni xi, y
i 1
r
Variances :
s 2x
1
n
Stéphane Ducay
r
ni xi
i 1
n jyj,
j 1
x
2
1
n
s
n i x 2i
i 1
2
x ,
s 2y
1
n
n j y 2j
y
2
j 1
7
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
r
s
r
1
n
Covariance : cov x, y
Régression - Droite des moindres carrés
n ij x i
x yi
s
1
n
y
n ij x i y j
i 1 j 1
xy.
i 1 j 1
On reporte ces nouvelles valeurs dans les équations des droites des moindres carrés et dans la formule du
coefficient de corrélation linéaire.
Exemple.
Une statistique effectuée sur 800 personnes donnent la répartition suivante :
xi \ yj
3
2
1
0
ni
1
74
116
68
82
340
0
126 174
82
78
460
n
200 290 150 160 800
j
On présente les calculs dans les tableaux suivant :
xi \ yj
3
2
1
0
ni
n i x i n i x 2i
1
74
116
68
82
340
340
340
0
126
174
82
78
460
0
0
200
290
150 160
800
340
340
n jyj
600
580
150
0
1330
n j y 2j
1800 1160 150
0
3110
xi \ yj
2
1
n
j
1
n ij x i y j
0
3
0
222 232 68 0
0
0
0
0
522
On a alors :
r
1
x
ni xi
n
i 1
s
y
1
n
n jyj
j 1
r
s 2x
1
n
1
800
340
1
800
1330
1
n
x
2
1
800
340
n j y 2j
y
2
1
800
3110
j 1
r
cov x, y
1, 663,
n i x 2i
i 1
s
s 2y
0, 425,
0, 425
2
1, 6625
0, 244,
2
1, 124,
s
1
n
n ij x i y j
i 1 j 1
xy
1
800
522
0, 425
1, 6625
0, 054.
On en déduit :
D y/x : y
ax
D x/y : x
ay
r x,y
cov x, y
sxsy
Stéphane Ducay
cov x, y
0, 221 et b y ax 1, 757,
s 2x
cov x, y
b , avec a
0, 048 et b
x a y 0, 505,
s 2y
0, 054
0, 103
0, 494 1, 056
b, avec a
8
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
6. Exercices
Exercice 1.
Dans la série statistique suivante, x représente le nombre de jours d’exposition au soleil d’une feuille et y
le nombre de stomates aérifères au millimètre carré :
x 2
4
8
10 24 40 52
y 6 11 15 20 39 62 85
1) Déterminer une équation de la droite de regression de y en x.
2) Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat.
3) Quel nombre de stomates peut-on prévoir après 30 jours d’exposition au soleil ? après 60 jours ?
Exercice 2.
On a procédé à l’ajustement affine d’un nuage de points. Les équations obtenues sont les suivantes :
- droite d’ajustement de y en x : D : y x 30
- droite d’ajustement de x en y : D : x 1/4y 60
1) Calculer le coefficient de corrélation linéaire.
2) Calculer les moyennes arithmétiques de x et de y.
3) Calculer la covariance entre x et y et la variance de x, sachant que la variance de y est égale à 40.
Exercice 3.
On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces
stagiaires subissent une épreuve A notée de 0 à 20. A l’issue du stage, une épreuve B identique à la première
est aussi notée de 0 à 20. Considérant les deux variables X note de A et Y note de B, on a obtenu les
résultats suivants :
stagiaire 1 2
3
4
5
6
7
8
9
10 11 12
6
7
9
10
9
11 12 13 15
xi
3 4
yi
8 9 10 13 15 14 13 16 13 19
6
4
19
1) a) Représenter ces résultats par un nuage de points.
b) Quelle courbe d’ajustement ce nuage vous suggère-t-il ?
2) A partir des résulats obtenus, on a déterminé la droite de régression de y en x, ainsi le coefficient de
corrélation linéaire entre x et y. On a obtenu l’équation y 0, 108 x 11, 990 et le coefficient r 0, 101.
A partir de ces résultats, expliquer pourquoi l’ajustement n’est pas bon.
3) On décide d’éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10.
a) Déterminer une équation de la droite de régression de y en x par la méthode des moindres carrés.
b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu.
Exercice 4. (D’après partiel de novembre 2007)
Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français :
Année
1998 1999 2000 2001 2002 2003 2004
Rang de l’année : x i
0
1
2
Montant d’achats en millions d’euros : y i
75
260
820
3
4
5
6
1650 2300 4000 5300
1)
a) Préciser la population, la(es) variable(s) étudiée(s) et la taille de l’échantillon.
b) Donner une équation de la droite de régression de y en x.
c) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu.
d) Quelle prévision du montant d’achats peut-on faire pour l’année 2005 ? Est-elle fiable ?
2) On considère la nouvelle variable z
y.
a) Déterminer une équation de la droite de régression de z en x, ainsi que le coefficient de corrélation
linéaire entre x et z. Interpréter le résultat obtenu.
b) En déduire une expression de y en fonction de x, puis une prévision du montant d’achats pour
l’année 2005.
Stéphane Ducay
9
S3 Maths et Info-MIAGE 2011-2012
Statistique et Probabilités
Régression - Droite des moindres carrés
3) A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l’équation
130x 2 100x 68.
a) S’agit-il du même ajustement que celui obtenu dans le 2) ? Expliquer cette situation.
b) Déduire de cet ajustement une prévision du montant d’achats pour l’année 2005.
4) Le montant des achats en ligne en 2005 a été de 7700 millions d’euros. Lequel des trois ajustements
précédents vous parait-il le plus conforme à la réalité ? Jutifier votre réponse.
y
Exercice 5. (D’après partiel de novembre 2004)
Une statistique publiée en l’an 2000 donne le nombre d’abonnés à Internet dans le monde, à la fin de
l’année indiquée :
Année
1995 1996 1997 1998 1999 2000
Rang de l’année : x i
0
1
2
3
4
5
Nombre d’abonnés en millions : y i
26
55
101
150
248
407
1)
2)
Représenter graphiquement le nuage de points M i x i , y i , i 0, . . . , 5.
Une première étude avait eu lieu en 1998.
a) Donner une équation de la droite de régression de y en x obtenues par la méthode des moindres
carrés appliquée sur les années 1995 à 1998. Construire cette droite sur le graphique du 1). Préciser les
coordonnées du point moyen G du nuage et placer le point G sur le graphique du 1).
b) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. Peut-on en
déduire des prévisions pour 1999, 2000 et 2001 ?
Dans la suite, on travaille sur les années 1995 à 2000.
3) Dans cette question, on utilise la méthode d’ajustement dite de la droite de Mayer.
On désigne par G 1 le point moyen des trois premiers points M 0 , M 1 et M 2 , et par G 2 le point moyen
des trois derniers points M 3 , M 4 et M 5 .
a) Déterminer les coordonnées des points G 1 et G 2 , et placer ces points sur la graphique du 1).
b) Déterminer une équation de la droite G 1 G 2 sous la forme y ax b.
c) Calculer alors une prévision du nombre d’abonnés pour l’année 2001.
4) a) On pose z ln y . Calculer alors les valeurs z i ln y i .
b) Donner une équation de la droite de régression de z en x.
c) Donner le coefficient de corrélation linéaire entre x et z. Interpréter le résultat obtenu.
d) En déduire une expresion de y en fonction de x et représenter la fonction obtenue sur le graphique.
e) Calculer alors la nouvelle prévision du nombre d’abonnés pour l’année 2001.
Exercice 6.
Une enquête porte sur lemploi du temps des élèves de Licence mention mathématiques de l’UPJV. Après
leur avoir demandé de noter durant une semaine le temps de leurs activités, on sélectionne les trois questions
suivantes :
Q1 : pendant combien d’heures (y compris d’enseignement) avez-vous travaillé dans la semaine ?
Q2 : pendant combien d’heures avez-vous regardé la télévision dans la semaine ?
Q3 : pendant combien d’heures avez-vous lu dans la semaine ?
Afin de faciliter les calculs, on n’a retenu que 10 étudiants tirés au hasard. Leurs réponses (arrondies en
heures) figurent dans le tableau suivant :
Travail
45 40 47 48 39 43 47 43 40 38
Télévision
7
8
12 13
7
14
5
7
8
9
Lecture
5
3
2
8
1
9
7
3
1
1
On désigne respectivement par X, Y et Z les variables (ou caractères) nombres d’heures hebdomadaires
passées au travail, à la télévision et à la lecture.
1) Etudier successivement les trois couples X, Y , X, Z et Y, Z . Pour chacun des couples, tracer le
nuage des 10 points et calculer les indicateurs statistiques : moyennes, écart-types, coefficient de corrélation
linéaire.
2) Pour le(s) couple(s) pour le(s)quel(s) cela se justifie, écrire l’équation de la droite de régression
linéaire.
3) Quelle conclusion peut-on suggérer sur l’emploi du temps de ces étudiants ?
Stéphane Ducay
10