Droite des moindres carrés de x en y - LAMFA
Transcription
Droite des moindres carrés de x en y - LAMFA
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés Université de Picardie Jules Verne UFR des Sciences 2011-2012 Licence mention Mathématiques et mention Informatique parcours MIAGE - Semestre 3 Statistique et Probabilités Régression - Droite des moindres carrés Le chapitre précédent traitait de la statistique descriptive univariée, c’est-à-dire de la description d’une série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser et mesurer (le cas échéant) les liens existant entre deux variables : c’est l’objet de la statistique descriptive bivariée. On considère une population sur laquelle on étudie deux variables (ou caractères) quantitatives X et Y. On étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables X, Y . On veut savoir si les deux variables sont liés par une liaison fonctionnelle du type Y f X (c’est-à-dire que l’on peut prévoir les valeurs de Y à partir des valeurs de X), ou X f Y (c’est-à-dire que l’on peut prévoir les valeurs de X à partir des valeurs de Y). Précisons dès maintenant que l’existence d’une telle liaison entre les deux variables X et Y ne signifie pas obligatoirement un lien de cause à effet entre elles. Exemple fondamental : Y aX b (liaison fonctionnelle affine). Sur un échantillon de n individus extrait de la population, on observe n couples x 1 , y 1 , x 2 , y 2 , , x n , y n de valeurs de X et Y. Représentation graphique : nuage de points. Ces observations peuvent être représentées dans le plan. A chaque couple x i , y i , i 1, , n, on fait correspondre un point M i . On obtient un nuage de point. La forme du nuage obtenu peut indiquer le type de dépendance possible entre X et Y. Si les points sont ”plutôt” alignés, on peut envisager une relation de type Y aX b (équation de droite). Si le nuage ”forme” une parabole, on peut envisager une relation de type Y aX 2 bX c. On dit que l’on cherche à ajuster une courbe au nuage de points. 1. Droite des moindres carrés (ou de régression) de y en x On cherche à ajuster une droite d’équation y ax b au nuage de points. Le critère d’ajustement est la distance totale entre les points du nuage M i x i , y i et les points P i x i , ax i b correspondant sur la droite d’ajustement. n On cherche donc le couple a, b qui minimise f a, b n soit n 2 yi ax i b xi i 1 n soit 2 yi ax i i 1 n b xi 0 et n yixi i 1 x 2i a b i 1 yi i 1 n xi En divisant par n, on obtient : 1 n Variances : s 2x Stéphane Ducay 1 n n xi i 1 ax i x b 1 nb 0. 0, 0, b n yi a i 1 n xi i 1 yixi i 1 i 1 1 n a1 n 1 n xi, y 2 0, n 0 et 1 n ax i n i 1 Moments. Moyennes : x f a, b b 0 et i 1 n yi soit 0 et b 2. ax i i 1 f a, b a Conditions nécessaires de minimum : yi n x 2i i 1 n n x 2i i 1 b1 n n xi i 1 0 et 1 n n yi i 1 a1 n n xi b 0. i 1 yi, i 1 x 2 , s 2y 1 n n y 2i y 2 i 1 1 S3 Maths et Info-MIAGE 2011-2012 Covariance : cov x, y 1 n Statistique et Probabilités n xi x yi n 1 n y i 1 Régression - Droite des moindres carrés xiyi xy. i 1 x 2 bx 0 et y On a alors : cov x, y xy a s 2x De b y ax on déduit cov x, y xy a s 2x x 2 cov x, y soit cov x, y as 2x 0, soit a . s 2x On admet que ce couple a, b minimise f a, b . ax b 0. y ax x 0, La droite des moindres carrés (ou de régression) de y en x a donc pour équation : cov x, y D y/x : y ax b, avec a et b y ax. s 2x Exemple. On considère la série double statistique suivante : xi 2 3 5 1 4 y i 4 9 11 3 8 Le nuage de points correspondant est représenté sur le graphe ci-dessous. y 12 10 8 6 4 2 0 0 1 2 3 4 5 6 x Nuage de points La droite de regression de y en x a pour équation : y xi y i x i y i x 2i 2 4 8 4 3 9 27 9 5 1 4 11 3 8 55 3 32 1 n On a x 1 n s 2x 1 1 5 xi i 1 1 n cov x, y 25 16 n ax 15 n xy 2 1 5 1 5 i 1 n x 2i x i 1 1 n 3, y xiyi cov x, y et b s 2x b, avec a n yi i 1 125 55 3 3 2 7 35 2 3 7, 4, cov x, y 4 2 et b y ax 2 s 2x La droite de regression de y en x a donc pour équation : y y ax. 2. On en déduit que a 15 35 125 55 1 5 y 7 2x 1. 1. 12 10 8 6 4 2 0 0 1 2 3 4 5 6 x Nuage de points et droite de régression de y Stéphane Ducay 2 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés Remarque. Cette droite passe par deux des points du nuage : c’est une coïncidence ! Cela ne se produit pas en général. 2. Droite des moindres carrés de x en y. On suit une démarche analogue à celle qui a donné la droite des moindres carrés de y en x : cov x, y et b y ax. D y/x : y ax b, avec a s 2x On cherche à ajuster une droite D x/y d’équation x a y b au nuage de points. On obtient la droite des moindres carrés de x en y : cov x, y D x/y : x a y b , avec a et b x a y. s 2y Remarque. Ces équations peuvent aussi s’écrire : D y/x : y y a x x D x/y : x x a y Les droites D y/x et D x/y se coupent donc au point G x, y . y Exemple. Reprenons l’exemple précédent. On a toujours x n 1 1 291 7 On calcule s 2y y 2i y 2 n 5 i 1 3, y 2 7, cov x, y 9, 2, d’où a La droite de regression de x en y a donc pour équation x x a y 4, s 2x cov x, y s 2x 2 et a 4 9, 2 y , soit x 3 c’est-à-dire y 2, 3x 0, 1. On retrouve également une équation de la droite de régression de y en x : y y 7 2 x 3 , c’est-à-dire y 2x 1. Les droites D y/x et D x/y se coupent au point G x, y G 3, 7 . y y 2. 1 . 2, 3 1 y 2, 3 a x 7 , x , soit 12 10 8 6 4 2 0 0 1 2 3 4 5 6 x Droites de régression de y en x et de x en y 3. Coefficient de corrélation linéaire entre x et y cov x, y sxsy . Le coefficient de corrélation linéaire est donné par : r x,y Qualité de l’ajustement. On peut démontrer que r 2x,y n yi si ax i b 2 1 1 1 s 2y n 0, c’est-à-dire y i n yi ax i b 2 1. On en déduit que r 2x,y 1 si et seulement i 1 ax i b 0, pour tout i 1, , n, soit M i x i , y i D y/x . Ainsi, i 1 r 2x,y 1 si et seulement si les points M i sont alignés sur D y/x . De façon générale, plus r 2x,y est proche de 1, meilleur est l’ajustement de la droite des moindres carrés au Stéphane Ducay 3 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés nuage de points. Le signe de r x,y (même signe que celui de a) indique le sens de la liaison (croissante si r x,y 0, décroissante si r x,y 0) entre X et Y. Signification de r x,y . La question se pose de savoir si une forte valeur de r x,y (en valeur absolue) ou de r 2x,y prouve qu’il y a une forte corrélation entre les deux caractères X et Y (par exemple lorsque l’ajustement est bon) ou si elle est due au hasard de l’échantillonage (par exemple lorsque n est petit). Pour obtenir une réponse, on peut utiliser des tests statistiques (voir statistique inférentielle). Formule de décomposition. La notion de liaison entre X et Y signifie qu’une variation de X entraîne une variation de Y. La formule de décomposition permet de préciser la part de variation de Y expliquée par la variation de X : n yi y n 2 yi i 1 n 2 y yi i 1 yi 2 , avec y i ax i b. i 1 La démonstration repose sur le fait que le double produit s’annule : n n yi y yi yi a i 1 xi x ei 0, avec e i yi y i (erreur observée), et grâce aux équations i 1 définissant a et b. n La somme des carrés totale : yi y 2 mesure la variation globale des y i autour de leur moyenne y. i 1 n La somme des carrés expliquée par la variable X : yi y 2 n a2 i 1 xi x 2 mesure la variation de i 1 Y expliquée par la variable X. Ce terme n’est d’ailleurs fonction que de la pente de la droite des moindres carrés et des valeurs de X. n yi La somme des carrés résiduelle : yi n 2 e 2i mesure la variation de Y non expliquée par la i 1 i 1 variable X. Coefficient de détermination. Il est naturel de mesurer la force de la liaison entre les variables X et Y à l’aide du coefficient de détermination : n R2 yi y yi y i 1 n 2 somme des carrés expliquée somme des carrés totale 2 i 1 On peut vérifier que R 2 r 2x,y . Ce qui explique que r x,y mesure la force de la liaison entre X et Y. Position relative de D y/x et D x/y . Si r 2x,y 0, alors cov x, y Si r 2x,y 0, alors a 0, et donc a 0 et a a 0. Ainsi, D y/x : y 0. On a alors : D y/x : y y a x y et D x/y : x x et D x/y : y x. y 1 x x . a 2 cov x, y cov x, y cov x, y r 2x,y . 2 2 sxsy sx sy 1 et donc D a pour équation : y y Si r 2x,y 1, alors a x/y a de D y/x . Ainsi, D x/y D y/x . On a : aa Si 0 r 2x,y - soit 0 1, alors 0 r x,y 1 x a x a x x , soit l’équation aa 1 et deux cas sont possibles : 1 ; 1 et alors a 0, a 0 et a a - soit 1 Stéphane Ducay r x,y 0 et alors a 0, a 0 et a 1 . a 4 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés 4. Point de vue géométrique ; réprésentation vectorielle 4.1. Introduction Considérons les points M x de coordonnées x i et M y de coordonnées y i dans une espace affine n associé à n , ou de manière équivalente les vecteurs M x de coordonnées x i et M y de coordonnées y i dans l’espace vectoriel n . Pour comparer ces vecteurs et essayer d’établir d’éventuelles relations entre eux, on est amené à utiliser la distance euclidienne, ce qui revient à privilégier les notions de moyenne arithmétique et d’écart-type. Notons U le vecteur dont toutes les coordonnées sont égales à 1, et considérons les vecteurs xU et yU, ainsi que les vecteurs V x M x xU et V y M y yU. Par propriété de la distance euclidienne, V x et V y sont orthogonaux à U, et donc à xU et yU. B Vx xU Vy Mx U Vx O Définition de Vx A Représentation de Vx et Vy Dans la suite, on suppose n 0, V x 0 et V y 0, c’est-à-dire X et Y non constantes. On représente alors V x et V y , dans un même plan, par des vecteurs OA et OB, avec OA segment horizontal avec A à droite de O. La longueur OA est proportionnelle à n Vx xi x 2 n sx yi y 2 n sy i 1 De même, la longueur OB est proportionnelle à n Vy i 1 L’écart angulaire de OA et OB est implicitement défini par cos OA, OB cos V x , V y Vx. Vy Vx Vy Vx. Vy ns x s y Pour éliminer les effets d’échelles dûs à des unités différentes (pour une comparaison plus universelle des Vy V x et W couples de variables quantitatives), on peut considérer les vecteurs normés W x , y Vx Vy représentés par des vecteurs OA et OB , de longueur égale à l’unité, colinéaires à OA et OB et de même sens. On a ainsi cos OA, OB cos OA , OB cos W x , W y Wx. Wy. 4.2. Corrélation linéaire Le point de vue géométrique introduit l’importante notion de corrélation linéaire. On s’intéresse alors à la colinéarité éventuelles des vecteurs V x et V y . S’il existe une liaison fonctionnelle affine entre Y et X du type Y aX b, avec a 0, alors y ax b. Il en résulte que M y yU a M x xU , soit V y aV x , ce qui signifie que les vecteurs V x et V y sont colinéaires. On dit que les caractères sont parfaitement corrélés. Stéphane Ducay 5 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés Réciproquement, si les vecteurs V x et V y sont colinéaires (non nuls), il existe un réel a non nul tel que, par exemple, V y aV x , soit M y yU a M x xU . Ce qui signifie que pour tout entier i entre 1 et n, y i y a x i x , soit y i ax i y ax. Autrement dit, il existe une liaison fonctionnelle affine entre Y et X du type Y aX b, avec b y ax. 1 suivant que V x et V y sont dans le même sens ou pas. Dans ce cas, cos V x , V y A contrario, si les vecteurs V x et V y sont orthogonaux (cosinus nul), on dit que les variables X et Y sont non corrélées. Dans ce cas, on a la double équivalence n Vx. Vy 0 Mx xU My yU 0 xi x yi y 0 i 1 Entre ces deux situations extrêmes, l’écart angulaire des vecteurs V x et V y , ou plus précisément son cosinus, fournit une mesure du degré de corrélation linéaire entre les deux variables X et Y étudiées. On a alors cos V x , V y r x,y Partageant arbitrairement le plan en secteurs de 30°, on obtient 5 zones permettant de définir une bonne, 3 1 , ce médiocre ou mauvaise corrélation entre X et Y. Sachant que cos 30° 0, 866 et cos 60° 2 2 critère graphique se traduit numériquement par : 3 - si |r x,y | 1, il existe une bonne corrélation linéaire entre X et Y ; 2 3 - si 1 , la corrélation linéaire entre X et Y est médiocre ; |r x,y | 2 2 1 , la corrélation linéaire entre X et Y est mauvaise. - si 0 |r x,y | 2 4.3. Coefficients de régression Considérons les vecteurs M y de coordonnées y i ax i b , V y M y yU de coordonnées y i y , M e M y M y de coordonnées e i y i y i , V e V y V y de coordonnées e i e y i y y i y . La méthode des moindres carrés (appliquées aux écarts verticaux) consiste à déterminer les réels a et b de 2 soit minimale. façon que M e Il est clair que M e V e eU. Les vecteurs V y et V y étant orthogonaux à U, il en est de même pour V e . n , il s’ensuit (théorème de Pythagore) Puisque U Me 2 Ve 2 ne 2 Cette somme de deux carrés indépendants est minimale lorsque chacun de ses termes est minimal. Pour n 0, le terme ne 2 est minimal lorsque e 0, c’est-à-dire y y : la variable Y et son modèle affine Y ont alors la même moyenne. Or y ax b, donc y ax b, d’où b y ax. Par ailleurs, pour tout entier i entre 1 et n, y i y ax i b ax b a x i x , d’où V y aV x . Les vecteurs V y et V x sont donc colinéaires. Notant OA V x , OB V y et OH V y , il en résulte que les points O, H et A sont alignés. B Vy Vx O V~y H A Position du point H Comme HB Stéphane Ducay V e , on voit que Ve 2 est minimale si et seulement si H appartient à la droite OA et la 6 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés distance HB est minimale, c’est-à-dire si et seulement si H est la projection orthogonale de B sur OA . Les vecteurs V e et V x sont alors orthogonaux, ce qui donne les égalités équivalentes suivantes : Ve. Vx et a 0, V y V y . V x 0, V y . V x V y . V x , ncov x, y cov x, y (puisque s x 0 et n 0). s 2x aV x . V x a Vx 2 ans 2x 4.4. Décomposition de la variance On a la formule de décomposition suivante : s 2y s 2y s 2e , c’est à dire Variance totale en Y Variance expliquée Variance résiduelle. 2 2 2 Ceci résulte des résultats précédents : OB 2 OH 2 HB 2 , c’est-à-dire V y Vy V e , soit encore ns 2y ns 2y ns 2e , d’où la formule annoncée. En utilisant cette formule de décomposition, on peut mesurer la part de la variance expliquée par la régression de Y en X par rapport à la variance totale. Plus cette part est grande, plus la variance résiduelle est petite (plus l’erreur est faible), plus l’ajustement affine est justifié. s 2y On appelle coefficient de détermination le réel d x,y défini par d x,y . On a alors s 2y 2 Vy d x,y aV x 2 2 cov 2 x, y s 2x s 4x s 2y a 2 s 2x s 2y 2 cov 2 x, y s 2x s 2y r 2x,y . Vy Vy On a toujours 0 d x,y r 2x,y 1. Reformulant le critère de corrélation linéaire, on aura : 3 , il existe une forte corrélation linéaire entre Y et X et l’ajustement affine est justifié ; - si d x,y 4 - si d x,y 0, X et Y ne sont pas corrélées. 5. Généralisation On considère une population sur laquelle on étudie deux caractères quantitatifs X et Y pouvant prendre respectivement r et s valeurs distinctes. On extrait de cette population un échantillon de taille n et on note n ij l’effectif observé d’individus prenant la i ème valeur de X et la j ème valeur de Y. La représentation graphique d’une telle série statistique à deux variables pourra se faire à l’aide d’un stéréogramme (en 3 dimensions). On pourra aussi la représenter à l’aide d’une nuage de points (en 2 dimensions), en indiquant, entre parenthèses à coté de chaque point de coordonnées x i , y j , l’effectif n ij correspondant. Les effectifs marginaux observés sont : s ni r n ij n i1 n i2 n is et n n ij j j 1 n 1j n 2j n rj . i 1 X \ Y y1 y2 ys ni x1 n 11 n 12 n 1s n 1 x2 n 21 n 22 n 2s n 2 xr n r1 n r2 n rs n r n n n j 1 n 2 s n On redéfinit alors les moments. r Moyennes : x 1 n s 1 n ni xi, y i 1 r Variances : s 2x 1 n Stéphane Ducay r ni xi i 1 n jyj, j 1 x 2 1 n s n i x 2i i 1 2 x , s 2y 1 n n j y 2j y 2 j 1 7 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités r s r 1 n Covariance : cov x, y Régression - Droite des moindres carrés n ij x i x yi s 1 n y n ij x i y j i 1 j 1 xy. i 1 j 1 On reporte ces nouvelles valeurs dans les équations des droites des moindres carrés et dans la formule du coefficient de corrélation linéaire. Exemple. Une statistique effectuée sur 800 personnes donnent la répartition suivante : xi \ yj 3 2 1 0 ni 1 74 116 68 82 340 0 126 174 82 78 460 n 200 290 150 160 800 j On présente les calculs dans les tableaux suivant : xi \ yj 3 2 1 0 ni n i x i n i x 2i 1 74 116 68 82 340 340 340 0 126 174 82 78 460 0 0 200 290 150 160 800 340 340 n jyj 600 580 150 0 1330 n j y 2j 1800 1160 150 0 3110 xi \ yj 2 1 n j 1 n ij x i y j 0 3 0 222 232 68 0 0 0 0 0 522 On a alors : r 1 x ni xi n i 1 s y 1 n n jyj j 1 r s 2x 1 n 1 800 340 1 800 1330 1 n x 2 1 800 340 n j y 2j y 2 1 800 3110 j 1 r cov x, y 1, 663, n i x 2i i 1 s s 2y 0, 425, 0, 425 2 1, 6625 0, 244, 2 1, 124, s 1 n n ij x i y j i 1 j 1 xy 1 800 522 0, 425 1, 6625 0, 054. On en déduit : D y/x : y ax D x/y : x ay r x,y cov x, y sxsy Stéphane Ducay cov x, y 0, 221 et b y ax 1, 757, s 2x cov x, y b , avec a 0, 048 et b x a y 0, 505, s 2y 0, 054 0, 103 0, 494 1, 056 b, avec a 8 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés 6. Exercices Exercice 1. Dans la série statistique suivante, x représente le nombre de jours d’exposition au soleil d’une feuille et y le nombre de stomates aérifères au millimètre carré : x 2 4 8 10 24 40 52 y 6 11 15 20 39 62 85 1) Déterminer une équation de la droite de regression de y en x. 2) Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat. 3) Quel nombre de stomates peut-on prévoir après 30 jours d’exposition au soleil ? après 60 jours ? Exercice 2. On a procédé à l’ajustement affine d’un nuage de points. Les équations obtenues sont les suivantes : - droite d’ajustement de y en x : D : y x 30 - droite d’ajustement de x en y : D : x 1/4y 60 1) Calculer le coefficient de corrélation linéaire. 2) Calculer les moyennes arithmétiques de x et de y. 3) Calculer la covariance entre x et y et la variance de x, sachant que la variance de y est égale à 40. Exercice 3. On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces stagiaires subissent une épreuve A notée de 0 à 20. A l’issue du stage, une épreuve B identique à la première est aussi notée de 0 à 20. Considérant les deux variables X note de A et Y note de B, on a obtenu les résultats suivants : stagiaire 1 2 3 4 5 6 7 8 9 10 11 12 6 7 9 10 9 11 12 13 15 xi 3 4 yi 8 9 10 13 15 14 13 16 13 19 6 4 19 1) a) Représenter ces résultats par un nuage de points. b) Quelle courbe d’ajustement ce nuage vous suggère-t-il ? 2) A partir des résulats obtenus, on a déterminé la droite de régression de y en x, ainsi le coefficient de corrélation linéaire entre x et y. On a obtenu l’équation y 0, 108 x 11, 990 et le coefficient r 0, 101. A partir de ces résultats, expliquer pourquoi l’ajustement n’est pas bon. 3) On décide d’éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10. a) Déterminer une équation de la droite de régression de y en x par la méthode des moindres carrés. b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. Exercice 4. (D’après partiel de novembre 2007) Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français : Année 1998 1999 2000 2001 2002 2003 2004 Rang de l’année : x i 0 1 2 Montant d’achats en millions d’euros : y i 75 260 820 3 4 5 6 1650 2300 4000 5300 1) a) Préciser la population, la(es) variable(s) étudiée(s) et la taille de l’échantillon. b) Donner une équation de la droite de régression de y en x. c) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. d) Quelle prévision du montant d’achats peut-on faire pour l’année 2005 ? Est-elle fiable ? 2) On considère la nouvelle variable z y. a) Déterminer une équation de la droite de régression de z en x, ainsi que le coefficient de corrélation linéaire entre x et z. Interpréter le résultat obtenu. b) En déduire une expression de y en fonction de x, puis une prévision du montant d’achats pour l’année 2005. Stéphane Ducay 9 S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés 3) A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l’équation 130x 2 100x 68. a) S’agit-il du même ajustement que celui obtenu dans le 2) ? Expliquer cette situation. b) Déduire de cet ajustement une prévision du montant d’achats pour l’année 2005. 4) Le montant des achats en ligne en 2005 a été de 7700 millions d’euros. Lequel des trois ajustements précédents vous parait-il le plus conforme à la réalité ? Jutifier votre réponse. y Exercice 5. (D’après partiel de novembre 2004) Une statistique publiée en l’an 2000 donne le nombre d’abonnés à Internet dans le monde, à la fin de l’année indiquée : Année 1995 1996 1997 1998 1999 2000 Rang de l’année : x i 0 1 2 3 4 5 Nombre d’abonnés en millions : y i 26 55 101 150 248 407 1) 2) Représenter graphiquement le nuage de points M i x i , y i , i 0, . . . , 5. Une première étude avait eu lieu en 1998. a) Donner une équation de la droite de régression de y en x obtenues par la méthode des moindres carrés appliquée sur les années 1995 à 1998. Construire cette droite sur le graphique du 1). Préciser les coordonnées du point moyen G du nuage et placer le point G sur le graphique du 1). b) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. Peut-on en déduire des prévisions pour 1999, 2000 et 2001 ? Dans la suite, on travaille sur les années 1995 à 2000. 3) Dans cette question, on utilise la méthode d’ajustement dite de la droite de Mayer. On désigne par G 1 le point moyen des trois premiers points M 0 , M 1 et M 2 , et par G 2 le point moyen des trois derniers points M 3 , M 4 et M 5 . a) Déterminer les coordonnées des points G 1 et G 2 , et placer ces points sur la graphique du 1). b) Déterminer une équation de la droite G 1 G 2 sous la forme y ax b. c) Calculer alors une prévision du nombre d’abonnés pour l’année 2001. 4) a) On pose z ln y . Calculer alors les valeurs z i ln y i . b) Donner une équation de la droite de régression de z en x. c) Donner le coefficient de corrélation linéaire entre x et z. Interpréter le résultat obtenu. d) En déduire une expresion de y en fonction de x et représenter la fonction obtenue sur le graphique. e) Calculer alors la nouvelle prévision du nombre d’abonnés pour l’année 2001. Exercice 6. Une enquête porte sur lemploi du temps des élèves de Licence mention mathématiques de l’UPJV. Après leur avoir demandé de noter durant une semaine le temps de leurs activités, on sélectionne les trois questions suivantes : Q1 : pendant combien d’heures (y compris d’enseignement) avez-vous travaillé dans la semaine ? Q2 : pendant combien d’heures avez-vous regardé la télévision dans la semaine ? Q3 : pendant combien d’heures avez-vous lu dans la semaine ? Afin de faciliter les calculs, on n’a retenu que 10 étudiants tirés au hasard. Leurs réponses (arrondies en heures) figurent dans le tableau suivant : Travail 45 40 47 48 39 43 47 43 40 38 Télévision 7 8 12 13 7 14 5 7 8 9 Lecture 5 3 2 8 1 9 7 3 1 1 On désigne respectivement par X, Y et Z les variables (ou caractères) nombres d’heures hebdomadaires passées au travail, à la télévision et à la lecture. 1) Etudier successivement les trois couples X, Y , X, Z et Y, Z . Pour chacun des couples, tracer le nuage des 10 points et calculer les indicateurs statistiques : moyennes, écart-types, coefficient de corrélation linéaire. 2) Pour le(s) couple(s) pour le(s)quel(s) cela se justifie, écrire l’équation de la droite de régression linéaire. 3) Quelle conclusion peut-on suggérer sur l’emploi du temps de ces étudiants ? Stéphane Ducay 10