econometrie 1
Transcription
econometrie 1
E CONOMETRIE 1 Ass. Cédrick Tombola M. Rappels et recueil d’exercices [résolus] Sous la supervision du Professeur BOSONGA BOFEKI Licence 1 Economie Cédrick Tombola M. /Assistant UPC Copyright © cdktombola-Laréq - mars 2012 0 Ass. Cédrick Tombola M. 1 A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de l’Afrique centrale. Henry Merton Stanley N'essayez pas de devenir un homme qui a du succès. Essayez de devenir un homme qui a de la valeur. Albert Einstein Ass. Cédrick Tombola M. PLAN SOMMAIRE AVANT – PROPOS INTRODUCTION THEORIE DE LA CORRELATION MODELE DE REGRESSION LINEAIRE SIMPLE MODELE DE REGRESSION LINEAIRE MULTIPLE MODELES DE REGRESSION NON LINEAIRES VIOLATION DES HYPOTHESES DE BASE ANNEXES 2 Ass. Cédrick Tombola M. 3 AVANT-PROPOS Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le professeur d’autre part, m’ont obligé à ne produire qu’une ébauche. Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant, lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait-il, on tombait, paradoxalement, dans la suffisance. Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur les aspects et les démonstrations les moins populaires, bref, sur les non-dits. Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation au logiciel économétrique EVIEWS. Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état stationnaire , ce qui serait dommage . Remerciement Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment me connaître – et pour m’avoir orienté dans la rédaction de ce recueil. Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis. Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant. Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le contenu sera la bienvenue. Dédicace Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC. Cédrick Tombola M. [email protected] Ass. Cédrick Tombola M. 4 .I. INTRODUCTION I.1. Quelques points de l’histoire α. Avant 1930 : Le Moyen-âge économétrique Les premiers développements de l’Econométrie1 peuvent remonter, selon Gérard Grellet, au 17ème siècle, l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des données empiriques. Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois économiques { l’instar des lois de la physique newtonienne. Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt l’Econométrie, ont été développées bien avant son institutionnalisation comme discipline des sciences économiques. A titre d’exemple : - En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes », puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres carrés ordinaires. - En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace2, il explique qu’il avait fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs astronomiques sur les nouvelles planètes, depuis 1802. Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur estimateur linéaire non biaisé, à variance minimale. - En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et propose un estimateur pour cette grandeur. La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of Statistic ». - En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les 1 On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria. Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la méthode des moindres carrés. 2 Ass. Cédrick Tombola M. 5 « spurrious correlations », ce qu’il convient de traduire par corrélations fallacieuses. Puis montre que la corrélation de deux séries chronologiques peut être totalement artificielle. β. Depuis 1930 : La naissance de l’Econométrie moderne L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en 1930 – exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland, aux Etats-Unis, par 16 économistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cités, de l’Econometric Society [la Société d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la statistique et les mathématiques’’. Depuis la création de cette société, et de la Cowles commission – spécialisée dans les méthodes d’estimation des modèles { équations simultanées –, fondée le 9 septembre 1932, deux ans après l’Econometric Society, par Alfred Cowles, l’Econométrie a connu un grand essor. C’est ainsi qu’en 1933, R. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but une unification des approches quantitatives théoriques et empiriques des problèmes économiques. On note aussi que dès le départ, pour les promoteurs de l’Econometric Society, il était clair que deux déviations devraient être évitées : La construction d'édifices mathématiques purement logiques et déconnectés du réel économique. La mise en œuvre de pures investigations statistiques qui, en dépit de leur caractère poussé et de leur apparence réaliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une pensée économique profonde et rigoureuse. A ce sujet, R. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica : "L'expérience a montré que chacun des trois points de vue suivants, celui de la statistique, celui de la théorie économique et celui des mathématiques est une condition nécessaire, mais par elle même non suffisante, d'une compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui est efficace. C'est cette unification qui constitue l'économétrie ’’. Il faut noter également que le krach financier des années 30, la domination du keynésianisme jusqu’{ la fin des années 60, le développement de l’inférence statistique à la fin du 19ème siècle et le consensus entre les économistes autour du cadre IS – LM avant 1970, sont aussi parmi les facteurs explicatifs de l’essor de l’Econométrie depuis 1930, surtout au sein de la Cowles commission. La révolution Keynésienne [1936], avec la logique de circuit, a développé un autre type de raisonnement macroéconomique en termes d’agrégats objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions. Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Econométrie porta sur les conditions d’estimation des modèles macroéconométriques { équations simultanées. - En 1935, Jan Tinbergen estime un premier modèle économétrique à équations simultanées, du type keynésien, comportant 31 équations de comportement et 17 identités. Il devient ainsi, d’un point de vue empirique, le père des modèles économétriques. - En 1944, Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires. 3 R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier lauréat du prix de la Banque de Suède – communément appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen. Ass. Cédrick Tombola M. 6 - En 1950, Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Il estime pour l’économie américaine (1921-1941), un modèle macroéconométrique de type keynésien à 16 équations. Ce modèle est amélioré plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modèle utilisé à des fins prévisionnelles. Klein introduit également la notion de multicolinéarité. Il est parfois considéré comme le père des modèles macroéconométriques. Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson élaborent leur célèbre test d’autocorrélation des erreurs. En 1954, Henri Theil et Robert Léon Basmann introduisent la méthode des doubles moindres carrés. Toujours dans les années 50, il y eut un développement des modèles à retards distribués par Koyck, Almon, Cagan et Friedman. L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken; les tests et corrections de l’hétéroscedasticité [Glejser, White, …]. L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion de l’Econométrie. En 1961, James Tobin développe les modèles microéconométriques. Il est, à ce titre, considéré comme le père des modèles microéconomiques. La même année, Yair Mundlak conçoit les méthodes basées sur les données de panel. γ. Les années 1970 : La révolution des anticipations rationnelles Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la Cowles commission. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels développés au sein de cette institution. Ces faits sont : Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers, ce qui marque, historiquement, la fin des Trente Glorieuses5 ; La stagflation et la remise en cause de la courbe de Phillips; La chute du keynésianisme et le rejet des modèles économétriques traditionnels – devenus caducs – basés sur le paradigme IS – LM ; Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers ; La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie Microfondée, le retour aux modèles walrassiens et le développement des modèles d’équilibre général calculable [MEGC]. Les critiques les plus acerbes et sévères sont venues essentiellement, dès 1972, de Robert Emerson Lucas 6. C’est ce que la littérature qualifie de la fameuse critique de Lucas. Il discrédite les modèles macroéconométriques traditionnels, en fustigeant leur incapacité à expliquer et à prévoir les bouleversements provoqués par le 1èr et le 2ème chocs pétroliers. Il leur reproche de manquer de fondations microéconomiques suffisamment solides. De plus, Lucas interdit les prévisions myopes et adaptatives, il pose la problématique des anticipations rationnelles, ce qui veut dire que les agents économiques sont intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure de politique économique. De fait, toute mesure de politique économique, ajoute-t-il, devient inefficace du fait de la prise en compte des anticipations rationnelles, les agents pouvant l’anticiper et la contrer. 5 Trente Glorieuses : Titre d’un livre de Jean Fourastié, publié en 1977, qui désigne la période de forte croissance économique, de plein-emploi et d’augmentation des salaires réels et des revenus, qu’ont connu les pays développés, de l’après-guerre au premier choc pétrolier. 6 Lauréat du prix Nobel d’Economie 1995. Ass. Cédrick Tombola M. 7 Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline et a donné lieu à des critiques plus sévères. L’Econométrie va connaitre un changement radical, surtout en termes de relations qu’elle entretient avec la théorie économique. - En 1970, George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving Average] – qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule et Eugen Slustsky –, comme une réponse aux défaillances constatées dans la capacité de prévision des modèles élaborés à la suite des travaux de Tinbergen. - Déjà en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les « spurrious regressions » ou régression fallacieuse, pour le cas d’ajustement par les MCO d’un modèle avec séries non stationnaires. - En 1980, dans un article qui a connu un succès d’estime lors de sa parution, intitulé Macroeconomics and Reality, Christopher Sims7, en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin de tenir compte, au même moment, de plusieurs variables, reproche aux économètres d’avoir mis la charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et variables exogènes, et considère toute variable comme potentiellement endogène 8. C’est ce que la littérature appellera l’Econométrie sans théorie. La critique de Sims va permettre { l’Econométrie de devenir beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique. - En 1987, Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des séries non stationnaires. Une année après, en 1988, Johansen propose une version améliorée du test de cointégration Engle – Granger. - En 1982, Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte volatilité des variables financières, ce qui n’était pas possible avec les modèles ARMA et VAR. Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas, et plus loin encore dans l’histoire, depuis la création de la société d’Econométrie. L’Econométrie a donc connu, ces deux dernières décennies, un essor vertigineux. δ. Applications et place de l’économétrie La démarche en sciences économiques est hypothético-déductive. C’est-à-dire que les théories économiques ne sont valables que dans le domaine défini par leurs hypothèses. S’il est vrai que l’usage des mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques modernes, la question reste cependant posée quant à la pertinence de leurs hypothèses. Ceci motive le recours { des outils plus puissants notamment l’Econométrie, qui est un outil de validation des théories. De fait donc, l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes, dans les années 1930, écrivait : « L’économiste doit être mathématicien, historien, philosophe, homme d’Etat, … ». S’il faut transférer la pensée de Keynes aujourd’hui, n’aurait-il pas lui-même ajouté l’économiste doit être économètre ? Il est clair qu’il n’est plus possible { ce jour, de faire un bras de fer avec l’irruption et la domination de l’Econométrie dans le champ de la science économique, au risque, purement et simplement, de se soustraire de la catégorie d’économistes modernes. 7 Lauréat, avec Thomas Sargent, du prix Nobel d’Economie 2011. Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général, selon lequel toutes les variables économiques sont déterminées simultanément. 8 Ass. Cédrick Tombola M. 8 Pour renchérir, dans une étude publiée en 2006, les économistes Kim, Morse et Zingales ont montré que le nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. Ce qui confirme l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes. Par ailleurs, l’Econométrie s'applique à tous les domaines auxquels s'applique la science économique. L'ouvrage de Levitt et Dubner, Freakonomics, témoigne de la diversité des applications possibles de l'économétrie. Voici quelques exemples significatifs: En économie de guerre, Collier – Hoeffler [1999] ont mis en évidence, par le recours à un modèle économétrique, les déterminants politiques permettant de mettre fin aux guerres civiles et de relancer l’économie en période post-conflit. En économie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilisé un modèle de régression linéaire pour tester empiriquement la pertinence du modèle de Solow. Ils montrent que le modèle de Solow augmenté du capital humain est cohérent avec les données observées. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux méthodes économétriques afin de rendre compte de l’effet des dépenses publiques sur la croissance. En économie de la criminalité, Levitt, en 1997, a utilisé un modèle linéaire à variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalité. En 2002, Acemoglu, Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des institutions sur le développement actuel des pays. I.2. Quelques rappels statistiques La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est possible de tirer des conclusions sur une population, { partir d’un échantillon suffisamment représentatif. Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien recherche la synthèse. Sa première démarche pour synthétiser les données consiste { calculer les paramètres de description, c’est la statistique descriptive. Plus tard, la démarche du statisticien consistera à contraster des données empiriques aux lois théoriques, dont on connait parfaitement les comportements, en vue de faire de la prédiction, c’est la statistique inférentielle [ou mathématique]. Encadré 1. Conditions de Yule Le statisticien britannique Georges U. Yule a énoncé un certain nombre de propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci doivent être d’une part, des résumés ‘‘maniables’’ et d’autre part, les plus exhaustifs possibles relativement { l’information contenue dans les données. Dans son schéma, une caractéristique statistique doit être une valeur-type : 1. 2. 3. 4. 5. 6. définie de façon objective et donc indépendante de l’observateur, dépendante de toutes les observations, de signification concrète pour être comprise par les non-spécialistes, simple à calculer, peu sensible aux fluctuations d’échantillonnages, se prêtant aisément aux opérateurs mathématiques classiques. En réalité, on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours. Source : Adapté de B. Goldfard et C. Pardoux, 1995. Ass. Cédrick Tombola M. 9 Indicateurs de position [ou de tendance centrale] Soit une variable X observée sur un échantillon de n individus. xt est la valeur prise par X pour l’observation t. 1. La moyenne arithmétique : La moyenne arithmétique9 est la mesure de répartition équitable. Elle conserve la somme totale et satisfait à toutes les conditions de Yule, sauf la 5ème, car elle est une mesure sensible aux valeurs extrêmes. Lorsque les valeurs sont aléatoires, la moyenne arithmétique est appelée « Espérance mathématique ». 2. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. Après avoir classé les données en ordre croissant, elle correspond pour n impair [pair], au point milieu [à la moyenne arithmétique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement à la moyenne arithmétique, la médiane résiste aux valeurs extrêmes. 3. Le mode [Mo] : est la valeur dominante de la série, celle qui a la fréquence la plus élevée. Pour une distribution discrète, le mode satisfait aux conditions 1, 3 et 4 de Yule. Le premier Quartile Q1 [ou quantile d’ordre 1, x25%] 4. Les quartiles Le deuxième Quartile [ou quantile d’ordre x50%] Le troisième Quartile [ou quantile d’ordre x75%] Q2 2, Q3 3, Valeur telle qu’au moins 25% des valeurs prises par X lui sont inférieures. Après avoir classé les données et séparé la population en deux, le Q1 est la médiane de la première souspopulation. Le Q2 est la médiane. Valeur telle qu’au moins 75% des valeurs prises par x lui sont inférieures. Le Q3 est la médiane de la deuxième souspopulation. Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. Comme la médiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule. Indicateurs de dispersion 5. La variance : La variance empirique : La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Elle donne une idée de la dispersion [ou déviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec la variance on change d’échelle, elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. Pour revenir { l’échelle du départ, on prend sa racine carrée qui est l’écart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule. Note : La variance empirique est l’estimateur non biaisé de la variance. La variance est un estimateur biaisé car utilisant un autre estimateur dans son calcul. 6. L’écart-type : L’écart-type empirique : L’écart-type est la racine carrée de la variance. Il est la mesure de dispersion la plus utilisée. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne arithmétique, en raison des élévations au carré. 7. L’étendue : max xt – min xt L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. Elle est très influencée par les valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule. 8. L’Etendue [écart] interquartile : EIQ = Q3 – Q1 L’écart interquartile n’est pas sensible aux valeurs extrêmes. 9 Dans le langage courant, on dit simplement moyenne. Or, selon la manière dont le total des individus est calculé, il existe différentes moyennes [moyenne géométrique, moyenne harmonique, moyenne quadratique]. Ass. Cédrick Tombola M. 10 Indicateurs de forme [de la distribution] Parlons tout d’abord de la notion des moments. Le moment centré sur a d’ordre r aμ r Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre d’exemple, si a=0 et r=1, on retrouve la moyenne arithmétique, qui n’est rien d’autre que le moment non centré d’ordre 1. La variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2, etc. Note : dans la suite, on dira moment centré pour parler de moment centré sur la moyenne arithmétique. On peut aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ1) est nul. 9. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3. Pour une distribution symétrique, telle que la loi normale, la moyenne arithmétique est égale à la médiane égale au mode. De plus, les moments centrés d’ordre impair sont nuls pour une distribution symétrique. Le coefficient d’asymétrie de Fisher : γ1 = γ1 est nul pour une distribution symétrique, telle que la loi normale. Asymétrie à gauche [distribution étalée à droite] Distribution symétrique Asymétrie à droite [distribution étalée à gauche] γ1<0 =Me=Mo γ1=0 γ1>0 10. L’aplatissement [Kurtosis en grec, qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de mesurer l’importance des queues d’une distribution ou son aplatissement. Le coefficient d’aplatissement de Fisher : γ2 = –3 γ2 est nul pour une distribution mesokurtique. C’est le cas d’une distribution gaussienne [normale]. Distribution mesokurtique Distribution platokurtique γ2<0 Cas de la distribution de Student γ2=0 Cas de la distribution normale Distribution leptokurtique γ2>0 La loi normale La loi normale est une des principales distributions de probabilité. On dit qu’elle est parfaite, car sa densité de probabilité dessine une courbe en cloche ou courbe de Gauss, qui est à la fois symétrique et mesokurtique. Elle a été introduite, en 1733, par le mathématicien Abraham de Moivre, et mise en évidente plus tard, au 19 ème siècle, par Carl F. Gauss. Elle est également connue sous le nom de la loi de Gauss. Une variable distribuée selon cette loi est dite normale ou gaussienne. Test d’hypothèse [un petit commentaire] Ass. Cédrick Tombola M. 11 Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il s’agit donc de confronter une hypothèse dite nulle [HO] contre une hypothèse de recherche ou alternative [H1]. Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. Il existe deux façons de se tromper lors d’un test statistique : La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce, noté α, qui est la probabilité de rejeter à tort HO alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité d’avoir un faux positif. La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce, noté β, qui est la probabilité de ne pas rejeter HO alors qu’elle est fausse. On dit, dans ce cas, que β est la probabilité d’avoir un faux négatif. HO est vraie Ne pas rejeter HO Rejeter HO HO est fausse Erreur de 2ème espèce β Erreur de 1ère espèce α L’idéal serait que ces deux erreurs soient nulles, mais puisque l’on ne dispose que d’un nombre fini d’observations, il faut faire un choix. Le risque β étant difficile { évaluer, voire impossible, seul le risque α est utilisé comme critère de décision. Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité. I.3. Quelques tests statistiques de normalité Dans son article de 194410, qui a marqué une étape décisive dans le développement de l’Econométrie, écrit dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes statistiques aux données économiques, Haavelmo a avancé deux thèses. D’abord, il a défendu l'idée que l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients de corrélation, à des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu importe la vraie nature des faits économiques, il suffisait, pour les analyser, de faire comme si les données économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate. Avant donc toute étude formelle, le travail de l’économètre est de tester l’adéquation ou la conformité d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Parmi ces tests d’adéquation, la conformité { la loi normale est le test le plus utilisé, car elle sous-tend la plupart de tests paramétriques utilisés en Econométrie. A titre de rappel, pour une distribution gaussienne, ± 2σ contiennent 95% des observations. Les nombreux tests11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en deux familles : Les tests informels et les tests formels. Si n est le nombre d’observations Tests informels Histogramme des fréquences tuyau d’orgue] Box – plot [ou Boîte-à-pattes] QQ – plot [ou droite de Henry] Tests formels [ou Test de Jarque – Bera Test de Shapiro – Wilk Test K2 d’Agostino – Pearson En termes d’efficacité Si n > 88 Si n ≤ 50 Si n ≥ 20 Les tests informels donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et objective. Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels. 10 11 Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. Il existe une batterie de test de normalité, ici nous ne reprenons que quelques uns. 12 Ass. Cédrick Tombola M. α. Le Box – plot Synonyme : Boîte – à – pattes, Boîte à moustache, Diagramme en boites, Box and Whiskers Plot Le Box – plot, inventé par Tukey en 1977, est un outil graphique très pratique qui permet de caractériser une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie. Du fait qu’il renseigne sur l’asymétrie d’une distribution, le Box – plot est également utilisée comme test de normalité. Les étapes à suivre dans sa construction peuvent être résumées comme suit : a. Porter sur une échelle les valeurs calculées suivantes : Q1, Q2, Q3, Min xi et Max xi b. Construire la boîte : - La longueur de la boîte est donnée par l’EIQ - La largeur de la boîte est fixée à priori. c. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] : Pour savoir jusqu’où vont les moustaches, on calcule deux valeurs adjacentes : Frontière Basse [FB]= Q1 – 1.5EIQ Frontière Haute [FH]= Q3 + 1.5EIQ Selon Tukey, la valeur 1.5 serait plus pragmatique. Pour la longueur de la moustache inférieure : prendre, parmi les valeurs xi prises par X, la valeur minimale xb directement supérieure à FB, soit xb = min {xi| xi ≥ FB}. Pour la longueur de la moustache supérieure : prendre, parmi les valeurs xi prises par X, la valeur maximale xh directement inférieure à FH, soit xh = max {xi| xi ≤ FH}. A retenir : - Pour une distribution symétrique, Q2 divise la boîte exactement en deux parties égales. - Pour une distribution symétrique, Q2= . Illustration Considérons l’exemple suivant : X 6 7 8 Q1 = 8.5 Q2 = 12 FB = 8.5 – (1.5)7 = – 2 9 10 11 12 Q3 = 15.5 EIQ = 7 FH = 15.5 + (1.5)7 = 26 13 14 15 16 17 18 Min xi = 6 et Max xi= 18 = 12 Etendue = 10 Xb = 6 Xh =18 Etendue * FB Min xi Xb Q1 Q2 EIQ La croix à l’intérieur de la boîte représente la moyenne. Q3 Max xi Xh FH Ass. Cédrick Tombola M. 13 Il ressort, puisque Q2 sépare la boîte en deux parties égales et que les queues ont une longueur identique, que la distribution est symétrique, ce qui est une présomption de normalité. De plus la médiane (Q2) est égale à la moyenne. Note : la Boîte–à–pattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou atypiques ou encore outliers]. Après avoir construit le Box – plot, est valeur aberrante celle située au-delà des pattes. β. Le test de Jarque-Bera [JB] Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalité les plus populaires dans les milieux académiques. Mais la remarque { faire, d’ores et déj{, est qu’il est particulièrement approprié pour grand échantillon, soit n > 88. Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste { ce qu’il permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution. Les hypothèses du test sont : H0 : Normalité H1 : Non normalité Sous l’hypothèse de normalité de la série, la statistique du test JB suit asymptotiquement une distribution du Khi deux χ2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%. La statistique du test est calculée comme suit : JB = n = où n est la taille de l’échantillon, S le Skewness et K la Kurtosis. Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté Seuil 1% 5% 9.210 5.991 Valeur Critère de décision : Si JB ≥ à la valeur du χ2(2) de la table au seuil α, alors RH0 de normalité. γ. Le test de Shapiro-Wilk Le test de Shapiro – Wilk, proposé en 1965 par Samuel Shapiro et Martin Wilk, est considéré dans la littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces, particulièrement pour petits échantillons [n ≤ 50] 12. Ce test est basé sur la statistique W, calculée comme suit : W= 12 Lire par exemple Royston (1982), Palm (2002). Ass. Cédrick Tombola M. 14 où n : est la taille de l’échantillon ai : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk, connaissant n et l’indice i. : est la partie entière du rapport x(i) : correspond à la série des données triées en ordre croissant Les hypothèses du test sont : H0 : la variable X est gaussienne H1 : la variable X est non gaussienne La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro et Wilk, avec n le nombre d’observations et au seuil α [5% en général]. Critère de décision : Si W < WTable(n) au seuil α, alors RH0 [la variable est non gaussienne]13. Note : Les deux tables utilisées pour mener ce test sont reprises en annexe. I.3. Trois piliers de l’économétrie L’économétrie se fonde sur trois piliers { savoir : α. La théorie économique ; β. Les données ; γ. Les méthodes. Les trois piliers de l’économétrie Les données La théorie économique De par sa nature l’Econométrie est intimement liée à la théorie économique qui lui fourni les modèles et théories qu’elle teste. Pour tester les théories, l’Econométrie utilise les données observées, les informations fournies par un échantillon. Aujourd’hui encore, malgré l’émancipation de l’Econométrie depuis le fameux article de 1980 de Sims, l’on ne peut trancher en défaveur du mariage théorie économique – Econométrie. L’économétrie a principalement recours à trois types et deux formats de données. 13 Ce sont les méthodes statistiques qui permettent de mettre en œuvre et d’exploiter un modèle à partir d’informations provenant de l’échantillon. La méthode la plus populaire en Econométrie est celle des moindres carrés ordinaires. Trois types de données : Selon Ado et Davidson [1998], L'économétrie est précisément le moyen qui permet au discours économique d'échapper à la vacuité de son formalisme, en permettant une mise en correspondance des théories et des faits économiques. C'est elle qui permet de confirmer ou Les méthodes Chroniques [times series en anglais], on parle également des séries chronologiques ou séries temporelles, notées Xt : sont de données indicées par le temps. Ex. Le PIB de la RDC de 2000 à 2010. Lire TSASA Jean –Paul (2012) pour les illustrations. En recourant aux méthodes statistiques, et à partir d’informations livrées par le monde réel, l’économètre poursuit un triple objectif : Quantifier et tester les théories Faire des prévisions Evaluer l’efficacité des mesures de politique économique Ass. Cédrick Tombola M. d'infirmer les modèles théoriques, du moins ceux qui admettent une représentation économétrique. Données en Coupe longitudinale [cross section en anglais], on parle aussi de coupe instantanée, notées Xi : font référence aux données observées au même moment, pour des individus différents. Ex. Le PIB en 2009 de tous les pays de l’Afrique Centrale. Données en Panel [pooling en anglais], on parle aussi des données croisées, notées Xit : font référence à la combinaison de deux premiers types. Ex. Le PIB de 2000 à 2010 de tous pays de l’Afrique Centrale. On parle aussi de cohorte, lorsque l’échantillon sondé reste le même d’une période { l’autre. Deux formats des données : Quantitatives [ex : PIB, Taux d’inflation, etc.] Qualitatives [ex : paix, sexe, religion, niveau d’étude, etc.] 15 L’Econométrie n’a donc pas pour objet d’énoncer la théorie mais de la vérifier. Ass. Cédrick Tombola M. 16 I.4. Modèle économique versus modèle économétrique α. Modèle économique Selon Barbancho14, un modèle est l’expression mathématique d’une certaine théorie économique. L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. D’après cette loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa consommation, mais dans une proportion moindre { l’augmentation de son revenu. Mathématiquement, si on note la consommation par Ct et le revenu par Yt, cette loi peut être spécifiée comme suit : Ct= α0 + α1Yt [avec α1 : propension marginale { consommer, 0 < α1 < 1] En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques. A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il ressemblait à la théorie ». β. Modèle économétrique Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique auquel on ajoute un terme d’erreur ut. Ct=α0 + α1Yt + ut [modèle spécifié par l’économètre] La première partie de ce modèle [α0 + α1Yt] constitue sa partie systématique et la deuxième [ut] sa partie stochastique ou aléatoire. Il convient de noter également que le terme d’erreur ut [bruit, perturbation ou aléa] dénote de la différence entre l’économiste et l’économètre. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres α0 et α1 inconnus, on ne sait plus les calculer, il faut donc les estimer. 14 Cité par Kintambu Mafuku (2004). 17 Ass. Cédrick Tombola M. .II. THEORIE DE LA CORRELATION L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. Il faut, d’ores et déj{, noter que dans ce cadre, la position des variables est symétrique. L’analyse ne permet pas de distinguer variable endogène de la variable exogène. L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué pour débuter l’étude de la corrélation. Après l’avoir réalisé, la forme du nuage des points renseigne – à partir d’un simple coup d’œil – sur le type d’une éventuelle liaison entre X et Y. Plusieurs situations sont possibles : Figures A. Relations linéaires, de gauche à droite, positive et négative. 600 600 500 500 400 400 300 300 200 200 100 100 0 0 0 500 1000 1500 Figures B.1. Relation non linéaire monotone 0 2000 500 1000 Figures B.2. Relation non linéaire non monotone 10 8 10 4 5 -100 2 0 0 0 5 10 15 -4 -2 0 2 2000 Figures B. 3. Absence de liaison 15 6 1500 4 120 100 80 60 40 20 0 -50 -20 0 -40 -60 -80 50 100 150 L’analyse du plot donne certes une idée sur le sens et le type d’association entre X et Y, mais elle ne permet pas de quantifier son intensité. Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours au calcul de la covariance. Si on note par n la taille de l’échantillon et i le numéro de l’observation, la covariance empirique15 entre X et Y est calculée par la formule : Cov (X, Y) = 15 La covariance empirique étant un estimateur non biaisé de la covariance. 18 Ass. Cédrick Tombola M. L’idée est que si X et Y covarient, leur covariance devrait être grande. Elle serait modérément faible si les deux variables ne covarient pas. Malheureusement, comme mesure du degré de dépendance entre X et Y, la covariance présente la faiblesse d’être fortement influencée par les unités de mesure des variables en présence. C’est cette limite qui a conduit au développement des coefficients de corrélation. II.1. Coefficient de corrélation de Bravais – Pearson Le coefficient de corrélation linéaire de Bravais – Pearson, noté rXY, est un coefficient paramétrique qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts – types. Ainsi, il standardise la covariance et la corrige de l’influence des unités de mesure des variables. Formellement, le rXY est donné par la formule : rXY = = [2.1] Si l’on considère les écarts { la moyenne arithmétique 16, la relation [2.1] peut également s’écrire comme suit : rXY = [2.2] Propriétés de la covariance et propriétés du coefficient de corrélation linéaire Propriétés de la covariance Propriétés du rXY Commentaires Cov (X, Y) = Cov (Y, X) rXY = rYX Cov (X, X) = Var (X) rXX = 1 Cov (k, X) = 0 rkX = 0 Comme la covariance, le rXY est symétrique. La corrélation entre une variable et ellemême est égale { l’unité. La corrélation entre une constante et une variable est nulle. Le coefficient de corrélation linéaire est un nombre sans dimension dont l’intervalle de variation est : [–1, +1]17. – 1 ≤ rXY ≤ 1 α. Hypothèses fortes au calcul du rXY Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté qu’au strict respect des hypothèses suivantes : Les variables X et Y doivent être quantitatives ; Les variables X et Y doivent être sont gaussiennes ; La relation entre X et Y doit être linéaire 18 ; Note : Lorsque la liaison entre X et Y est non linéaire mais monotone, le r XY ne devient pas hors de propos. Seulement, dans ce cas d’espèce, il donne des informations sur l’existence de la liaison, mais estime mal son intensité. N’oublions pas que le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur sur l’existence et l’intensité de la relation entre variables considérées. 16 La somme des écarts à la moyenne arithmétique est toujours égale à 0, soit On peut aisément démontrer que par construction, le rXY reste compris entre -1 et 1. 18 Cette information est livrée par le graphique nuage des points. 17 = 0. Ass. Cédrick Tombola M. 19 β. Test sur le coefficient de corrélation de Bravais - Pearson Puisque le travail se fait sur un échantillon, après calcul et avant toute interprétation, le rXY doit être soumis à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la population. Les hypothèses du test sont : H0 : ρXY = 0 [hypothèse d’absence de corrélation] H1 : ρXY ≠ 0n [hypothèse d’absence de décorrélation] ρXY est la corrélation théorique, inconnue au niveau de la population, r XY est la corrélation empirique estimée { partir d’informations fournies par l’échantillon. Sous H0, on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté. Le test est de la forme : Rejet H0 si > tα/2 ; (n – 2) [valeur lue dans la table de Student] γ. Signification clinique du coefficient de corrélation de Bravais - Pearson La signification clinique ou l’interprétation du rXY n’est valable que si, après test, on rejette l’hypothèse de décorrélation. Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une interprétation par rapport au signe/sens de la liaison et une interprétation par rapport au degré de dépendance. A. Interprétation par rapport au signe B. Interprétation par rapport à l’intensité Si rXY > 0, X et Y sont positivement corrélées [la relation linéaire entre X et Y est positive]. Si rXY < 0, X et Y sont négativement corrélées [la relation linéaire entre X et Y est négative]. Si rXY = 0, X et Y sont non corrélées [pas de liaison linéaire, mais possibilité d’une liaison d’un autre type]. Si rXY = ± 1, le lien linéaire entre X et Y est parfait. Dans ce cas, l’une des variables est fonction affine de l’autre, les n points (xi, yi) sont alignés. Si 0.80 < rXY < 1, le lien linéaire est très fort. Si 0.65 < rXY < 0.80, le lien linéaire est fort [élevé]. Si 0.50 < rXY < 0.65, le lien linéaire est modéré. Si 0.25 < rXY < 0.50, le lien linéaire est faible. Si 0.025 < rXY < 0.25, le lien linéaire est très faible. Si rXY proche de 0, alors il y a absence de lien entre X et Y. Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes 20 Ass. Cédrick Tombola M. est nul, mais la réciproque n’est pas toujours vraie. Donc r XY = 0 ne signifie pas toujours qu’il y a indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison linéaire entre les variables étudiées. Ceci dit, le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique. L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants. II.2. Coefficient de corrélation de rang de Spearman Le coefficient de corrélation de Spearman, noté ρ XY, est un coefficient non paramétrique qui quantifie, comme le rXY de Bravais – Pearson, le degré d’association linéaire entre deux variables quantitatives. Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée. Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par Ri et celui de Y par Si. Le ρXY de Spearman n’est rien d’autre que le rapport entre la covariance (Ri, Si) et le produit non nul de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Bravais – Pearson. En tenant compte de certaines propriétés de rang, le ρ XY de Spearman peut être calculé de manière plus simple par la formule : ρXY = 1 – [2.3] où Di = Ri - Si et n = nombre d’observations Avantages du ρXY de Spearman sur le rXY de Bravais – Pearson Le rXY de Bravais - Pearson Le ρXY de Spearman A propos de la normalité Pour calculer rXY, les variables doivent être Le ρXY lève l’hypothèse de normalité. De plus, dans gaussiennes. le cas des variables distribuées normalement, le ρ XY reste adapté car il fournit les mêmes résultats que le rXY de Bravais – Pearson. Concernant une liaison non linéaire monotone Le rXY donne une idée sur le sens de la liaison mais Dans ce cas, le ρXY est approprié, il estime mieux estime mal sa force. que le rXY ce type de liaison. La présence des points atypiques Le rXY est fortement influencé par la présence des Le ρXY résiste aux points aberrants. Dans ce cas, il déviants [points aberrants]. est donc préféré au rXY. Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux coefficients rXY et ρXY ne sont plus adaptés. On peut soit transformer les données avant de les calculer ou carrément, lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou l’inverse, calculer le rapport de corrélation. La démarche du test statistique sur le ρXY de Spearman est la même que celle sur le coefficient de corrélation de Bravais – Pearson. Remarques importantes sur le calcul du ρXY de Spearman Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs rangs. Et en présence d’ex aequo dans les données, on leur affecte un rang moyen, donné par la moyenne arithmétique de leurs rangs respectifs. Ass. Cédrick Tombola M. 21 Mais lorsqu’on compte plusieurs ex aequo, après avoir remplacé les données par leurs rangs, il est conseillé de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient de Bravais-Pearson, mais calculé sur les rangs. Dans ce recueil, nous optons pour cette dernière option. En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans l’ordre, les cinq étapes suivantes : (i) (ii) (iii) (iv) (v) Test de linéarité [utiliser un diagramme de dispersion] Test de normalité [choisir le plus approprié connaissant n] Choix et estimation d’un coefficient de corrélation Test de significativité statistique sur le coefficient calculé Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée] Critère synthétique de choix d’un coefficient de corrélation Informations fournies par les données Type de liaison Normalité linéaire Variables normales L’une au moins de deux variables est non normale Non linéaire monotone Variables normales ou non Présence des points atypiques Coefficient de corrélation approprié [en termes de robustesse] - Coefficient rXY de Bravais – Pearson - Coefficient ρXY de Spearman linéaire - Coefficient ρXY de Spearman II.3. Limites de la corrélation Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses, à savoir : La mesure ne concerne qu’une relation linéaire. Le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur, surtout sur l’intensité de la liaison entre variables considérées. La mesure ne concerne que les variables quantitatives. En présence des variables qualitatives comme la paix, la religion, …, les deux coefficients présentés ci-haut ne sont plus adaptés. La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une causalité mais simplement de rendre compte du sens et du degré d’association éventuelle entre variables. La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une corrélation élevée ne peut tenir qu’{ un facteur confondant ou artefact. En réalité, les deux variables peuvent simplement être liés à un même phénomène - source : une troisième variable dont il faut neutraliser l’effet. Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives, le coefficient de corrélation partiel, le rapport de corrélation, la régression linéaire et non linéaire, la causalité, la cointégration, etc. 22 Ass. Cédrick Tombola M. Exercices résolus sur la théorie de la corrélation Exercice 1 Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y). X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors que Y est estimé par les sujets eux-mêmes. 10 sujets ont été échantillons. Les résultats sont : X 20 5 5 40 30 35 5 5 15 40 Y 5 1 2 7 8 9 3 2 5 8 Estimer la corrélation entre X et Y [passer par les cinq étapes] Solution de l’exercice 1 Etape 1. Test de linéarité 10 8 Ce graphique fait état d’une association linéaire positive entre X et Y. 6 4 2 0 0 10 20 30 40 50 Etape 2. Test de normalité Puisqu’étant approprié pour petit échantillon, nous appliquons le test de Shapiro – Wilk. La statistique à calculer est : W = Test sur la variable X i X X(i) ai 1 20 5 -15 225 0,5739 35 20,0865 2 5 5 -15 225 0,3291 35 11,5185 3 5 5 -15 225 0,2141 30 6,423 4 40 5 -15 225 0,1224 25 3,06 5 30 15 -5 25 0,0399 5 0,1995 ∑ 6 35 20 0 0 7 5 30 10 100 8 5 35 15 225 9 15 40 20 400 10 40 ∑ 40 20 400 =20 ; n=10 ; =5 0 2050 41,2875 W= = 0.83154032 Wtable =0.842 [à 5%, pour n=10] Puisque W<Wtable, RH0. La variable X est non gaussienne. Ass. Cédrick Tombola M. 23 Test sur la variable Y i Y y(i) ai 1 5 1 -4 16 0,574 8 4,5912 2 1 2 -3 9 0,329 6 1,9746 3 2 2 -3 9 0,214 6 1,2846 4 7 3 -2 4 0,122 4 0,4896 5 8 5 0 0 0,04 0 0 6 9 5 0 0 7 3 7 2 4 8 2 8 3 9 9 5 8 3 9 10 ∑ 8 9 4 16 0 5 ; n=10 ; =5 ∑ 8,34 W= = 0.915205263 Wtable =0.842 [à 5%, pour n=10] Puisque W>Wtable, Non RH0. La variable Y est gaussienne. 76 Etape 3. Choix et estimation d’un coefficient de corrélation Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne], le coefficient de corrélation approprié dans ce cas est le ρXY de Spearman. Les calculs sont confinés dans le tableau ci-après : X Y Rang de X [Ri] Rang de Y [Si] Di = R i - Si Di2 20 5 6 5,5 0,5 0,25 5 1 2,5 1 1,5 2,25 5 2 2,5 2,5 0 0 40 7 9,5 7 2,5 6,25 30 8 7 8,5 -1,5 2,25 35 9 8 10 -2 4 5 3 2,5 4 -1,5 2,25 5 2 2,5 2,5 0 0 15 5 5 5,5 -0,5 0,25 40 8 9,5 8,5 1 1 ∑ 18,5 ρXY = 1 – = 0. 887878788 Note : Deux nombres – au moins – identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs respectifs. Etape 4. Test de significativité statistique La statistique du test est : tcal= = 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0 d’absence de corrélation entre X et Y, le coefficient de corrélation calculé est statistiquement significatif]. Etape 5. Signification clinique [interprétation] Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y) au sein de la population étudiée. 24 Ass. Cédrick Tombola M. Exercice 2 Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise entre - 1 et 1 [Utiliser la formule de Bravais – Pearson]. Solution de l’exercice 2 Si le lien linéaire entre X et Y est parfait, Y (X) s’écrirait comme une fonction affine de X (Y) : Y = α + βX D’une part, on aura : Y = α – βX D’une part, on aura : Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} = E{[X – E(X)][ α + βX – E(α + βX)]} = E{[X – E(X)][ α – βX – E(α – βX)]} = E{[X – E(X)][ α + βX – α – βE(X)]} = E{[X – E(X)][ α – βX – α + βE(X)]} = E{[X – E(X)] β[X – E(X)]} = – E{[X – E(X)] β[X – E(X)]} 2 2 = β[X – E(X)] = – β[X – E(X)] = βVar(X) D’autre part, on a ceci : = – βVar(X) D’autre part, on a ceci : 2 2 2 2 Var(Y) = E[Y – E(Y)] = E[α + βX – α – βE(X)] = β2var(X) Et par conséquent, Var(Y) = E[Y – E(Y)] = E[α – βX – α + βE(X)] = β2var(X) Et par conséquent, rXY = rXY = = = =1 = = Le domaine de définition de rXY est donc [– 1, + 1] Exercice 3 Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y). N° 1 2 3 4 5 6 7 8 9 10 11 X 10 8 9 11 14 6 4 12 7 5 8 Y 7 6 7 8 9 6 5 8 6 6 7 Travail à faire : - Calculer le coefficient de corrélation approprié. - Tester sa significativité statistique - Evaluer sa signification clinique Solution de l’exercice 3 1. Test de linéarité 10 8 6 4 2 0 0 5 10 15 Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y. =–1 Ass. Cédrick Tombola M. 25 2. Test de normalité Test sur la variable X i X ai 1 10 4 -4,5454545 20,661157 0,5601 10 5,601 2 8 5 -3,5454545 12,5702479 0,3315 7 2,3205 3 9 6 -2,5454545 6,47933884 0,226 5 1,13 4 11 7 -1,5454545 2,38842975 0,1429 3 0,4287 5 14 8 -0,5454545 0,29752066 0,0695 1 0,0695 6 6 8 -0,5454545 0,29752066 7 4 9 0,4545455 0,20661157 W= 8 12 10 1,4545455 2,11570248 Wtable=0,850 9 7 11 2,4545455 6,02479339 10 5 12 3,4545455 11,9338843 11 8 14 5,4545455 29,7520661 0 92,7272727 = 5,5 ∑ ∑ 9,5497 = 0,983494579 Puisque W >Wtable, alors Non RH0. La variable X est normalement distribuée. = 8,545454545 ; n =11 ; Note : n étant impair, on n’a retenu que la partie entière du ratio , soit 5. Test sur la variable Y i Y 1 7 5 -1,818181818 3,30578512 0,5601 4 2,2404 2 6 6 -0,818181818 0,66942149 0,3315 2 0,663 3 7 6 -0,818181818 0,66942149 0,226 2 0,452 4 8 6 -0,818181818 0,66942149 0,1429 1 0,1429 5 9 6 -0,818181818 0,66942149 0,0695 1 0,0695 6 6 7 0,181818182 0,03305785 7 5 7 0,181818182 0,03305785 8 8 7 0,181818182 0,03305785 W= 9 6 8 1,181818182 1,39669421 Wtable=0,850 10 6 8 1,181818182 1,39669421 11 7 9 2,181818182 4,76033058 ∑ ai ∑ 0 13,6363636 = 6,818181818 ; n=11 ; = 5,5 3,5678 = 0,933474435 Puisque W >Wtable, alors Non RH0. La variable Y est normalement distribuée. 3. Choix et estimation d’un coefficient de corrélation Les deux variables étant gaussiennes et linéairement associées, on peut indifféremment estimer le rXY de Bravais-Pearson ou le ρXY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la même chose. Après calcul, on a les résultats suivants : Ass. Cédrick Tombola M. Le rXY de Bravais-Pearson 0,95870624 Corrélation entre X et Y 26 Le ρXY de Spearman 0,95227273 4. Signification statistique du coefficient calculé La statistique calculée est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le ρXY de Spearman. Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262 Conclusion : le coefficient de corrélation calculé est statistiquement non nul. 5. Signification clinique il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son prix, ce qui est conforme à la moi de l’offre. Exercice 4 A partir d’un échantillon de 27 objets, on a trouvé que la valeur d’un coefficient de corrélation linéaire était 0.4. Peut-on en conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un seuil de signification de 0.01. Solution de l’exercice 4 L’exercice livre les informations suivantes : rXY =0.4 ; n=27 ; α = 0.05. Après calcul, on a tcal=2.1821789. En considérant le seuil donné, α = 0.05, et 25 degrés de liberté, la table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro. Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrélation devient non significatif. Exercice 5 Soit le jeu de données normalement distribuées ci-dessous. Bloc I Bloc II Bloc III Bloc IV X Y X Y X Y X Y 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,10 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,1 4 5,39 19 12,5 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89 27 Ass. Cédrick Tombola M. Travail demandé : (i) (ii) (iii) (iv) Estimer pour chaque cas le coefficient de corrélation de Bravais – Pearson Quel constat se dégage t-il de ces calculs ? A présent, réaliser un graphique nuage des points pour chaque cas. Quelle leçon peut-on tirer ? Calculer le coefficient de Spearman pour le bloc IV. Quel avantage présente-t-il ? Solution de l’exercice 5 (i) Après calcul, on a le coefficient de Bravais-Pearson ci-après, pour chaque cas : Bloc I 0,81642052 rXY (ii) (iii) Bloc II 0,81623651 Bloc III 0,81628674 Bloc IV 0,81652144 Pour les 4 blocs, on obtient pratiquement la même valeur du coefficient de corrélation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces différents cas, l’existence d’un lien linéaire positif très fort. Graphique nuage ds points pour chaque bloc Bloc I Bloc II 15 10 10 Bloc III Bloc IV 15 15 10 10 5 5 5 5 0 0 0 10 20 0 0 10 20 0 5 10 15 0 0 10 La leçon à tirer est que l’estimation du coefficient de corrélation de Pearson doit toujours s’accompagner d’un examen graphique. Car, comme on le voit, le coefficient estimé rXY = 0.82, ne correspond, en toute rigueur, qu’au premier graphique. Le deuxième, par exemple, fait état d’une liaison fonctionnelle presque parfaite entre X et Y dont le rXY semble sous-estimer l’intensité. Quant au troisième et au quatrième graphiques, il y a un point atypique qui fausse complètement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisième et quatrième graphiques, le coefficient de corrélation de Pearson qui était de r XY=0.82, devient respectivement de 0.99999655 et de 0 [puisque rkX=0]. (iv) On remarquera qu’au bloc IV, la variable X présente plusieurs ex aequo, nous avons donc calculé le coefficient de Bravais-Pearson sur les rangs. Coefficient de Bravais-Pearson calculé sur les rangs Bloc IV Lien entre X et Y 0.5 A comparer au coefficient de Pearson, le coefficient de rang présente l’avantage de résister aux points atypiques. 20 28 Ass. Cédrick Tombola M. Exercice 6 Voici un échantillon de deux variables gaussiennes : X Y -2 4 -1 1 0 0 1 1 2 4 Travail à faire : - Estimez le coefficient de corrélation de Bravais - Pearson - A quoi renvoie ce résultat ? - Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle nuance pouvez-vous donc formuler dans ce cas ? Solution de l’exercice 6 - Les deux variables étant supposées gaussiennes par l’exercice, et puisque le test de linéarité ici ne fait pas un préalable, on passe directement à l’estimation du rXY comme présentée dans le tableau ci-dessous : Moyenne Xi – Yi – -2 4 -2 2 -4 4 4 -1 1 -1 -1 1 1 1 0 0 0 -2 0 0 4 1 1 1 -1 -1 1 1 2 4 2 2 4 4 4 0 0 0 10 14 0 (Xi – (Yi – )2 Y Somme (Xi – )(Yi – 2 X 2 rXY = 0 - rXY = 0 signifie que les variables X et Y seraient non corrélées [indépendance] - Le diagramme de dispersion des couples (xi, yi) est : 5 4 3 2 1 0 -3 -2 -1 0 1 2 3 Il ressort de ce diagramme de dispersion qu’il existe bel et bien une liaison [de type non linéaire] entre les variables X et Y. La nuance à faire, au vu de ces résultats, est qu’un coefficient de corrélation de Bravais – Pearson nul ne devrait pas toujours s’interpréter comme une absence de relation entre variables en cause. La meilleure interprétation serait que les deux variables étudiées sont non linéairement corrélées, car un r XY =0 laisse toujours la possibilité d’existence, entre les variables considérées, d’une liaison d’un autre type. 29 Ass. Cédrick Tombola M. Exercice 7 A Washington, un journaliste a découvert qu’il existe une très forte corrélation entre le fait d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants. D’où il conclut que les cigognes apportent les bébés. Quelle remarque pouvez-vous faire à une telle conclusion ? Solution de l’exercice 7 La remarque principale à formuler à ce type de corrélation que rien ne peut expliquer – ou qui en réalité tient à un autre phénomène-source – est que la corrélation peut être fortuite ou artificielle. Par ailleurs, à bien analyser les choses, tenant compte des réalités de Washington, la présence d’un nid de cigognes sur le toit signifierait plutôt que la famille qui y habite est aisée et donc disposée, financièrement, à avoir plus d’enfants. Exercice 8 En résolvant un TP de statistique 1 sur le calcul du coefficient de corrélation linéaire, un étudiant de G1 FASE fournit le tableau suivant : Xi Yi Xi – 80 32 -20 100 50 115 110 Yi – (Xi – )*(Yi – ) (Xi – )² (Yi – )² -18 360 400 324 0 0 0 0 0 62 15 12 180 225 144 56 10 6 60 100 36 70 8 -30 -42 1260 900 1764 125 80 25 30 750 625 900 105 62 6 12 72 36 144 90 50 -10 0 0 100 0 110 62 10 12 120 100 144 95 38 -5 1 -12 0 60 2862 25 2511 144 3600 ∑ =100 =50 rXY = = 0.9519 Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez qu’il y a erreur de calcul. Par quoi la voyez-vous ? Solution de l’exercice 8 Par la somme des écarts de la variable X à sa moyenne arithmétique. Cette somme est forcément égale à zéro, une valeur différente indique tout simplement une erreur de calcul. Exercice 9 Soient les données sur les variables X et Y reprises dans le tableau ci-après et le nuage de points correspondant : 12 10 8 X 1 1,1 1,25 1,5 2 2,25 Y 3 6,8 8,3 9,3 9,81 9,85 6 4 2 0 0,9 1,4 1,9 2,4 Ass. Cédrick Tombola M. 30 Estimer les coefficients de corrélation de Bravais-Pearson et de Spearman, puis commenter. Solution de l’exercice 9 Les calculs sont synthétisés dans le tableau ci-après : X Y x y xy x² y² Ri Si Di Di² 1 3 -0,52 -4,84 2,50 0,2669 23,46 1 1 0 0 1,1 6,8 -0,42 -1,04 0,43 0,1736 1,09 2 2 0 0 1,25 8,3 -0,27 0,46 -0,12 0,0711 0,21 3 3 0 0 1,5 9,3 -0,02 1,46 -0,02 0,0003 2,12 4 4 0 0 2 9,81 0,483 1,97 0,95 0,2336 3,87 5 5 0 0 2,25 9,85 0,733 2,01 1,47 0,5378 4,03 6 6 0 0 5,21 1,28 34,77 ∑ Moyenne 1,52 0 7,84 rXY = 0,78 ρXY = 1 Les calculs montrent simplement que le ρXY de Spearman est préféré au rXY de Bravais-Pearson lorsque la liaison entre X et Y est non linéaire mais monotone, car comme on le voit, le r XY a sous-estimé l’intensité d’une relation non linéaire certes, mais visiblement parfaite entre X et Y. Exercice 10 [Il y a au moins une réponse exacte, à cocher, à la question suivante]. Le coefficient de corrélation linéaire entre deux variables statistiques : (a) ne peut être calculé que si les deux variables sont quantitatives (b) est un nombre positif ou nul (c) n’est égal à zéro que lorsque les variables sont indépendantes (d) est un nombre sans dimension. Solution de l’exercice 10 : (a), (b) et (d) 31 Ass. Cédrick Tombola M. .III. MODELE DE REGRESSION LINEAIRE SIMPLE III.1. Modélisation et hypothèses La corrélation, comme développée au chapitre précédent, sert avant tout { quantifier le degré d’association linéaire entre deux variables quantitatives dont la position, dans l’étude, est symétrique. Elle ne permet donc ni d’établir une causalité, ni de mesurer l’impact d’une variable sur l’autre. Dans le modèle de régression linéaire simple par contre, la position des variables dans l’analyse n’est pas symétrique. On connait, { priori, la variable aléatoire qui cause l’autre [Y=f(X)] 19, ce qui rend possible la mesure de l’impact ou de la contribution de X dans l’explication de Y. La plupart du temps, et comme le mot l’indique, le modèle de régression linéaire simple considère que la variable à expliquer Y est une fonction affine de la variable explicative X. Mathématiquement, cette dépendance linéaire s’écrit de la sorte : [3.1] Yt = β0 + β1Xt où β0 et β1 sont les paramètres du modèle qui permettent de caractériser la relation de dépendance linéaire qui existe à chaque date t entre Xt et Yt. Encadré 2. Fonction affine Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *] a : est l’ordonnée { l’origine ou l’origine b : est la pente de la droite ou le coefficient angulaire [directeur] La fonction affine est appelée aussi fonction linéaire si a =0 Graphe d’une fonction affine [considérons le cas où a > 0 et b > 0] La pente d’une droite mesure la variation de Y quand on se déplace le long de la droite en accroissant X d’une unité. Y Y = a + bX E Géométriquement, la pente b est donnée par : b = tg (α) = ∆Y = Y1 – Y0 D a α é é é = Et l’équation d’une droite passant par deux points, de coordonnées (X0, Y0) et (X1, Y1), est : F ∆X = X1 – X0 Y – Y0 = b (X – X0) 0 X b= 19 Algébriquement, la pente dérivant Y par rapport à X : ou b= = s’obtient en [Si données discrètes] Cette information est généralement fournie par la théorie économique, ou peut simplement découler de l’objectif de l’étude du modélisateur. 32 Ass. Cédrick Tombola M. Sous sa spécification économétrique, le modèle [3.1] s’écrit comme suit : [3.2] Yt = β0 + β1Xt + ut Dans ce cas de la régression linéaire simple β0 est le terme constant ou l’origine et β1 la pente. Comme pour la corrélation, avant toute analyse, il intéressant de toujours commencer par un examen graphique – à travers un diagramme de dispersion – du type de relation qui lie les deux variables considérées. Il faut noter, par ailleurs, que le raisonnement qui sera développé dans la suite de ce chapitre, ne peut s’appliquer que si Y peut s’écrire comme une fonction affine de X. Considérons le jeu de données ci-après où un chercheur veut expliquer l’habilité en lecture (Y) de dix sujets échantillonnés par le nombre d’heures de lecture par semaine (X). Y est mesurée en laboratoire { l’aide d’un test d’habilité en lecture alors que X est estimé par les sujets eux-mêmes. Y 20 5 5 40 30 35 5 5 15 40 X 5 1 2 7 8 9 3 2 5 8 D’un point de vue pratique, régresser Y sur X présente un objectif double : Ajuster un modèle linéaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il s’agit de faire un ajustement linéaire, c’est-à-dire de remplacer le nuage de points des couples (x i, yi) par une droite qui s’y adapte le mieux que possible. Prédire les valeurs de Y pour les nouvelles valeurs de X. Pour le jeu de données ci-dessus, on a les graphiques suivants : Graphique nuage de points Sens de l’ajustement linéaire 50 50 40 40 30 30 20 20 10 10 0 et 0 0 2 4 6 8 10 0 2 4 6 8 10 L’ajustement linéaire [ou régression linéaire] consiste donc { tracer une droite d’ajustement – appelée également droite de régression – qui, sans passer par tous les points du nuage, s’y approche le mieux. Pour ça, il faut donc un critère quantifiant la qualité de l’ajustement. Le critère auquel on se réfère dans ce chapitre, et très souvent en économétrie, est le critère ou la méthode des Moindres Carrés Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares] pour désigner la même méthode. 20 Certains auteurs ironisent en disant que la méthode nous sert { mettre un chapeau sur nos β. 33 Ass. Cédrick Tombola M. Hypothèses L’application du critère des moindres carrés ordinaires repose sur les hypothèses suivantes : Hypothèses sur la partie systématique Hypothèses sur la partie stochastique H1. Les variables X et Y sont observées sans erreur. Y est H5. Hypothèse de centralité : E(ut)=0 aléatoire par l’intermédiaire de ut, c’est-à-dire que la seule erreur possible sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle. H2. Les variables X et Y doivent être gaussiennes et stationnaires en niveau. H3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation [3.2]. H4. Le nombre d’observations n doit être supérieur au nombre des paramètres à estimer. C’est-à-dire qu’en moyenne, l’influence de ut sur le modèle est nulle, ce qui revient à admettre que le modèle est correctement spécifié. H6. Hypothèse non autocorrélation des erreurs : E(uiuj) = 0 i ≠j Les erreurs ut de différentes périodes sont indépendantes les unes des autres. H7. Hypothèse d’homoscédasticité des erreurs : E(uiuj) = i =j Les erreurs ut ont une variance constante et finie. Plus explicitement, il s’agit d’assumer que les variables explicatives omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée. H8. Hypothèse de normalité des erreurs: ut (0, ) Cette hypothèse est la clé de l’inférence statistique. Elle est donc nécessaire pour mener les tests. H8. Hypothèse d’indépendance entre la partie systématique et la partie aléatoire : Cov (Xt, ut)=0. Cette hypothèse signifie que l’erreur et les variables explicatives ont une influence séparée sur la variable endogène. Note : (i) Lorsque les hypothèses H4, H5 et H6 sont réalisées, on dit que les erreurs sont des bruits blancs. Et lorsqu’on y ajoute l’hypothèse H7, on parle des bruits blancs gaussiens. (ii) Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de Gauss – Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils sont les meilleurs estimateurs linéaires, non biaisés et à variance minimale. III.2. Estimateurs des moindres carrés ordinaires Le critère des MCO permet d’obtenir l’équation de la meilleure droite d’ajustement : également droite des moindres carrés. = + Xt, appelée Le travail, qui permet d’obtenir la droite, consiste à choisir les paramètres et , en utilisant les informations apportées par l’échantillon, de manière à rendre minimale la somme des carrés des écarts [résidus] entre les valeurs observées de Y et ses valeurs prédites par le modèle. Note : Les résidus, notés et, sont l’estimation de l’erreur ut sur base de données de l’échantillon [et = est donnée par : et = Yt – . Mathématiquement, le critère des MCO se présente comme suit : Min S = = = La détermination de et se fait en appliquant les conditions du premier ordre : =0 [3.3] =0 [3.4] ], elle Ass. Cédrick Tombola M. 34 En appliquant ces dérivées partielles, on obtient les équations normales, à partir desquelles sont tirés les estimateurs des MCO : ∑Y = n + ∑X ∑XY = ∑X + [3.5] ∑X2 [3.6] A partir de [3.5], en divisant toute la relation par n, on détermine l’estimateur de β 0 : = – [3.7] Après substitution de dans la deuxième équation normale [3.6], on tire l’estimateur de β1 : = [3.8] Un développement mathématique simple permet d’exprimer entre X et Y et de la variance empirique de X. = = par le produit de la covariance empirique [3.9] En utilisant les variables centrées, est donnée par le rapport : = [3.10] et sont donc les estimateurs des moindres carrés ordinaires. entièrement la dépendance linéaire de Y envers X. est le paramètre d’intérêt qui capture 1ère conséquence : La droite des moindres carrés = + Xt passe forcément par l’origine et le point de coordonnées ( , ), appelé le centre de gravité ou le point moyen du nuage de points. Pour le vérifier, il suffit de réaliser une projection pour le point : ( )= + =( – )+ = Ce résultat montre que lorsqu’on travaille sur les écarts { la moyenne arithmétique [variables centrées], on reste sur la même droite d’ajustement – ce qui implique que la pente les axes jusqu’au centre de gravité. Y45 reste inchangée –, mais l’on soulève y 40 35 30 25 ( , ) =20 x 15 10 5 X 0 0 1 2 3 4 =5 6 7 8 9 10 35 Ass. Cédrick Tombola M. Ainsi, en travaillant avec les écarts { la moyenne arithmétique, l’origine peut disparaitre momentanément, car une petite manipulation suffit à le retrouver. La fonction affine linéaire : = = + Xt devient [3.11] 2ème conséquence : la droite des moindres carrés a pour équation : – = (Xt – ) On démontre aussi que la moyenne arithmétique de [3.12] est égale à : = = – = + = 3ème conséquence : la somme – et donc la moyenne arithmétique – des résidus est nulle dans une régression avec constante. En effet : = =n -n -n = n – n( – )-n =0 4ème conséquence : il existe un lien entre la pente d’une régression linéaire simple corrélation de Bravais – Pearson rXY: et le coefficient de = = = rXY L’écart – type étant non négatif, la pente même signe. et le coefficient de corrélation de Pearson r XY auront toujours le Synthèse des formules des formules pour l’estimation des β0 et β1 Données brutes Modèle estimé = + Variables centrées Xt = = rXY connu + Xt Connaissant l’origine et le centre de gravité Equations normales Formules ∑Y = n + ∑XY = ∑X + Estimateurs - Tracer la droite des moindres carrés ; ∑X ∑X2 = 21 = = rXY est la pente de la droite, soit : = = = – 21 L’estimateur est une formule, et l’estimation est la valeur qu’on trouve en appliquant l’estimateur. Ass. Cédrick Tombola M. 36 2 III.3. Décomposition de la variance totale et coefficient de détermination R L’analyse de la variance a pour objet de dériver un indicateur synthétique, appelé coefficient de détermination R2, qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres carrés. Il indique donc dans quelle mesure, la variable explicative X nous permet d’améliorer nos connaissances sur la variable endogène Y. Soit yt = + et [3.13] La somme des carrés, dans [3.13], donne : ∑ =∑ [3.14] Après développement de la relation [3.14], on obtient l’équation d’analyse de la variance : SCT = SCE + SCR ∑ =∑ +∑ [3.15] [3.16] Interprétation de l’équation d’analyse de la variance : SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y. SCE est la somme des carrés expliqués. Elle indique la variation de Y due à sa régression linéaire sur X. SCR est la somme des carrés résiduels. Elle indique la variabilité de Y non expliquée par le modèle. Dérivation du coefficient de détermination R 2 2 A partir de l’équation [3.15], le R correspond au rapport : 2 R = [3.17] 2 Ainsi, le R peut être interprété comme la proportion de variance de Y expliquée par le modèle. Toujours à partir de la relation [3.15], on peut déduire les informations suivantes : Au meilleur des cas SCR = 0 SCT = SCE 2 R =1 Le modèle est parfait, la droite de régression passe par tous les points du nuage. Intervalle de variation du R Au pire des cas SCE = 0 SCT = SCR 2 R =0 Le modèle est mauvais, la meilleure prédiction de Y est sa propre moyenne. 2 2 0≤R 2 R 2 Autres formules du R = = 1- = = = = ≤1 = Avec la pente de la droite de régression de X sur Y, soit = + Yt. 2 Plus le R est proche de 1, meilleur est l’ajustement, la connaissance des valeurs de X permet de Ass. Cédrick Tombola M. 37 deviner avec précision celles de Y. 2 Plus le R est proche de 0, mauvais est l’ajustement, X n’apporte pas d’informations utiles sur Y. 2 Il faut tout de même faire attention quant au crédit à accorder au R , il doit toujours être accompagné d’autres tests [Student et Fisher essentiellement] avant de trancher sur la bonté d’un modèle, mais il reste un critère non négligeable pour la prévision. Relation entre le coefficient de corrélation de Pearson et le R 2 2 Pour une régression linéaire simple, et seulement dans ce cas, le R n’est rien d’autre que le carré du coefficient de corrélation de Pearson. La démonstration est relativement simple. Partant de la relation = rXY , on peut tirer rXY et en l’élevant au carré, on a : = = = = = = 2 =R Par conséquent rXY = signe (β ) 2 Note : Comme le coefficient de corrélation linéaire de Pearson, le R , pour une régression linéaire simple, est symétrique. III.4. Test de significativité des paramètres Etant donné que les valeurs et ne sont que des estimations des paramètres β0 et β1 inconnus de la population, il faut donc s’assurer de leur fiabilité statistique. Pour appliquer les tests sur les paramètres, il est important de connaître leurs variances et la variance résiduelle. La démonstration22 du théorème de Gauss – Markov conduit à la construction de la matrice – symétrique – des covariances – variances suivante23 : = = Et la variance résiduelle est donnée par : 22 23 = Pour les détails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010). Appelée souvent matrice COVA, notée par la lettre Omega (Ω). Ass. Cédrick Tombola M. 38 Test de significativité individuelle Le test de significativité individuelle porte sur chaque paramètre. Les hypothèses du test sont : H0 : βi = 0 [le paramètre est statistiquement nul, non significatif] H1 : βi ≠ 0n [le paramètre est statistiquement non nul, significatif] Il s’agit d’un test bilatéral [two-tail ou two-sided]24. Il est basé sur la statistique t de Student calculée comme suit : = [3.18] Sous H0, la formule [3.18] devient : = [3.19] On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté. Critère de décision : Si > tα/2 ; (n – 2) [valeur lue dans la table de Student], alors RH0, le paramètre est statistiquement non nul, la variable lui associée est par conséquent non pertinente dans la prédiction de Y. Intervalle de confiance des paramètres βi Le RH0 revient simplement { refuser que le paramètre β i de la population est nul, cela ne signifie nullement que serait la vraie valeur du paramètre βi. Ainsi, on peut, en se basant sur les paramètres estimés assumant un risque donné, construire des intervalles de confiance pour les paramètres βi. et en Ces intervalles de confiance sont trouvés en appliquant la formule : I= ± tα/2 ; (n – 2) [3.20] Test de significativité conjointe ou globale Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés du modèle. C’est le tes basé sur la statistique de Fisher, appelé aussi test d’analyse de la variance ANOVA. La statistique du test est donnée par le rapport suivant : F= [3.21] 2 Une manipulation simple permet d’exprimer F en fonction du R comme ci-après : F= [3.22] Le test F teste statistiquement la raison d’être du modèle. Par ailleurs, partant de la relation [3.22], d’aucuns considèrent qu’il teste la significativité du coefficient de détermination. 24 C’est-à-dire que H0 est rejetée que le coefficient soit positif ou négatif. Ass. Cédrick Tombola M. 39 Dans le cas d’une régression linéaire simple, le test F est confondu au test de significativité individuelle de la pente. Les deux tests sont basés sur les mêmes hypothèses, et on démontre dans ce cas que : F= [3.23] Preuve : F= = = = = = Les hypothèses du test sont donc25 : H0 : β1 = 0 [le modèle n’est pas bon] H1 : β1 ≠ 0n [le modèle est bon] Comme on le voit, valider la significativité de la pente revient, en même temps, à admettre la bonté du modèle. Sous H0, on démontre que la statistique F suit une loi de Fisher à respectivement 1 et (n-2) degrés de liberté. Critère de décision : Si F > F [1 ; (n – 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on rejette H0, le modèle est bon. Significativité de la pente versus significativité du r XY de Bravais – Pearson Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient à tester rXY = 0. Cela implique qu’accepter la significativité de la pente, c’est accepter également la significativité du coefficient de corrélation linéaire. En effet, en considérant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carré du rXY, on établit : = = = 25 Le test de significativité globale ne porte que sur les paramètres associés aux variables exogènes. Ass. Cédrick Tombola M. 40 III.5. Prévision dans le modèle de régression linéaire simple L’un des objets de l’ajustement linéaire qu’on effectue est de nous aider { prédire les valeurs de Y pour les nouvelles de X, bref à prévoir. Connaissant la nouvelle valeur de X pour un horizon h, notée Xn+h, on distingue deux types de prévision de la valeur de Y { l’horizon considéré : la prévision ponctuelle et la prévision par intervalle. La prévision ponctuelle est très simple. Connaissant Xn+h, il suffit de substituer cette valeur dans l’équation estimée pour obtenir la valeur correspondante de Y, soit : = + Xn+h [3.24] Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ciaprès : I= Yn+h ± tα/2 ; (n – 2) [3.25] est l’écart-type de l’erreur de prévision26. Il est donné par la formule : où = [3.26] Encadré 3. Régression sans terme constant Soit le modèle : Yt = βXt + ut Le travail d’estimation de ce modèle doit inclure les nuances suivantes : La droite des MCO passe forcément par l'origine des axes ; La droite des MCO ne passe plus forcément par le barycentre ou le centre de gravité du nuage des points ; La décomposition de la variance telle que décrite dans ce chapitre n'est plus valable ; Le test d'analyse de la variance (Fisher) n'a plus de sens ; Le coefficient de détermination R2 ne peut plus être lu en termes de proportion de variance expliquée par la régression. Il peut même prendre des valeurs négatives ; La pente de la régression peut être interprétée d'une autre manière. Elle représente directement le rapport entre les variables c’est-à-dire = . L'estimateur des MCO de la pente de la régression sans constante s'écrit : L'estimateur de la variance de l'erreur et le Student théorique doivent tenir compte des degrés de liberté, c’est-à-dire : = et = tα/2 ; (n – 1) Source : Adapté de R. Rakotomalala, 2011. 26 L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit. Ass. Cédrick Tombola M. 41 Exercices sur le modèle de régression linéaire simple Exercice 1 Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages en euros pour un pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la virgule]. Année 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Revenu 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 Consommation 7389.99 8169.65 8831.71 8652.84 8788.08 9616.21 10593.45 11186.11 12758.09 13869.62 On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit : Ct = α + βRt + ut Travail à faire : (i) Tracer le nuage de points et commenter. (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) (x) (xi) Estimer la consommation autonome et la propension marginale à consommer et . En déduire les valeurs estimées de Ct. Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle. Calculer l’estimateur de la variance de l’erreur. Tester la significativité de la pente. Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β. Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminer si la régression est significative dans son ensemble. Ecrire et vérifier l’équation d’analyse de la variance. Interpréter. Après un travail minutieux, un étudiant de L1 FASE trouve le coefficient de corrélation linéaire entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativité de ce coefficient. Argumenter. En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu. Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que l’intervalle de prévision au niveau de confiance de 95%. Solution de l’exercice 1 (i) Le graphique nuage de points est donné ci-dessous : 15000 10000 5000 0 0 5000 10000 15000 20000 Ass. Cédrick Tombola M. 42 Ce graphique témoigne de l’existence d’une association linéaire positive, presque parfaite, entre la consommation des ménages (Ct) par le revenu (Rt), ce qui autorise l’estimation de la relation les liant par la méthode des moindres ordinaires. (ii) Pour simplifier l’estimation de la consommation autonome ( ) et de la propension marginale à consommer , posons ce qui suit : Yt =Ct ; Xt = Rt ; α=β0 et β= β1. Ce qui nous permet d’écrire le modèle donné dans l’exercice comme suit : Yt = β0 + β1Xt + ut A partir des calculs effectués dans le tableau ci-dessous, on a : Estimation de la propension marginale à consommer = = = 0,78098 Estimation de la consommation autonome = – = 9985,575 – 0,78098(11280) = 1176,0896 Le modèle estimé est par conséquent : = 1176,0896 + 0,78098Xt. (iii) Voir tableau ci-dessous. Ces valeurs sont trouvées en remplaçant dans l’équation de la droite des moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur. (iv) Voir tableau ci-dessous. Les résidus sont calculés d’après la formule et = (v) L’estimateur de la variance de l’erreur est donnée par = , connaissant n =10 et (voir tableau), on obtient : = = 20646,1728 (vi) La pente ici est la propension marginale à consommer, soit . Le test de significativité de ce coefficient requiert son écart-type . Connaissant la variance de l’erreur, la variance de est calculée comme suit : Var ( ) = = = 0,0003 = 0,0179 Par conséquent son ratio de Student est : = Puisque (vii) = 43,5352 = > ttable la pente t0.025 ; 8 = 2.306. est statistiquement significative. L’intervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramètre β1 est construire comme suit : I = [ – (t0.025 ; 8) ; + (t0.025 ; 8) ] En faisant les remplacements nécessaires, on trouve : I = [0,7396 ; 0,8224] Ass. Cédrick Tombola M. Le coefficient de détermination R2 peut être calculé par la formule (les valeurs viennent du tableau ci-dessous) : (viii) R 2 = 43 = = 0,9958 Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit : = (43,5352)2 = 1895,3136 F= F [1 ; 8] = 5, 32. Puisque F >Ftable RH0, la régression est significative dans son ensemble. (ix) L’équation d’analyse de la variance est : SCT = SCE + SCR = + 39296098,1837 =39130928, 8011 +165169, 3826 (x) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente revient à accepter celle du coefficient de corrélation linéaire. La pente naturellement. étant significative, le rXY l’est aussi (xi) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert l’estimation de l’écart-type de l’erreur de prévision. Elle est donnée par : Yn+h I= ± (t0.025 ; 8) où = En effectuant les remplacements nécessaires, au niveau de confiance de 95% (au seuil de 5%), on a les résultats suivants : Prévision ponctuelle 2002 = 1176,0896 + 0,78098(16800) = 14296,5998 2003 = 1176,0896 + 0,78098(17000) = 14452,7963 Prévision par intervalle Yn+h [13949,0697 ; 14644,1299] Yn+h Le tableau récapitulant tous les calculs est repris ci-dessous. [14105,2657 ; 14800,3269] 44 Ass. Cédrick Tombola M. Année Yt Xt yt xt xtyt 1992 7389,99 8000 -2595,585 -3280 8513518,8 10758400 7423,9516 -33,9615958 1153,389989 6737061,4922 -2561,6234 6561914,4650 1993 8169,65 9000 -1815,925 -2280 4140309 5198400 8204,93434 -35,28434098 1244,984718 3297583,6056 -1780,6407 3170681,1566 1994 8831,71 9500 -1153,865 -1780 2053879,7 3168400 8595,42571 236,2842864 55830,26401 1331404,4382 -1390,1493 1932515,0386 1995 8652,84 9500 -1332,735 -1780 2372268,3 3168400 8595,42571 57,41428643 3296,400286 1776182,5802 -1390,1493 1932515,0386 1996 8788,08 9800 -1197,495 -1480 1772292,6 2190400 8829,72054 -41,64053713 1733,934332 1433994,2750 -1155,8545 1335999,5393 1997 9616,21 11000 -369,365 -280 103422,2 78400 9766,89983 -150,6898313 22707,42527 136430,5032 -218,6752 47818,8294 1998 10593,5 12000 607,875 720 437670 518400 10547,8826 45,56742347 2076,390081 369512,0156 562,3076 316189,8106 1999 11186,1 13000 1200,535 1720 2064920,2 2958400 11328,8653 -142,7553217 20379,08188 1441284,2862 1343,2903 1804428,8884 2000 12758,1 15000 2772,515 3720 10313755,8 13838400 12890,8308 -132,7408121 17620,12319 7686839,4252 2905,2558 8440511,3336 2001 13869,6 16000 3884,045 4720 18332692,4 22278400 13671,8136 197,8064427 39127,38879 15085805,5620 3686,2386 13588354,7011 0 0 50104729 64156000 0 165169,3825 39296098,1837 0 39130928,8011 ∑ n=10 ; et =9985,575 =11280 Exercice 2 Soit le modèle linéaire Yt = β0 + β1Xt + ut. Où Yt représente la quantité offerte de pommes et Xt le prix. On donne les informations suivantes : = 5 et =3. Après estimation, on a la droite de régression suivante : = + Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de régression, trouver et . Solution de l’exercice 2 Connaissant le couple (Y=2.5 ; X=2) et le centre de gravité du nuage de points ( = 5 ; après : Y X 5 3 2.5 2 =3), on peut reproduire la droite des moindres carrés de cette estimation comme ci- Ass. Cédrick Tombola M. 45 5,5 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 1 2 3 En mesurant la pente de cette droite, on trouve la pente Connaissant la pente = et les deux moyennes et , = 4 = 2,5. est calculé comme suit : = 5 – (2,5)3 = – 2,5 Et le modèle estimé (équation de la droite des MCO) est : = – 2,5+ 2,5Xt Exercice 3 Soit un modèle linéaire simple : Yt = β0 + β0Xt + ut On donne les informations suivantes : ∑YX=184500 ∑Y2=26350 ∑X2=1400000 =60 =400 n=7 Travail demandé : - Estimer les coefficients du modèle Evaluer la qualité de cet ajustement Tester la significativité globale du modèle Solution de l’exercice 3 En fonction des données en présence, les formules suivantes seront utilisées pour répondre aux trois questions posées : = R2 = F= et = – Après calcul, sachant que ∑YX =∑XY, on a les résultats suivants : =0,0589 ; = 36,44 ; R2=0,8455 ; F = 27, 3618 Le R2 étant relativement élevé, environ 85%, l’ajustement effectué est de bonne qualité. Et puisque F > F 6,61, on en conclut que le modèle est globalement bon. [1 ; 5] = Ass. Cédrick Tombola M. 46 Exercice 4 Soit le modèle : Yt= β0 + β1Xt + ut Yt : salaire moyen horaire par jour [en USD] Xt : nombre d’années d’études On donne par ailleurs les informations suivantes : rXY= 0.951916 ; σx=3.894440 et σy=2.945636 Après estimation, sur base d’un échantillon de 13 observations, un étudiant de L1 FBA présente les résultats incomplets ci-après : = 0.030769 + …………….. Xt Travail demandé : (i) (ii) (iii) (iv) (v) Compléter les pointillés. Tester la significativité du rXY. Interpréter ces résultats. Semblent-ils logiques ? Calculer le R2. Tester la significativité de la pente et la significativité d’ensemble du modèle. Solution de l’exercice 4 (i) Connaissant rXY, σx et σy, la pente est estimée par la formule = rXY , ce qui donne, en remplaçant : =0, 7200. On a ainsi : = 0,030769 + 0, 7200 Xt (ii) Le t calculé pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on conclut que le rXY est statistiquement non nul. (iii) Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre d’années d’études. En effet, ces résultats semblent logiques car il est tout à fait normal que ceux qui beaucoup étudié gagnent un peu plus que ceux qui ont étudié un peu moins. (iv) On sait que, pour un modèle de régression linéaire simple avec terme constant, le R 2 n’est rien d’autre que le carré du coefficient de corrélation de Bravais – Pearson. Ainsi : R2 = (0, 951916)2 = 0,9061 (v) Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modèle linéaire simple, le F n’est rien d’autre que le carré du t de Student associé à la pente. Le t de Student de la pente est donc obtenu en prenant la racine carré de F, soit : 10,3054 > t0.025 ; 11 = 2,201 En conclusion, la pente est statistiquement significative et le modèle est valable dans l’ensemble. 47 Ass. Cédrick Tombola M. Exercice 5 Le tableau suivant donne l’âge et la tension artérielle Y de 12 femmes : Individu Age (X) Tension artérielle (Y) 1 56 136 2 42 132 3 72 136 4 36 130 5 63 138 6 47 132 7 55 136 8 49 130 9 38 142 10 42 134 11 68 136 12 60 140 Travail demandé : (i) (ii) (iii) Déterminer l’équation de la droite de régression de Y sur X. Tester la significativité de la pente. Quelle conclusion peut-on tirer ? Estimer la tension artérielle d’une femme âgée de 50 ans. Solution de l’exercice 5 L’équation de la droite de régression de Y sur X est : = 129,5193 + 0,1079Xt (5,0449) (0,0942) (.) : écart-type La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student théorique, au seuil de 5% et à 10 degrés de liberté est ttable = 2,228. D’où la pente est statistiquement nulle, ce qui signifie que l’âge n’explique en rien la tension artérielle. La tension artérielle d’une femme âgée de 50 ans est : = 129,5193 + 0,1079(50) =134,9149 Exercice 6 Les données statistiques ci-dessous portent sur les poids respectifs des pères et de leur fils aîné. Père Fils 65 68 63 66 67 68 64 65 68 69 62 66 70 68 66 65 68 71 67 67 69 68 71 70 Travail demandé : (i) (ii) (iii) (iv) Calculer la droite des moindres carrés du poids des fils en fonction du poids des pères. Calculer la droite des moindres carrés du poids des pères en fonction du poids des fils. Que vaut le produit des pentes des deux régressions ? Juger de la qualité des ajustements faits en (i) et (ii). Solution de l’exercice 6 Soient Y=Fils et X=Père. La droite des moindres carrés du poids des fils en fonction en fonction des pères, après estimation est : = 35,8248031 + 0,47637795Xt Et la droite des moindres carrés du poids des pères en fonction en fonction des fils, après estimation est : = -3,37687366 + 1,03640257Xt Ass. Cédrick Tombola M. 48 Le produit de deux pentes donne le R2 qui, comme le coefficient de corrélation linéaire, est un indicateur symétrique. On a ainsi : R2 =0,47637795 * 1,03640257 = 0,49371933 Au regard de la valeur du R2 faible, environ 49%, les ajustements effectués en (i) et (ii) ne sont de bonne qualité. Exercice 7 Cocher la bonne la réponse. 1. La droite des MCO d’une régression linéaire simple avec constante passe-t-elle par le point ( , ) ? A. Toujours B. Jamais C. Parfois 2. Pour une régression linéaire simple, le R2 est symétrique : A. Oui B. Non C. Parfois 3. Pour une régression linéaire simple, le R2 correspond au carré du F de Fisher : A. Oui B. Non Solution de l’exercice 7 1 A ; 2A ; 3B. Exercice 8 Soient les données suivantes : = 114 = 36 = 226 = 702 Estimer la relation Yt = β0 + β1Xt + ut Indication : n = 6. Exercice 9 Soit le modèle suivant sans terme constant : Yt = βXt + ut. Trouver l’estimateur des MCO. Solution de l’exercice 9 En appliquant le critère des MCO, minimisation de la somme des erreurs quadratiques, à cette relation, on obtient : 49 Ass. Cédrick Tombola M. Exercice 10 Soit les résultats d’une estimation économétrique : = - 32.95 + 1.251Xt n = 20 R2 = 0.23 = 10.66 1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme des carrés des résidus (SCR), la somme des carrés totaux (SCT), la somme des carrés expliqués (SCE), la statistique F de Fisher et l’écart-type de la pente. 2) La pente est-elle significativement supérieur à 1 ? Exercice 11 Montrer algébriquement que : 1. La somme des résidus est toujours égale à 0. 2. Tester l’hypothèse H0 : β1 = 0 [avec β1 la pente], revient { tester l’hypothèse rXY = 0. Solution de l’exercice 11 : voir texte. Exercice 12 Le tableau ci-après renseigne sur la quantité offerte d’un bien (Y) et son prix (X) N° Y X 1 23 5 2 25 7 3 30 9 4 28 6 5 33 8 6 36 10 7 31 9 8 35 7 9 37 8 10 42 11 Travail à faire : (i) (ii) (iii) (iv) Tracer le diagramme de dispersion et commenter. Régresser Y sur X. Calculer les résidus de cette régression. Juger de la qualité de cet ajustement. (v) Tester la significativité individuelle et conjointe des paramètres. Exercice 13 Le coefficient de corrélation linéaire entre deux variables X et Y est r = 0.60. Si les écarts-type de X et Y sont respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les équations de régression de Y en X et de X en Y. Ass. Cédrick Tombola M. 50 .IV. MODELE DE REGRESSION LINEAIRE MULTIPLE IV.1. Formulation et hypothèses de base Le modèle de régression linéaire multiple n’est qu’une extension du modèle de régression linéaire simple au cas multivarié dans lequel interviennent plusieurs variables exogènes dans l’explication du phénomène étudié. On parle aussi de modèle de régression linéaire général ou standard pour souligner que ce modèle reste valable quel que soit le nombre d’exogènes qui s’y figurent. Dans sa forme générale, il s’écrit de la sorte : où chaque est un coefficient marginal qui – après estimation – saisit, ceteris paribus, l’effet d’une variation d’un point de la variable exogène Xj sur la variable endogène ; t=1, …, n correspond { la date des observations. Si l’on considère plusieurs dates, la relation [4.1], sous forme matricielle, s’écrit : où k est le nombre de variables explicatives, k+1 le nombre de paramètres que l’on prendra l’habitude de noter par K dans la suite de ce chapitre. Sous forme compacte, on a : [4.2] Y = Xβ + U En principe, le critère des moindres carrés ordinaires, comme pour le modèle simple, ne soulève aucune difficulté, à la différence que pour le modèle multiple au lieu de calculer une droite, on calcule un plan ou un hyperplan‡‡‡‡‡‡‡. ‡‡‡‡‡‡‡ En algèbre linéaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace à 3 dimensions, la notion d’hyperplan est confondue avec celle de plan, mais cela n’est plus vrai quand on dépasse 3 dimensions. Ass. Cédrick Tombola M. 51 Hypothèses de base La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes : Hypothèses stochastiques H1. Les erreurs sont IID Hypothèses structurelles (0, ). Cette hypothèse implique que les erreurs sont normalement distribuées, non-autocorrélées et homoscédastiques. H3. Le modèle est linéaire ou linéarisable en X Formellement, on a : H4. Les exogènes Xj et la variable endogène Y [ou sur ses paramètres] tels que l’exprime la relation [4.2]. sont observées sans erreur. Y est aléatoire par l’intermédiaire de ut. H5. Les exogènes Xj et la variable endogène Y sont gaussiennes et stationnaires en niveau. H6. Le nombre d’observations n doit être supérieur au nombre des paramètres à estimer. H7. La matrice X’X est non singulière de rang K, c’est-à-dire et existe. Cette hypothèse implique l’absence de colinéarité entre les exogènes, autrement dit les différents vecteurs Xj sont linéairement indépendants. En cas de multicolinéarité, la méthode des MCO devient défaillante. où H2. Il y a indépendance entre la partie systématique et la partie stochastique, soit E(XU) = 0. IV.2. Estimateurs des MCO et propriétés Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des résidus. Mathématiquement, le problème se présente comme suit : [4.3] En notation matricielle§§§§§§§, la relation [4.3] s’écrit : [4.4] Par conséquent, on a : [4.5] §§§§§§§ Un bref rappel matriciel est proposé en annexe 1 de ce chapitre. Ass. Cédrick Tombola M. 52 En effectuant dans la parenthèse, il vient : [4.6] Les termes et étant des scalaires provenant des variables identiques, ils sont égaux et on peut donc les regrouper. Ce qui permet d’écrire : [4.7] En appliquant les conditions du premier ordre, on obtient les équations normales telles que : En considérant un modèle simple, la relation [4.8] devient : En effectuant dans chaque bloc, on obtient : On retrouve ainsi les équations normales, vues au chapitre précédent, pour un modèle simple. Mais pourquoi normales ? La réponse à cette question est proposée ci-après. Dans le système ci-haut, renvoyons tous les termes dans un membre, il vient : Exprimée sous forme vectorielle, la dernière équation s’écrit : X’e = 0. Un vecteur tel que e, orthogonal à tout vecteur de l’hyperplan engendré par X, est dit normal { l’hyperplan. D’où le qualificatif "d’équations normales". En pratique, l’estimation ponctuelle par les MCO se fait en pré-multipliant chaque côté de la relation [4.8] par , ce qui permet d’écrire******** : [4.9] ******** où est une matrice forcément symétrique, de même que son inverse ( )–1. Ass. Cédrick Tombola M. 53 Propriétés des estimateurs Le théorème de Gauss – Markov avance, au respect des hypothèses de base susmentionnées, que dans la famille des estimateurs linéaires non biaisés, ceux des MCO sont les meilleurs car ayant la variance la plus faible. α. Estimateurs linéaires Pour démontrer cette propriété, il suffit, dans l’équation [4.9], de poser ψ= , il vient : β. Estimateurs sans biais Réécrivons la relation [4.9] comme suit : Ainsi, [4.10] En passant à l’espérance mathématique de , il ressort clairement que [4.11] E( est sans biais : = γ. Estimateurs convergents Les variances des estimateurs OLS sont calculées comme suit. Var( ) = E Connaissant les relations [4.10] et [4.11], il vient †††††††† : Après une petite manipulation simple, on obtient : [4.12] Ou encore : †††††††† Il faut noter en passant que la matrice est symétrique, elle est donc égale à sa transposée. 54 Ass. Cédrick Tombola M. Et l’estimateur de la variance résiduelle est donné par la formule suivante : Ainsi obtient-on : [4.13] Lorsque le nombre d’observations tend vers l’infini, l’expression [4.13] ci-dessus tend vers zéro. Par conséquent, l’estimateur est convergent. Toutefois, la condition suffisante serait que les variables exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini. De plus, selon le théorème de Gauss-Markov, Var( ) ≤ Var( que les MCO] ) [avec un estimateur linéaire et non biaisé obtenu par une autre méthode La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimées de [ ], nécessaires pour mener les tests statistiques. Conséquence du théorème de Gauss-Markov Soit le modèle de régression linéaire multiple suivant : où ut N(0, ). L’application de la méthode OLS { cette équation implique que . 1ère conséquence : Sous l’hypothèse de normalité des erreurs, non seulement que l’estimateur des MCO est BLUE par le théorème de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance des estimateurs des MCO atteint la borne de l’inégalité de Cramer-Rao, borne inférieure pour tous les estimateurs. 2ère conséquence : Sous l’hypothèse de normalité, on obtient des tests exacts. Sachant que , cela revient à dire que l’on connaît les distributions exactes des tests. On peut donc construire les tests de Student et de Fisher dans les petits échantillons. Ass. Cédrick Tombola M. 55 IV.3. R2 et R2 ajusté Connaissant l’équation d’analyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport : [4.14] 2 R = Lorsque la régression est faite sur données centrées, le coefficient de détermination se calcule avec la formule : [4.15] R 2 = Il faut noter que, comme pour le modèle simple, le coefficient de détermination reste un indicateur du caractère explicatif de l’équation de régression { bien modéliser Y t. Il mesure ainsi la part de variance de la variable endogène attribuable à sa régression sur les X. Ceci est confirmé par le fait que le coefficient de détermination n’est rien d’autre que le carré du coefficient de corrélation de Bravais-Pearson entre les valeurs observées et les valeurs prédites de Y. [4.16] R2 = = Note importante: Le coefficient de corrélation linéaire entre et Y ( ) est appelé coefficient de corrélation multiple. Cela suggère d'ailleurs de construire le graphique nuage de points confrontant et Y pour évaluer la qualité de la régression. Si le modèle est parfait, les points seraient parfaitement alignés. Bien évidement [0 ≤ R2 ≤ 1], plus R2 est proche de 1, plus le caractère explicatif du modèle est important. Le R2 est certes un indicateur de qualité, mais il présente l’inconvénient d’être mécanique. C’est-à-dire que sa valeur augmente avec l’augmentation des variables explicatives, mêmes non pertinentes { l’explication du phénomène étudié. A l’extrême, si on augmente le nombre de variables explicatives, mêmes impertinentes, tels que le nombre de paramètres devienne égal au nombre d’observations, on aurait un R2=1. Ainsi, en tant que tel, le R2 n’est pas l’outil approprié pour juger de l’apport des variables supplémentaires lors de la comparaison de plusieurs modèles. Lorsqu’il augmente de manière mécanique, de l’autre c té l’on perd en degrés de liberté. La mesure alternative, plus robuste { l’ajout des variables, qui corrige ce problème associé aux degrés de liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit comme suit : [4.17] Comme on le voit, il s’agit l{ d’un R2 corrigé par les degrés de liberté. Il peut d’ailleurs s’exprimer en fonction du R2 ; en manipulant la relation [4.17], on obtient : [4.18] Ass. Cédrick Tombola M. 56 Cependant, il faut faire attention de ne pas interpréter le en termes de part de variance expliquée. Son seul avantage est qu’il permet de comparer plusieurs modèles‡‡‡‡‡‡‡‡. De plus, le peut prendre des valeurs négatives. Dans ce dernier cas, il faut l’assimiler { zéro. Note importante : Dans un modèle linéaire simple, R2 Dans un modèle linéaire multiple, < R2 Si n est grand, alors R2 2 Le R et le n’ont de sens que dans un modèle qui comporte un terme constant. Coefficient de corrélation partielle Dans le chapitre sur la corrélation, nous avions mis en évidence qu’il était possible que la corrélation entre deux variables Xi et Xj ne tienne qu’{ un artefact statistique ou à un facteur confondant – une troisième variable Xk à laquelle Xi et Xj seraient liées en réalité –, appelé aussi phénomène-source. L’on peut se souvenir de l’exemple du journaliste qui a découvert qu’il existait une très forte corrélation entre le fait d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants { Washington, oubliant que cela ne tenait qu’au rang social des familles étudiés, car la présence d’un nid de cigognes sur le toit signifierait plut t que la famille qui y habite est aisée et donc disposée, financièrement, { avoir plus d’enfants. Ainsi, dans la sélection des variables pertinentes { l’explication d’un phénomène, pour éviter une telle éventualité où la corrélation entre la variable endogène et l’exogène ne tiendrait qu’{ un artefact, on a recours au coefficient de corrélation partielle. Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l’influence d’une troisième variable [des autres variables présentes dans le modèle] est retirée. Coefficient de corrélation partielle du premier ordre Coefficient de corrélation partielle du deuxième ordre Soit Y une variable endogène, et Xi, Xj et Xk des exogènes, le coefficient de corrélation partielle mesure le lien entre Y et chaque X, l’influence juste d’une troisième variable exogène étant exclue. Partant de l’exemple choisi, on peut calculer ainsi six coefficients de corrélation partielle du premier ordre : En considérant l’exemple ci-contre, le coefficient de corrélation partielle du deuxième ordre sert à quantifier le lien entre Y et chaque X, l’influence de deux autres étant exclue. Ainsi, partant du même exemple, il est possible de calculer trois coefficients de corrélation partiels du deuxième ordre, soit : ; ; Etapes de calcul ; ; ; ; ; Dans ce cas, le coefficient de corrélation partielle du premier ordre peut être calculé à partir des coefficients§§§§§§§§ de corrélation de Bravais-Pearson comme suit : Supposons que l’on veule mesurer le lien entre Y et Xi, l’influence de Xj et de Xk étant neutralisée, soit , on aura les étapes ci-après : (i) (ii) (iii) En suivant les indices, l’étudiant peut aisément généraliser. ‡‡‡‡‡‡‡‡ Calcul des résidus e1 issus de la régression de Y sur Xj et Xk ; Calcul des résidus e2 issus de la régression de Xi sur Xj et Xk ; correspondra au carré du coefficient de corrélation linéaire calculé entre e1 et e2 : Pour la comparaison des modèles, on utilise aussi les critères d’information [Aikaïké (AIC) ; Schwarz (SC) ; Hannan-Quinn (HQC), etc.]. A la différence que ces critères sont à minimiser dans le choix du meilleur modèle. §§§§§§§§ Appelés dans ce cas coefficients d’ordre zéro. Ass. Cédrick Tombola M. 57 La notion de corrélation partielle est importante dans la mesure où elle permet de juger de la pertinence d’introduire une variable exogène dans le modèle. Plus élevé sera le coefficient de corrélation partielle d’une variable, plus importante sera sa contribution { l’explication globale du modèle. IV.4. Test de significativité des paramètres Test de significativité individuelle Comme pour le cas simple, le test de significativité individuelle, qui porte sur chaque paramètre, est mené en calculant les ratios de Student. Pour un test bilatéral, les hypothèses du test sont : Le ratio de Student est calculé comme suit : [4.19] = Sous H0, la formule [4.19] devient : [4.20] = On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – K) degrés de liberté. Critère de décision : Si > tα/2 ; (n – K), alors RH0, le paramètre est statistiquement non nul, la variable lui associée est par conséquent non pertinente dans la prédiction de Y. Comme cela a été vu au chapitre précédent, l’estimation par intervalle se fait en appliquant la formule ciaprès : [4.21] I= ± tα/2 ; (n – 2) Test de significativité conjointe ou globale Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la question de savoir si l’ensemble des exogènes apporte de l’information utile { la connaissance de la variable endogène. Ceci dit, seuls les paramètres associés aux variables explicatives interviennent dans le test, la constante n’est donc prise en compte ici, car c’est bien l’influence des exogènes sur la variable expliquée que l’on cherche { établir. Dans la littérature anglophone, ce test est parfois considéré comme un test de significativité du R 2, dans le sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur globalité, sur l’endogène. Les hypothèses du test sont : Ass. Cédrick Tombola M. 58 Et la statistique à calculer est : [4.22] F= Sous H0, on démontre que la statistique F suit une distribution de Fisher à respectivement (K – 1) et (n – K) degrés de liberté. Critère de décision : Si F > F [(K – 1) ; (n – K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on rejette H0, le modèle est bon. Application de tests de significativité : Test des rendements d’échelle Soit le modèle suivant : [4.23] Ln Qt = Ln A + β1Ln Lt + β2 Ln Kt + ut où Qt est la production, Lt le travail, Kt le capital et β1 et β2 les élasticités de la production au travail et au capital, respectivement. La théorie macroéconomique avance qu’il y a rendements { l’échelle constants s’il se vérifie que : [4.24] β1 + β2 = 1. Comment alors tester une telle hypothèse ? Pour tester cette restriction sur les paramètres, on suivra les étapes suivantes : Estimer le modèle [4.23] sans restriction sur les paramètres, dit modèle non contraint ; Calculer les variances de et , ainsi que leur covariance Cov( , Calculer ensuite le ratio de Student avec la formule : [4.25] Connaissant [4.24] et en sachant que Var devient : [4.26] ) tcal = = Var( ) + Var( ) + 2Cov( , ), la formule [4.25] tcal = Tester enfin l’hypothèse des rendements d’échelle constants contre celle des rendements d’échelle non constants, soit : Critère de décision : Si > tα/2 ; (n – K) RH0 selon laquelle il y a rendements { l’échelle constants. Ass. Cédrick Tombola M. 59 IV.5. Prévision dans le modèle de régression linéaire multiple Soit la régression suivante de Yt sur le terme constant et sur les exogènes Xj : Si le vecteur des valeurs des exogènes pour un horizon h est connu, soit R= la prévision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on : Ce qui, en écriture matricielle, s’écrit : Sous forme compacte, on a : [4.29] Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-après : [4.30] où I= ± tα/2 ; (n – K) est l’écart-type de l’erreur de prévision *********. Il est donné par la formule : [4.31] ********* Yn+h = L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit. , 60 Ass. Cédrick Tombola M. Synthèse des formules sur la régression linéaire multiple Formules Indications Modèle d’analyse : donne une matrice K 1 des paramètres estimés du modèle. fixe un intervalle de confiance, avec un risque α, dans lequel le βi inconnu de la population serait compris. Ponctuelle Estimation Iβi = Par intervalle ± tα/2 ; (n – 2) Modèle estimé : sur sa diagonale principale, on lit les variances estimées de ( ), nécessaires pour mener les tests statistiques. le coefficient de détermination reste un indicateur du caractère explicatif de l’équation de régression { bien modéliser Yt. , appelé coefficient de corrélation multiple, est le coefficient de corrélation de Bravais-Pearson entre les valeurs observées et les valeurs prédites de Y. Matrice COVA 2 Données brutes R2 R = 2 Données centrées étant connu R = R2 = = il s’agit l{ d’un R2 corrigé par les degrés de liberté. 2 R ajusté de Theil Test de significativité = individuelle conjointe tα/2 ; (n – K) F= [sous H0] Si F [(K – 1) ; (n – K)] > tα/2 ; (n – K) RH0 Si F > F [(K – 1) ; (n – K)] RH0 Ponctuelle Yn+h Prévision I= ± tα/2 ; (n – K) Par intervalle où = Permet de deviner la valeur de Y à la période h, les exogènes de la même période étant fixées. Ass. Cédrick Tombola M. 61 IV.6. Utilisation des variables indicatrices††††††††† Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles. Une variable indicatrice est une variable spéciale qui ne prend que deux valeurs, à savoir : 1 pour indiquer que le phénomène (ou l’événement) a lieu ; 0 pour indiquer que le phénomène (ou l’événement) n’a pas lieu. Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe, la religion ou même un événement tel qu’une guerre, une grève, un tsunami, etc. – que l’on désire intégrer dans les modèles. Comme variable explicative, on la note généralement par la lettre D, pour dire dummy. Il est également important de noter que les variables binaires peuvent intervenir dans le modèle de deux manières, soit comme endogène [modèle de probabilité linéaire, modèles Logit, Probit, Tobit, Gombit] soit comme exogène [modèles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intéressons qu’au cas où la variable muette entre comme explicative dans le modèle. Aussi, l’utilisation de ces variables dépend fortement du problème posé. Comme exogènes, les variables dummy sont utilisées pour répondre à un triple objectif : Corriger les écarts aberrants (ou déviants) ; Capter la présence de la discrimination ; Capter les variations saisonnières. α. Corriger les valeurs singulières (ou anormales) Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c’est-à-dire des valeurs anormalement élevées ou anormalement basses – associées en général à la survenance de chocs ou d’événement rares, il y a lieu d’incorporer une dummy dans le modèle afin d’en tenir compte. La démarche consisterait simplement à détecter les valeurs anormales et à les corriger, en mettant 1 à ces dates là et 0 ailleurs, afin que les déviants ne perturbent pas l’estimation statistique des autres variables. Considérons le jeu de données ci-après, où Yt est l’endogène et Xt l’exogène. On veut estimer le modèle : Yt = β0 + β1Xt + ut [A] Date Yt Xt 11 février 10 5 12 février 12 7 13 février 2 8 14 février 15 9 15 février 17 10 On observant l’évolution de Yt, il y a un écart criant au 13 février qui frappe notre attention. La conséquence directe serait que, s’il faut régresser Yt sur Xt, cette valeur aura tendance à fausser la vraie relation existant entre les deux variables en cause, en rabattant la droite des moindres carrés de façon à avoir une moyenne. On s’en rend bien compte { travers le graphique nuage de points avec droite de régression, y correspondant, suivant. ††††††††† Le terme anglo-saxon dummy est le plus utilisé. Ass. Cédrick Tombola M. 62 20 15 10 5 0 0 2 4 6 8 10 12 Et l’estimation par OLS, donne la droite suivante : = 1.6081 + 1.2297Xt [0.1265] [0.7728] R2 =0.1660 Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a complètement perturbé l’estimation de la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le modèle. On mettra 1 à la date du 13 février et 0 partout ailleurs. Le modèle à estimer devient : Yt = β0 + β1Xt + β2Dt + ut Date Yt Xt Dt 11 février 10 5 0 12 février 12 7 0 [B] 13 février 2 8 1 14 février 15 9 0 15 février 17 10 0 L’estimation par OLS du modèle [B] donne à présent : = 2.7288 + 1.3898Xt – 11.8475Dt [2.6032] [10.5862] [–20.9805] R2 =0.9962 L’incorporation dans le modèle d’une dummy a donc permis de corriger la valeur atypique. Note importante : La correction effectuée n’est valable que si le coefficient associé à la variable dummy est statistiquement significatif. Après estimation, le signe affecté { la variable binaire est proportionnelle { l’anomalie constatée dans les données. S’il s’agit d’une observation anormalement basse, comme c’est le cas dans l’exemple ci-haut, le signe affecté à la dummy sera –, ce qui indique que l’écart criant avait tendance à ramener la droite de régression vers le bas. En revanche, s’il est plut t question d’une observation anormalement élevée, le signe affecté à la dummy sera +, ce qui indique que le déviant avait tendance à tirer la droite de régression vers le haut. Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une même une variable muette. Lorsque la série présente à la fois les deux types d’écarts, il convient de les capter par deux variables auxiliaires différentes, l’une pour les observations exceptionnellement élevées et l’autre pour celles exceptionnellement basses. Ass. Cédrick Tombola M. 63 β. Capter la présence de la discrimination L’explication d’un phénomène peut parfois nécessiter la présence des variables qualitatives. Supposons que l’on souhaite expliquer, pour dix étudiants de première licence en Economie échantillonnés, le phénomène " cote obtenue en macroéconomie CMi" ; tout naturellement les variables comme présence au cours PCi, nombre d’heures d’étude consacrées à la macroéconomie HE i…s’avèrent pertinentes. Mais il est tout à fait aussi possible que des variables comme la religion de l’étudiant REi, ou sa tribu TEi, soient déterminantes dans l’explication du phénomène étudié. Dans ce cas, l’utilisation d’une variable binaire permet de segmenter les individus en deux groupes et de déterminer si le critère de segmentation est réellement discriminant. Dans l’exemple de tout { l’heure sur la cote obtenue en macroéconomie, si l’on assume que l’appartenance ou non à la religion catholique est déterminante dans la réussite, ce qui revient à dire que la religion est un facteur de discrimination, le modèle à estimer sera : CMi = β0 + β1 PCi + β2HEi + β3REi où REi = Puis estimer, comme vu précédemment, en appliquant les MCO. Après estimation, si β3 est statistiquement significatif, on en conclurait que la religion (catholique) a joué sur la cotation en macroéconomie, elle est donc bien un facteur discriminant de la note obtenue en macroéconomie. A l’opposé, si β3 est statistiquement non significatif, on en conclurait que la religion (catholique) n’a pas joué sur la réussite en macroéconomie. Note importante : Dans le cas de variables dummy à plusieurs modalités, par exemple l’état civil (célibataire, marié, divorcé, autres), il est convenable de coder alors autant de variables indicatrices qu’il y a de modalités moins une‡‡‡‡‡‡‡‡‡. Ainsi, pour l’état civil, on définira trois variables binaires : célibataire (=1 si l’individu est célibataire, 0 sinon), marié (= 1 si l’individu est marié, 0 sinon), divorcé (= 1 si l’individu est divorcé, 0 sinon), la modalité autres étant implicitement contenue dans le terme constant [et ne serait donc spécifiée à part que dans un modèle sans terme constant]. La codification dépend du modélisateur et doit être prise en compte dans l’interprétation des résultats. A titre exemplatif, si l’on considère la variable qualitative sexe, le modélisateur est libre de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de l’interprétation. γ. Capter les variations saisonnières Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements saisonniers qui caractérisent certaines variables comme les dépenses de publicité, qui sont généralement plus importantes en certaines périodes de l’année qu’en d’autres. Supposons que l’on s’intéresse { la relation entre le chiffre d’affaires (Ch t) et les dépenses de publicité (Dpubt). On peut écrire : ‡‡‡‡‡‡‡‡‡ L’une d’elles étant implicitement contenue dans le terme constant. Ass. Cédrick Tombola M. Cht = β0 + β1Dpubt + ut 64 [i] En utilisant les données trimestrielles, il ne serait pas correct d’estimer directement le modèle [i], parce qu’on n’aurait pas tenu compte de l’effet saisonnier, les dépenses de publicité ne sont pas les mêmes tous les trois mois [trimestre]. On peut capter l’effet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura autant de variables dummy qu’il y a de trimestres, soit quatre dummy. Sachant qu’on compte quatre trimestres par année, l’introduction des variables dummy se fera comme suit : 2 0 0 5 2 0 0 6 Trimestre 1èr trimestre 2ème trimestre 3ème trimestre 4ème trimestre 1èr trimestre 2ème trimestre 3ème trimestre 4ème trimestre D1t 1 0 0 0 1 0 0 0 D2t 0 1 0 0 0 1 0 0 D3t 0 0 1 0 0 0 1 0 D4t 0 0 0 1 0 0 0 1 ∑ 1 1 1 1 1 1 1 1 Et le modèle [i] devient : Cht = β0 + β1Dpubt + β2D1t + β3D2t + β4D3t + ut [ii] ou encore : Cht = β1Dpubt + β2D1t + β3D2t + β4D3t + β5D4t + ut [iii] Si le modèle contient un terme constant, celui-ci joue d’office le r le de l’une de quatre variables dummy. Dans [ii] par exemple, β0 joue le rôle de D4t [on a le choix pour la variable binaire à écarter]. En revanche, en absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les variables dummy. Une fois cette gymnastique terminée, on peut alors, sans difficulté normalement, appliquer les MCO soit sur le modèle [ii], soit sur le modèle [iii]. Ass. Cédrick Tombola M. 65 ANNEXES DU CHAPITRE IV ANNEXE 1 : Quelques rappels de calcul matriciel Le calcul matriciel a été introduit en Econométrie par Alexander Craig Aitken. 1. Opérations matricielles Addition et soustraction Soient deux matrices carrées§§§§§§§§§ A et B de format 2. La somme ou la soustraction de ces deux matrices s’effectue comme suit : A B= = L'addition et la soustraction des matrices ne sont donc définies que pour des matrices de même format ou de même ordre. Propriétés importantes de l’addition et la soustraction des matrices (i) (ii) A A B=B A (B C) = (A B) C Multiplication par un scalaire Soient un scalaire k (un nombre réel) et la matrice carrée A ci-dessus. La multiplication de A par le scalaire k s’effectue de la sorte : kA =k = La multiplication par un scalaire est donc possible quel que soit l’ordre de la matrice A. Propriétés importantes de la multiplication par un scalaire (i) (ii) kA = Ak k(A B) = kA kB Produit matriciel Soient les deux matrices carrées A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la multiplication matricielle puisque le nombre de colonnes de la première matrice est égal au nombre de lignes de la deuxième matrice [principe du produit matriciel]. Le produit matriciel s’effectue en faisant la somme algébrique des produits des éléments de chaque ligne de la première matrice par les éléments correspondants de chaque colonne de la deuxième matrice. §§§§§§§§§ Une matrice carrée est une matrice dont le nombre de lignes est égal au nombre de colonnes. On dit matrice carrée de format n ou d’ordre n m. Ass. Cédrick Tombola M. 66 Pour les matrices carrées A et B ci-haut, on obtient : AB = 2 2 2 2 Propriétés importantes du produit matriciel Soient trois matrices conformables A, B et C, on a les propriétés essentielles suivantes : (i) (ii) (iii) A(B + C) = AB + AC A(BC) = (AB)C AB ≠ BA en général Transposée d’une matrice La transposée d’une matrice A de format m en permutant les lignes et les colonnes de A. n, notée AT ou A’, est une matrice de format n m obtenue AT = Soit A = Propriétés importantes de la transposition des matrices Soient trois matrices conformables A, B et C, on a : (i) (ii) (iii) (iv) (A + B + C)T = AT + BT + CT (ABC)T = CTBTAT (AT)T = A (kA)T = kAT Rang d’une matrice Soit une matrice A d’ordre m n. Le rang de la matrice A, noté r (A), est le nombre de ses vecteurs lignes [ou ses vecteurs colonnes] linéairement indépendants, dit autrement, c’est le nombre de ses lignes (ou ses colonnes) non entièrement nulles, après échelonnement de la matrice. Si le rang d’une matrice A donnée correspond au minimum entre le nombre de ses lignes et de ses colonnes, on dira que A est de rang maximum. Une matrice carrée A d’ordre n est dite non – singulière si son rang est maximum, soit [r (A) = n]. Ass. Cédrick Tombola M. 67 2. Matrices carrées Matrice diagonale Matrice scalaire Matrice unité ou identité est une matrice carrée dont un au moins des éléments situés sur sa diagonale principale est non nul, tous les autres éléments étant nuls. est une matrice diagonale dont tous les éléments, non nuls, sur sa diagonale principale sont égaux. notée I, est une matrice scalaire dont les éléments sur la diagonale principale sont égaux à 1. Exemple : Exemple : Exemple : B= I= A= Matrice symétrique Matrice idempotente Trace d’une matrice carrée Soit une matrice carrée A. On dit que A est une matrice symétrique si AT = A. Soit une matrice carrée A. on dit que A est une matrice idempotente si AA = A. La trace d’une matrice carrée A, notée tr (A), se définit comme étant la somme algébrique des éléments de sa diagonale principale. Exemples : La matrice unité I est forcément symétrique. On vérifie donc que IT = I; La matrice (X'X), dans l’estimation des β, est symétrique, soit (X'X)' =(XTX). Exemple : M = [I – X(X'X)–1X'] Soient deux matrices A et B, dont les dimensions respectives sont de (m n) et de (n m). Par conséquent, AB et BA sont deux matrices carrées et : tr (AB) = tr (BA) Pour trois matrices A, B et C, si le produit donne des matrices carrées, on a : tr (ABC) = tr (CAB) = tr (BCA) Propriétés importantes de la matrice unité (i) (ii) (iii) II = I InAn = An tr (In) = n Déterminant d’une matrice carrée D’ordre 2 Soit la matrice carrée A, d’ordre 2, son déterminant noté est calculé comme suit : Ass. Cédrick Tombola M. 68 D’ordre 3 Le déterminant d’une matrice carrée A d’ordre 3 est calculé en appliquant la règle de Sarrus********** comme suit : = D’ordre n quelconque Le déterminant d’une matrice A d’ordre n est donné par la somme algébrique des produits obtenus en multipliant les éléments d’une ligne (ou d’une colonne) de la matrice A par leurs cofacteurs correspondants, notés Cij. La matrice des cofacteurs, quant à elle, est trouvée en pré – multipliant la matrice des mineurs, notée Mij, par (–1)i+j, soit : Cij = (–1)i+jMij La méthode des cofacteurs, dite aussi méthode d’expansion de LAPLACE ††††††††††, permet de calculer un déterminant d’ordre n { l’aide des mineurs [déterminants d’ordre (n – 1)]. On a toujours intérêt à développer un déterminant des lignes ou des colonnes où apparaissent beaucoup de zéros. Note : Le mineur mij de la matrice A est le déterminant calculé en supprimant la ligne i et la colonne j de A. Propriétés importantes des déterminants (i) (ii) (iii) (iv) Si une ou plusieurs lignes ou colonnes d’une matrice sont linéairement dépendantes, alors le déterminant de cette matrice est nul. On dit qu’une telle matrice est singulière. Si une matrice carrée A est de rang maximum, alors son déterminant est différent de zéro. Inverse d’une matrice carrée Soit A une matrice carrée et B une autre matrice carrée du même ordre que A. On dit que B est l'inverse de A si AB = BA = I. –1 L'inverse de A, noté A , n'existe que si A est une matrice carrée de rang maximum. Cet inverse est unique. ********** †††††††††† Du nom du mathématicien français Pierre – Frédéric Sarrus (1798 – 1861). Du nom du mathématicien, astronome et physicien français Pierre – Simon de LAPLACE (1749 – 1827). Ass. Cédrick Tombola M. 69 Il existe, dans la littérature, plusieurs méthodes de calcul de l’inverse d’une matrice carrée. Dans ce papier, nous n’en présentons que deux. Méthode classique (ou méthode de l’adjointe) Méthode itérative (ou gaussienne) Par la méthode de l’adjointe, l’inverse de la matrice B, Soit la matrice A, d’ordre n, dont on veut trouver notée B–1, se calcule de la sorte : l’inverse. La méthode itérative consiste { mettre c te à côte la matrice A et la matrice unité I de même –1 ordre, puis { échelonner A jusqu’{ la rendre unité. A–1 B = sera ce que serait devenue la matrice unité { l’issue de où est la matrice adjointe, et n’est rien d’autre que la l’échelonnement, soit : transposée de la matrice des cofacteurs Cij, soit : B–1 = Propriétés importantes de l’inverse d’une matrice carrée (i) (ii) (iii) B B–1 = I (B–1)–1 = B (BT)–1 = (B–1)T (B–1)TBT = I ANNEXE 2 : La fonction DROITEREG d’Excel La fonction DROITEREG d’Excel permet d’obtenir presque tous les résultats, en un clic, mis en évidence dans ce chapitre, et au chapitre précédent. Il suffit, pour ce faire, de sélectionner une plage en conséquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramètres à estimer dans le modèle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les exogènes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER. Soit le modèle Yt = β0 + β1X1t + β2X2t + β3X3t + ut, la figure ci-dessous montre comment procéder sur Excel. En appuyant simultanément sur les touches CTRL + SHIFT + ENTER, on obtient : Ass. Cédrick Tombola M. 70 ANNEXE 3 : La régression linéaire avec le logiciel Eviews Sur le logiciel économétrique Eviews, après création de la feuille de travail et saisie des données, aller dans Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l’ordre apparaissant dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode d’estimation – pour notre cas LS ou Least squares – et valider. En considérant le modèle de tout { l’heure, on a les étapes suivantes : En validant, on a les résultats suivants : Dependent Variable: Y Method: Least Squares Sample: 1 8 Included observations: 8 Variable C X1 X2 X3 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Coefficient Std. Error t-Statistic Prob. -247.3274 1.133525 2.944909 7.146491 122.8357 0.520299 3.361460 2.286172 -2.013481 2.178604 0.876080 3.125963 0.1143 0.0949 0.4304 0.0353 0.974926 0.956120 8.789365 309.0117 -25.96726 51.84210 0.001169 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat 264.3750 41.95895 7.491815 7.531536 7.223914 1.160052 Ass. Cédrick Tombola M. 71 Le même résultat peut être obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi de Y C X1 X2 X3. Du tableau des résultats ci-dessus, appelés parfois output de l’estimation, il ressort les informations importantes suivantes : Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque paramètre estimé, son écart – type (Standard Error) et de son ratio de Student. La colonne Prob. renvoie, pour chaque coefficient estimé, la probabilité de commettre l’erreur de première espèce. Si cette probabilité est faible (< 0.05, de manière générale) RH0, le paramètre concerné est donc statistiquement significatif (non nul). Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(Fstatistic) correspondent respectivement au R2, au R2 ajusté, au , à la SCR, à la statistique de Fisher et la probabilité critique associée à la statistique de Fisher. Mean dependent var et S.D. dependent var représentent respectivement la moyenne et l’écart – type de la variable dépendante. Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critères d’information intervenant dans le choix du modèle optimal. Le meilleur modèle étant celui qui minimise ces critères. A. Après estimation, la série prédite est obtenue automatiquement en tapant, sur la barre de commande, la commande FIT (nom de la série) puis valider. B. Après estimation, la série des résidus est générée en saisissant la commande GENR (nom)=resid Ass. Cédrick Tombola M. 72 Exercices sur le modèle de régression linéaire multiple Exercice 1 On examine l’évolution d’une variable Yt en fonction de deux exogènes X1t et X2t. On dispose de n observations de ces variables. On note X = où 1 est le vecteur constant et X1 et X2 sont les vecteurs des variables explicatives. 1. On a obtenu les résultats suivants : = (a) Donner les valeurs manquantes. (b) Que vaut n ? 2. La régression de Y sur la constante et les deux exogènes donne : Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ; =73.48 et = – 1.6 (a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le R2 et le R2 ajusté de Theil. (b) Déduire la matrice COVA, et tester la significativité individuelle de chaque paramètre ainsi que leur significativité conjointe. Exercice 2 Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences économiques, on spécifie le modèle suivant : NLi = β0 + β1NDi + β2DSi + ut où : NL = note moyenne obtenue en licence ND = note moyenne obtenue en troisième graduat DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes) L’estimation { partir d’un échantillon de 60 étudiants conduit aux résultats suivants : = 8.5 + 0.3NDi – 1.2DSi [4.5] [7.1] [2.3] n=60 R2=0.72 [.] = t de Student Travail demandé : le sexe a-t-il une influence sur la note obtenue en licence de sciences économiques ? Solution de l’exercice 2 La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le fait d’être homme ou femme est bel et bien un facteur discriminant de la réussite de la licence en sciences économiques. 73 Ass. Cédrick Tombola M. Il est à noter que le signe négatif affecté à DS indique qu’il est « pénalisant » d’être un homme (DS = 1) et qu’en moyenne, sur l’échantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note inférieure de 1.2 point à celle des femmes, soit 7.3. Exercice 3 Soit le modèle : Yi = β0 + β1Xi + β2Di1 + β2Di2 + ui où Yi est le salaire perçu par l’individu i ; Xi le nombre d’années d’expérience ; Di1 et Di2 deux variables dummy. On dispose du tableau ci-dessous : Ind. Yi Xi 1 350 2 2 150 1 3 305 2 4 290 2 5 310 2 6 270 2 7 340 5 8 400 3 9 430 5 10 410 4 11 400 3 12 290 2 Les individus 3, 5, 8, 10, 15, 12 sont des étrangers (étrangères) et les individus 3, 5, 7, 8 et 9 sont des ouvriers (nationaux et étrangers). Di1 = et Di2 = Construisez les chroniques Di1 et Di2. Exercice 4 Soit le modèle : Yt = β0 + β1X1t + β2X2t + ut On dispose des données du tableau ci-dessous : Yt 10 12 16 18 20 X1t 4 6 5 8 7 X2t 7 4 8 6 9 Travail à faire : (a) Trouver les valeurs du vecteur . (b) Calculer le coefficient de détermination R2. (c) Mener les tests de significativité individuelle sur chaque paramètre. Exercice 5 Soit le tableau suivant : Année Yt X1t X2t X3t 1989 220 57 51 34 1990 215 43 53 36 1991 250 63 54 39 1992 245 65 52 38 1993 249 68 53 37 1994 301 69 56 42 Ass. Cédrick Tombola M. 74 TD : - - Si on considère le modèle suivant : Yt = β0 + β1X1t + β2X2t + β3X3t + ut, estimer les paramètres β0, β1, β2, β3, et tester leur significativité individuelle et la significativité globale du modèle. Calculer le R2. Quelle critique peut-on formuler l’égard de cet indicateur ? Calculer le 2 Trouver l’intervalle de prévision pour 1997 sachant que pour cette dernière année X1t sera égal à 78, X2t sera égal à 54 et X3t atteindra 48. Exercice 6 Soit le modèle Yt = β0 + β1X1t + β2X2t + εt où Yt est la quantité offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accordée de manière journalière et εt le terme d’erreur. Connaissant les données du tableau ci-dessous, il est demandé : - d’estimer les paramètres β0, β1 et β2. - de calculer le R2 et le R2 ajusté de Theil. - de montrer que le R2 n’est autre que le r de Bravais-Pearson entre Yt et - de vérifier l’équation d’analyse de la variance. - de dériver la matrice COVA. Date 2 janvier 2012 3 janvier 2012 4 janvier 2012 5 janvier 2012 6 janvier 2012 Yt 10 12 16 18 20 X1t 4 6 5 8 7 X2t 7 4 8 6 9 . 75 Ass. Cédrick Tombola M. .V. MODELES DE REGRESSION NON LINEAIRES Comme vu jusqu’ici, l’application de la méthode des moindres carrés ordinaires exige que le modèle soit linéaire ou linéarisable en X. Cependant, il est fréquent de rencontrer en économie des modèles non linéaires dans leur spécification, comme c’est le cas des fonctions de production de type Cobb – Douglas et CES [Constant Elasticity of Substitution]‡‡‡‡‡‡‡‡‡‡. Les modèles non linéaires sont généralement regroupés en deux familles, à savoir : Modèles non linéaires mais linéarisables ; Modèles non linéaires et non linéarisables. Pour la première famille de ces modèles, le plus souvent, une transformation logarithmique suffit à les rendre linéaires, ce qui, du reste, valide leur estimation par les MCO. Et c’est précisément sur ce type de modèles que porte ce chapitre. Quant { la deuxième famille de ces modèles, il convient d’appliquer les méthodes d’estimation non linéaire, que nous n’abordons pas directement ici. A titre d’avertissement, le présent chapitre n’a pour objet la présentation de nouvelles méthodes d’estimation. Il présente plut t les artifices de calcul – entendus comme préalables – nécessaires à l’estimation, par les MCO, de la première famille de modèles non linéaires. V.1. Linéarisation des modèles non linéaires A. Le modèle double log ou log – log Forme : Yt =A [a] En appliquant la transformation logarithmique, il vient : LnYt = LnA + βLnXt + ut [b] A présent, en posant : = LnYt ; β0 = LnA; β1 = β et =LnXt, on retrouve ainsi le modèle linéaire bien connu, qu’on peut écrire de la sorte : = β0 + β1 + ut Exemple : la forme Cobb – Douglas [c] Q =AKαLβ. Avantage : une lecture directe des élasticités. ‡‡‡‡‡‡‡‡‡‡ Forme : Yt = [m] La transformation logarithmique de [m] donne : LnYt = β0 + β1Xt + ut [n] Exemple : La formule de l’intérêt composé Yt = Y0(1 + r)t [o] où Y0 est une constante, (1 + r) un paramètre et t le temps (la variable exogène). = où β = B. Le modèle log – lin (ou semi-log) La transformation logarithmique de [o] donne : où = + = LnYt, + ut =LnY0, =Ln(1 + r), [p] = t. Avantage : Le modèle [o] permet le calcul du taux de croissance d’une part, et de la tendance (croissante ou décroissante) caractérisant l’évolution de Yt selon le signe de (positif ou négatif) d’autre part. La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a été proposée en 1928 ; alors que la CES, appelée aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a été introduite en 1961. 76 Ass. Cédrick Tombola M. C. Les modèles du trend linéaire où D. Le modèle lin – log (ou semi-log) Forme : = β0 + β1t+ ut = LnYt et t =tendance ou trend Forme : [i] En appliquant la transformation logarithmique, il vient : Avantage : Le modèle de trend linéaire, appelé également modèle de tendance, peut être utilisé en lieu et place du modèle log – lin afin d’analyser le comportement (croissant ou décroissant) du trend linéaire affectant Yt. En effet, la tendance sera croissante si le coefficient associé à la variable t est positif et décroissante dans le cas contraire. Yt = β0 + β1LnXt+ ut [ii] où β1 est une semi-élasticité, soit : = β1 = [iii] L’élasticité peut être retrouvée, en divisant la relation [iii] par Yt. Et cela est beaucoup plus commode en prenant les moyennes comme suit : = [iv] Si l’on pose =LnXt, la relation [ii] est ramenée à la formulation standard antérieure comme suit : Yt = β 0 + β + ut [v] Avantage : Ce modèle permet l’estimation des modèles d’Engle : « La dépense totale consacrée à la nourriture tend à croître selon une progression arithmétique lorsque la dépense totale augmente en progression géométrique. Cette forme peut servir également au traitement de l’hétéroscédasticité dont il sera question plus loin. E. Les modèles réciproques Forme 1 : Yt = β0 + β1 + ut F. Le modèle log – hyperbole (ou log – inverse) [j] La forme linéaire standard est retrouvée en posant simplement = , ainsi obtient-on : Yt = β 0 + β 1 + ut [k] Cette spécification est notamment utilisée pour estimer la courbe de Phillips, qui est la relation entre l’inflation et le taux de chômage. Forme 2 : = β0 + β1Xt + ut Forme : Yt = En appliquant la transformation logarithmique sur cette forme, on obtient : LnYt = β0 + β1 Cette forme s’apparente beaucoup { la forme réciproque sauf que la variable dépendante est exprimée sous forme logarithmique. Quand Xt augmente, LnYt diminue. [l] En posant En posant = , il vient : = β0 + β1Xt+ ut + ut = et =LnYt, on obtient : = β0 + β1 [m] + ut Le modèle log-hyperbole est apte à représenter une fonction de production de court terme. G. Le modèle polynomial Forme : Yt = Une manipulation simple permet d’écrire ce modèle sous la forme : Ass. Cédrick Tombola M. 77 Yt = où =Xt ; = ;…; = Le modèle polynomial trouve des applications dans les cas suivants : L’estimation d’une tendance pour une chronique accusant, par exemple, deux points de retournement : Yt = β0 + β1t2 + β2t3 + ut où t représente le temps. L’estimation d’une fonction de coût total : CTt = β0 + β1Qt + β2 + ut où CT est le coût total et Q la quantité produite. V.2. Modèles de cycle de vie du produit Les modèles de cycle de vie d’un produit, appelés parfois modèles de diffusion, ont pour objet de déterminer l’évolution probable des ventes d’un produit connaissant le seuil de saturation, puisqu’il est vérifié que les ventes évoluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu’{ maturité (seuil de saturation) qui correspond { un point d’inflexion { partir duquel le rythme de croissance des ventes diminue. A. Le modèle logistique B. Le modèle de Gompertz Le modèle logistique est aussi connu sous le nom de modèle (ou courbe) de Verhulst, du nom de son auteur Pierre-François Verhulst, qui le proposa en 1838. Le modèle de Gompertz, du nom du mathématicien anglais Benjamin Gompertz, a été introduit en 1825. Forme : [e] où Ymax représente le seuil de saturation et r la vitesse de diffusion. Une manipulation triviale permet d’écrire : Forme : Yt = où [x] est le seuil de saturation et r la vitesse de diffusion. Deux transformations logarithmiques sont nécessaires pour linéariser ce type de modèles. Dans un premier temps, la transformation logarithmique du modèle [x] donne : Après application de logarithmique, il vient : la transformation LnYt = brt + a Après manipulation et en log-linéarisant, il vient : = β0 + β1t+ ut [f] = β0 + β1t+ ut [y] où ; β0 =Lnb et β1=Lnr Note : L’estimation par OLS de ces deux modèles n’est possible que si l’on ne connaît, ou plut t que l’on postule la valeur du seuil de saturation. où ; β0 =Lnb et β1=Lnr 78 Ass. Cédrick Tombola M. ANNEXE DU CHAPITRE V La commande NLS d’Eviews En effet, plusieurs modèles non linéaires se prêtent facilement, comme vu précédemment, à la linéarisation, ce qui rend beaucoup plus aisée leur estimation par la méthode des MCO. Mais lorsque cette gymnastique de linéarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut, grâce { la commande NLS d’Eviews – qui donne l’estimation fournie par la méthode des moindres non linéaires – , directement estimer de tels modèles sans avoir besoin de les rendre linéaires. Exemple En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après : Q= Jour Q K L 1 25 12 3 2 28 13 5 3 32 10 9 4 35 15 8 5 39 22 12 6 37 17 13 7 44 21 10 8 40 23 11 9 38 25 14 10 45 20 19 Solution La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les résultats suivants : Dependent Variable: Q Method: Least Squares Sample (adjusted): 1 10 Included observations: 10 after adjustments Convergence achieved after 8 iterations Q=C(1)*K^C(2)*L^C(3) C(1) C(2) C(3) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Coefficient Std. Error t-Statistic Prob. 12.45037 0.190189 0.232165 3.586039 0.125849 0.078957 3.471900 1.511251 2.940398 0.0104 0.1745 0.0217 0.823231 0.772726 3.081806 66.48269 -23.66117 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat 36.30000 6.464433 5.332234 5.423009 2.381746 où les coefficient c(2) et c(3) donnent directement les élasticités du produit au capital et au travail, respectivement. Ass. Cédrick Tombola M. 79 Exercices sur les modèles de régression non linéaires Exercice 1 Soit le modèle log-linéaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-après qui montre l’évolution des ventes d’une entreprise au cours de 15 mois, on demande d’ajuster cette fonction et de trouver Y0 et r. N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Interpréter les résultats. Exercice 2 On dispose des informations suivantes sur les ventes des syllabus d’économétrie : Année Ventes 2000 24 2001 36 2002 45 2003 49 2004 54 2005 63 2006 78 2007 79 2008 83 2009 99 On Se propose d’ajuster, par OLS, sur ces données une fonction du type : Yt = a) Effectuer cet ajustement en supposant que la valeur du coefficient β0 = 3 ; b) Donner la valeur de r ; c) Calculer le coefficient de détermination R2 ; Exercice 3 Mêmes données et mêmes questions qu’{ l’exercice 2, en ajustant le modèle suivant : On prendra Ymax = 10. Exercice 4 En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après : Q= Jour Q K L - 1 25 12 3 2 28 13 5 3 32 10 9 4 35 15 8 5 39 22 12 6 37 17 13 Calculer le R2 et le 2. Mener le test des rendements d’échelle. Les rendements { l’échelle sont-ils constants ? 80 Ass. Cédrick Tombola M. .VI. VIOLATION DES HYPOTHESES DE BASE En présentant la méthode des moindres carrés ordinaires, nous avions émis un faisceau d’hypothèses de base§§§§§§§§§§, sous respect desquelles cette méthode fournissait les meilleurs estimateurs linéaires, convergents et sans biais, et que le théorème de Gauss-Markov était vérifié. Cependant, dans la pratique, il est possible que l’une ou l’autre de ces hypothèses fondamentales soit relâchée. Ce chapitre présente donc à la fois les tests de vérification et les stratégies à adopter en cas de violation éventuelle de l’une ou l’autre hypothèse. VI.1. Autocorrélation des erreurs A. Problème Il y a autocorrélation des erreurs lorsque l’hypothèse est violée. La conséquence directe est que les estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus efficients, puisque n’ayant plus une variance minimale. Formellement, on a : En absence d’autocorrélation Y = Xβ + U E(U) = 0 E(UU’) = En présence d’autocorrélation Y = Xβ + U E(U) = 0 E(UU’) = Par conséquent les t de Student et F de Fisher ne sont plus utilisables. Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant sur séries temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de corrélation spatiale des résidus, qui ne nous intéresse pas directement ici. B. Tests de détection On recourt généralement { deux tests pour détecter l’éventuelle autocorrélation des erreurs : le test de Durbin et Watson et le LM – Test de Breush – Godfrey. Le test de Durbin et Watson Soit le modèle linéaire simple ci-après : [6.1] Yt = β0 + β1Xt + ut Le test très populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson qui l’on proposé en 1951, permet de détecter une autocorrélation d’ordre 1, AR(1), selon la forme : [6.2] ut = ρut–1 + vt où vt est un bruit blanc*********** et (condition de convergence) §§§§§§§§§§ Erreurs homoscédastiques, non autocorrélées et normalement distribuées. De plus la matrice (X’X) doit être non singulière, ce qui correspond { assumer l’absence de multicolinéarité. *********** Voir annexe 3. Ass. Cédrick Tombola M. 81 On fait donc l’hypothèse, pour des raisons de simplification, que l’erreur n’est liée qu’{ son passé immédiat. Et l’estimateur de ρ, basé sur les résidus et issus de la relation [6.2], est donné par : [6.3] Or, si n +∞, = , ce qui permet d’écrire la relation [6.3] de la sorte : [6.4] où est le coefficient de corrélation linéaire de Bravais – Pearson. Par conséquent, varie dans l’intervalle [– 1, + 1]. Les hypothèses pour mener le test DW sont : La statistique associée à ce test est : [6.5] DW = d = Pour comprendre pourquoi d est une statistique pertinente pour tester l’autocorrélation, on réécrit d comme suit : d= En éclatant cette somme en ses composantes, on a : [6.6] d= Connaissant la relation [6.3], et en sachant que pour grands échantillons, [6.7] DW=d = , [6.5] devient : ) Il ressort donc de [6.6] que DW varie de 0 à 4 : Valeur de =1 =0 =– 1 Valeur conséquente de DW DW =0 DW=2 DW = 4 Implications Autocorrélation positive Absence d’autocorrélation Autocorrélation négative Connaissant la taille de l’échantillon n, le nombre des variables explicatives k et le risque α (5% sauf indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de mener le test en situant la statistique calculée DW dans l’une des zones du schéma ci-après : Ass. Cédrick Tombola M. 2 4 – dU 4 – dL Doute Zone I Autocorrélation positive dU Doute dL 0 Zone II Absence d’autocorrélation 82 Zone III Autocorrélation positive On dira donc qu’il y a autocorrélation des erreurs (ou présomption d’autocorrélation zone de doute ou zone d’indétermination) si la statistique DW calculée tombe soit dans la zone I, dans l’une de deux zones de doute ou dans la zone III. La zone II étant la seule zone où l’on conclurait { l’indépendance des erreurs. Note importante : La statistique DW ne s’interprète pas lorsque le modèle est spécifié en coupe instantanée ; Pour mener le test DW, il est nécessaire que le modèle comporte un terme constant. Pour les modèles sans terme constant, il existe des tables statistiques appropriées ; Dans le cas où la régression comporte, parmi les variables explicatives, la variable dépendante retardée Yt–1 et que les résidus sont autocorrélés d’ordre 1, la statistique DW est alors biaisée vers 2. Elle ne peut donc être utilisée directement pour tester l’autocorrélation. La statistique h développée par Durbin (1970) doit alors être utilisée. Le LM – Test de Breusch – Godfrey [BG] Comme cela vient d’être expliqué, le test DW ne permet de tester qu’une autocorrélation d’ordre 1, soit AR(1). Or, il est tout à fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent être : AR(2) : ut = ρ1ut–1 + ρ2ut–2 + vt AR(3) : ut = ρ1ut–1 + ρ2ut–2 + ρ3ut–3 + vt AR(P) : ut = ρ1ut–1 + ρ2ut–2 + … + ρput–p + vt A cet effet, Trevor Breusch et Leslie Godfrey ont, séparément, proposé, respectivement en 1979 et 1978, un test – qui porte leurs noms, appelé aussi test du multiplicateur de Lagrange LM – beaucoup plus complet que le test DW en ce qu’il permet de tester une autocorrélation des erreurs d’ordre supérieur { 1, et qui reste valide en présence de la variable dépendante décalée en tant que variable explicative. Soit le modèle linéaire simple de l’équation [6.1] : Yt = β0 + β1Xt + ut où ut est à présent AR(p), p étant à déterminer. Comme le test DW, le test BG teste l’H0 d’absence d’autocorrélation contre H1 de présence d’autocorrélation, et se déroule en trois étapes suivantes : (1). Estimer par les MCO le modèle [6.8] et tirer les résidus e t de cette estimation ; (2). Estimer par les MCO l’équation intermédiaire suivante : [6.8] et = β0 + β1Xt + ρ1et–1 + ρ2et–2 + … + ρpet–p + ut Puis y tirer la valeur du R2. 4 Ass. Cédrick Tombola M. 83 (3). Calculer la statistique du test, sachant que ce test peut être mené à deux niveaux : Soit effectuer un test de Fisher classique de nullité des ρ i, comme suit : Et la statistique du test est dans ce cas : F où K est le nombre des paramètres du modèle [6.8] Critère de décision : Si F > F [(K – 1) ; (n – K)] RH0, il y a autocorrélation. Soit recourir à la statistique LM qui suit une distribution du introduits dans le modèle [6.8]. On a : LM = n R Critère de décision : Si LM > (p) (p). P étant le nombre de retards 2 RH0, il y a autocorrélation. C. Correction d’une autocorrélation Lorsque le test conclut { l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode des Moindres Carrés Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste simplement { l’application des MCO sur les données transformées. Revenons au modèle simple { une variable où le terme d’erreur suit un processus AR(1) : [6.9] Yt = β0 + β1Xt + ut où ut = ρut –1 + vt En substituant ut, par son expression, dans [6.9], on obtient : [6.10] Yt = β0 + β1Xt + ρut –1 + vt où ut –1= Yt –1 – β0 – β1Xt –1 Et en tenant compte de ut –1, [6.10] devient : [6.11] Yt = β0 + β1Xt + ρ(Yt –1 – β0 – β1Xt –1) + vt En effectuant dans la parenthèse et après manipulation, il vient : [6.12] où = α0 + α1 + v t =Yt – ρYt –1 ; α0 = β0(1 – ρ) ; α1 = β1 et Une telle transformation est appelée : transformation en quasi-différences. = (Xt – ρ Xt –1) Ass. Cédrick Tombola M. 84 Lorsque ρ connu, l’application des MCO sur ce dernier modèle donne un estimateur BLUE. Le seul inconvénient de la transformation en quasi-différences qui persisterait serait une perte d’information, en l’occurrence et . Afin de contourner cette difficulté, Prais et Winsten (1954) ont proposé de prendre en compte la première observation en utilisant la procédure suivante : et = Procédures d’estimation de ρ Il existe plusieurs méthodes pour estimer ρ, dont les plus populaires sont : La procédure d’estimation directe ; La méthode basée sur la statistique DW ; La méthode itérative de Cochrane-Orcutt. (a) Procédure d’estimation directe (b) Méthode basée sur (c) Méthode itérative de Cochrane-Orcutt la statitistique DW Modèle : Y = Xβ + U [A] On suppose que les erreurs suivent un processus AR(1) : ut = ρut –1 + vt A partir des résidus et du A partir de la statistique DW Soit le modèle linéaire simple : modèle [A], estimer ρ par la issue de l’estimation du Yt = β0 + β1Xt + ut formule : modèle [A], et connaissant la où ut = ρut –1 + vt relation [6.7], estimer ρ par la formule : En quasi-différences, on a : Yt – ρYt –1 = β0(1 – ρ) + β1(Xt – ρ Xt –1) + vt ou encore, échantillons : pour grands où est le coefficient de corrélation linéaire. En faisant fi de la première observation que l’on perd, la procédure itérative de Cochrane-Orcutt se présente comme suit : (i) (ii) (iii) (iv) (v) Fixer une première valeur de ρ : on peut soit donner une valeur à priori, soit =0, soit encore partir de la valeur de ρ telle que calculée en (a) ; Utiliser cette valeur de ρ pour estimer le modèle en quasidifférences ci-dessus ; A partir des résidus issus de l’estimation effectuée en (ii), réestimer ρ par la formule donnée en (a), ce qui permet d’obtenir un ρ1 ; Utiliser le nouveau ρ calculé en (iii) pour estimer à nouveau le modèle en quasi-différences. Les résidus issus de cette régression permettent d’obtenir un ρ2 : Et ainsi de suite. Le processus itératif se termine quand on note la convergence, c’est-à-dire quand les coefficients estimés ne varient plus sensiblement d’une régression { l’autre Ass. Cédrick Tombola M. 85 Note : Le logiciel Eviews permet automatiquement d’effectuer la correction de l’autocorrélation des erreurs sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement d’insérer, à la commande d’estimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter également que la correction de l’autocorrélation n’est acceptée que si le coefficient associé au processus introduit dans le modèle [AR(1), MA(1), etc.] est significatif. VI.2. Hétéroscédasticité A. Problème D’un point de vue étymologique, le terme hétéroscédasticité comprend deux mots. D’abord « hétéro » qui fait référence à « plusieurs », ensuite le terme « scédasticité », associé à la « fonction scédastique », qui signifie « variance conditionnelle ». Hétéroscédasticité signifie donc différentes variances. On dit qu’il y a hétéroscédasticité lorsque l’hypothèse de la constance de l’erreur , émise lors de la présentation de la méthode des moindres carrés ordinaires, est violée. Comme pour l’autocorrélation, la conséquence directe de cette violation est que les estimateurs des MCO, bien que encore non biaisés, ne sont plus efficients, puisque n’ayant plus une variance minimale. Et par conséquent les t de Student et F de Fisher ne sont plus utilisables { des fins d’inférence. Il faut noter également que l’hétéroscédasticité est un problème qui se pose plus dans les modèles spécifiés en coupe transversale que ceux des chroniques. B. Tests de détection Il existe toute une batterie de tests permettant de détecter l’ hétéroscédasticité, dont notamment††††††††††† : Le test de Park Le test de Goldfeld – Quandt Le test de Glejser Le test de Breusch – Pagan – Godfrey Le test d’égalité des variances Le test de Koenker – Basset Le test de Harvey Le test de rang de Spearman Le test de White Le test ARCH Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utilisés dans la pratique. Le test de White (1980) Soit le modèle linéaire multiple suivant : [6.13] Yt = β0 + β1X1t + β2X2t + β3X3t + ut Le test de White, proposé par Halbert White en 1980, teste les hypothèses suivantes : ††††††††††† J’invite le lecteur qui désire prendre connaissance de tous ces tests à consulter les manuels de Kintambo (2004) et Bosonga (2010). Ass. Cédrick Tombola M. 86 Le test de White présente l’avantage qu’il ne nécessite pas que l’on spécifie les variables qui sont { la cause de l’hétéroscédasticité. Pour tester H0, ce test peut se faire de deux façons ci-après : (i) Test de White avec termes croisés, qui est basé sur l’estimation du modèle : [6.14] où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur. (ii) Test de White sans termes croisés, basé sur l’estimation du modèle suivant : [6.14] où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur. Ce est basé sur la statistique LM, donnée par : LM = n R2 (m) où m est le nombre de régresseurs (exogènes) dans l’expression estimée. Critère de décision : Si LM > (m) RH0, il y a hétéroscédasticité. Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH) Les hypothèses à formuler pour ce test sont : Partant des résidus et issus de l’estimation du modèle [6.13], la détection de l’hétéroscédasticité par le test ARCH se fait en régressant le carré des résidus et sur leurs décalages‡‡‡‡‡‡‡‡‡‡‡ puissance deux, soit : [6.15] Le test est fondé soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) : LM = n R2 (m) où m est le nombre de régresseurs (exogènes) présents dans le modèle [6.15]. Critère de décision : Si LM > ‡‡‡‡‡‡‡‡‡‡‡ (m) RH0, il y a hétéroscédasticité. Le nombre de retards étant à déterminer. Ass. Cédrick Tombola M. 87 C. Correction de l’hétéroscédasticité Soit le modèle : Yi = β0 + β1Xi + ui La correction de l’hétéroscédasticité se fait en appliquant les moindres carrés pondérés, c’est-à-dire les moindres carrés ordinaires sur l’un des modèles transformés ci-dessous : (1) si E( (2) si E( (3) si E( VI.3. Multicolinéarité§§§§§§§§§§§ A. Problème Il y a multicolinéarité lorsque l’hypothèse de l’orthogonalité des exogènes ou encore de leur indépendance linéaire est relâchée. Dans ce cas, la méthode des moindres carrés ordinaires est défaillante et il devient difficile d’isoler l’impact individuel de chaque exogène sur l’endogène. On distingue généralement deux types de multicolinéarité : la multicolinéarité parfaite ou exacte et la quasi multicolinéarité ou multicolinéarité imparfaite. En cas de multicolinéarité parfaite, la matrice est singulière, et par conséquent son inverse ( )–1 n’existe pas, ce qui rend la méthode OLS complètement défaillante ; il est n’est donc pas possible devant une telle situation d’estimer les paramètres du modèle. Dans la pratique, c’est plut t le cas de quasi multicolinéarité qui est fréquent. En effet, la multicolinéarité imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est proche de 0. La conséquence directe est qu’on aura des valeurs très grandes dans la matrice inverse ( )–1 qui, par la méthode classique, est calculée comme suit : [6.16] Dans [6.16], si ( 0, la matrice ( ( )–1 = )–1 aura des valeurs de plus en plus grandes, la matrice COVA ) également. La conséquence, et donc le problème posé par la multicolinéarité est que, du fait de la valeur élevée des variances des coefficients estimés, les résultats de l’estimation perdent en précision, c’est-à-dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F sont élevés. L’autre problème posé par la multicolinéarité est l’instabilité de paramètre et l’effet de masque qui rend difficile la mise en évidence de la contribution individuelle de différentes variables explicatives sur l’endogène. Note : Si les problèmes d’autocorrélation des erreurs et d’hétéroscédasticité peuvent se poser quel que soit le nombre d’exogènes intervenant dans le modèle, le problème de multicolinéarité, en revanche, n’a de sens que dans un modèle de régression linéaire multiple. §§§§§§§§§§§ La notion de multicolinéarité a été introduite, dans les années 50, par Lawrence Klein. Ass. Cédrick Tombola M. 88 B. Tests de détection Les tests de détection de la multicolinéarité les plus populaires sont le test de Klein et le test de Farrar et Glauber. Le test de Klein Soit le modèle : Le test de Klein se fait en trois étapes que voici : (a) Estimer le modèle [6.17] et calculer le R2 ; (b) Calculer la matrice des coefficients de corrélation linéaire entre variables exogènes, prises deux à deux, soit : (c) Comparer, enfin, le R2 de la régression aux différents coefficients de corrélation. Il y a présomption de multicolinéarité si au moins un des élevé au carré est supérieur au R2. Note : Le test de Klein n’est pas un test statistique au sens test d’hypothèses mais simplement un critère de présomption de multicolinéarité. C’est pourquoi il doit être complété par le test de Farrar et Glauber qui est bien un test statistique. Le test de Farrar et Glauber Le test de Farrar et Glauber teste les hypothèses suivantes : Ce test est basé sur la statistique du , calculée { partir de l’échantillon comme suit : où n est la taille de l’échantillon ; K le nombre de paramètres ; Ln le logarithme népérien et D le déterminant de la matrice des coefficients de corrélation linéaire entre exogènes, soit : Ass. Cédrick Tombola M. 89 D= est le nombre de degrés de liberté. Critère de décision : si > RH0. C. Remèdes à la multicolinéarité Parmi les techniques permettant d’éliminer la multicolinéarité, on peut citer : Augmenter la taille de l’échantillon Appliquer la « Ridge Regression » qui est une réponse purement numérique, il s’agit de transformer la matrice en une matrice ( ) où k est une constante choisie arbitrairement qui et I la matrice unité. Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spécification du modèle, à éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et donc d’être corrélées entre elles, ceci afin d’éviter l’effet masque ************. VI.4. Normalité des erreurs A. Problème Le problème d’absence de normalité se pose lorsque l’hypothèse ut (0, ) est violée. A titre de rappel, l’hypothèse de normalité, émise lors de la présentation de la méthode OLS, est la clé de l’inférence statistique. Elle est donc nécessaire pour mener les tests statistiques et construire les intervalles de confiance. Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le modèle linéaire, impossible car les distributions des estimateurs ne sont plus connues. B. Tests de détection Les tests de normalité ont été rigoureusement présentés dans la partie introductive de ce recueil portant sur les rappels statistiques, le lecteur est donc convié { s’y rapporter. C. Remèdes à la non-normalité des résidus Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon. La transformation de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée. ************ Bourbonnais (2005). Ass. Cédrick Tombola M. 90 Exercices sur le chapitre 6 Exercice 1 Soit le modèle ci-après : Yt = β0 + β1X1t + β2X2t + εt (t= 1, …, n) et n=30 où En l’estimant par OLS, on a obtenu =0,52 et =0,28. On aussi calculé la statistique de Durbin-Watson : d=DW=0,78. a) Effectuer, au seuil de 5%, le test d’hypothèse β2=0. b) Que faut-il penser de l’hypothèse de non autocorrélation des résidus ? Exercice 2 En cherchant { expliquer le phénomène réussite en économétrie, en 2012, l’assistant Dandy Matata a spécifié le modèle suivant : Yi = β0 + β1X1i + β2X2i + εi où Yi est la cote obtenue en économétrie par l’étudiant i ; X1i est la présence au cours d’économétrie et X2i le nombre d’heures d’études consacrées { ce cours. 15 étudiants ont été échantillonnés. L’estimation a permis de calculer la statistique DW = 0.4. Tester l’autocorrélation du premier ordre dans le modèle spécifié par l’assistant Matata. Exercice 3 Soit l’échantillon de taille n=5 : Yt 8 2 6 0 4 ∑Yt=20 X1t 3 1 3 1 2 ∑ X1t=10 X2t 6 2 6 2 4 ∑ X2t=20 (a) Quel est le problème posé par l’estimation du modèle : Yt = a + bX1t + dX2t + ut (b) Comment peut-on le résoudre ? Exercice 4 Au regard des résultats ci-après, sur l’estimation de l’hypothèse de Kuznet en RDC pour la période allant de 1975 à 2011, quel problème, selon vous, s’est posé dans l’estimation de cette relation ? Par quoi le voyezvous ? Ass. Cédrick Tombola M. Variable endogène : IGI Méthode d’estimation : Moindres carrés ordinaires Variables explicatives Coefficients Constante 0.453311 PIBH 0.000813 2 PIBH - 0.00000426 R2 = 0.891141 R2 ajusté = 0.873561 t- statistic 0.784894 0.268563 - 0.772470 91 Probabilité critique 0.4417 0.7910 0.4489 F – stat. = 114.9272 où IGI est le coefficient d’inégalité de GINI et PIBH le PIB réel par habitant. Exercice 5 Le tableau ci-dessous reporte les résultats du test de White, après estimation de la relation entre coefficient d’inégalité de GINI (IGI) et le PIB réel par habitant (PIBH) en RDC. White Heteroskedasticity Test: F-statistic Obs*R-squared 6.482164 Probability 0.004122 10.21371 Probability 0.006055 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/25/12 Time: 15:46 Sample: 1975 2011 Included observations: 37 Variable Coefficient Std. Error t-Statistic Prob. C -18.82177 41.99457 -0.448195 0.6569 LPIB 1.623484 3.731230 0.435107 0.6662 LPIB^2 -0.034949 0.082874 -0.421711 0.6759 R-squared 0.276046 Mean dependent var 0.014520 Adjusted R-squared 0.233461 S.D. dependent var 0.019998 S.E. of regression 0.017509 Akaike info criterion -5.174612 Sum squared resid 0.010423 Schwarz criterion Log likelihood 98.73032 F-statistic 6.482164 Durbin-Watson stat 0.214247 Prob(F-statistic) 0.004122 -5.043997 Travail demandé : Après avoir rappelé les principales caractéristiques de ce test (hypothèses nulle et alternative, principe général du test, règle de décision), commenter les résultats. Conclure quant à la nature des résidus. Rappel : la valeur critique de la loi du Khi-deux à 2 degrés de liberté et au seuil de 5% est égale à 5,991. 92 Ass. Cédrick Tombola M. ANNEXES ANNEXE 1 : TABLES STATISTIQUES Test de Shapiro et Wilk [table des coefficients] n J 1 2 3 4 5 n J 1 2 3 4 5 6 7 8 9 10 n J 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 3 4 5 6 7 8 9 10 0.7071 0.7071 0.0000 0.6872 0.1677 0.6646 0.2413 0.0000 0.6431 0.2806 0.0875 0.6233 0.3031 0.1401 0.0000 0.6052 0.3164 0.1743 0.0561 0.5888 0.3244 0.1976 0.0947 0.0000 0.5739 0.3291 0.2141 0.1224 0.0399 11 12 13 14 15 16 17 18 19 20 0.5601 0.3315 0.2260 0.1429 0.0695 0.0000 0.5475 0.3325 0.2347 0.1586 0.0922 0.0303 0.5359 0.3325 0.2412 0.1707 0.1099 0.0539 0.0000 0.5251 0.3318 0.2460 0.1802 0.1240 0.0727 0.0240 0.5150 0.3306 0.2495 0.1878 0.1353 0.0880 0.0433 0.0000 0.5056 0.3290 0.2521 0.1939 0.1447 0.1005 0.0593 0.0196 0.4963 0.3273 0.2540 0.1988 0.1524 0.1109 0.0725 0.0359 0.0000 0.4886 0.3253 0.2553 0.2027 0.1587 0.1197 0.0837 0.0496 0.0163 0.4808 0.3232 0.2561 0.2059 0.1641 0.1271 0.0932 0.0612 0.0303 0.0000 0.4734 0.3211 0.2565 0.2085 0.1686 0.1334 0.1013 0.0711 0.0422 0.0140 21 22 23 24 25 26 27 28 29 30 0.4643 0.3185 0.2578 0.2119 0.1736 0.1399 0.1092 0.0804 0.0530 0.0263 0.0000 0.4590 0.3156 0.2571 0.2131 0.1764 0.1443 0.1150 0.0878 0.0618 0.0368 0.0122 0.4542 0.3126 0.2563 0.2139 0.1787 0.1480 0.1201 0.0941 0.0696 0.0459 0.0228 0.0000 0.4493 0.3098 0.2554 0.2145 0.1807 0.1512 0.1245 0.0997 0.0764 0.0539 0.0321 0.0107 0.4450 0.3069 0.2543 0.2148 0.1822 0.1539 0.1283 0.1046 0.0823 0.0610 0.0403 0.0200 0.0000 0.4407 0.3043 0.2533 0.2151 0.1836 0.1563 0.1316 0.1089 0.0876 0.0672 0.0476 0.0284 0.0094 0.4366 0.3018 0.2522 0.2152 0.1848 0.1584 0.1346 0.1128 0.0923 0.0728 0.0540 0.0358 0.0178 0.0000 0.4328 0.2992 0.2510 0.2151 0.1857 0.1601 0.1372 0.1162 0.0965 0.0778 0.0598 0.0424 0.0253 0.0084 0.4291 0.2968 0.2499 0.2150 0.1064 0.1616 0.1395 0.1192 0.1002 0.0822 0.0650 0.0483 0.0320 0.0159 0.0000 0.4254 0.2944 0.2487 0.2148 0.1870 0.1630 0.1415 0.1219 0.1036 0.0862 0.0697 0.0537 0.0381 0.0227 0.0076 Ass. Cédrick Tombola M. Test de Shapiro et Wilk [Table des valeurs limites de W] N 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 W ‘95%’ 0.842 0.850 0.859 0.856 0.874 0.881 0.837 0.892 0.897 0.901 0.905 0.908 0.911 0.914 0.916 0.918 0.920 0.923 0.924 0.926 0.927 0.929 0.930 0.931 0.933 0.934 0.935 0.936 0.938 0.939 0.940 0.941 0.942 0.943 0.944 0.945 0.945 0.946 0.947 0.947 0.947 W ‘99%’ 0.781 0.792 0.805 0.814 0.825 0.835 0.844 0.851 0.858 0.863 0.868 0.873 0.878 0.881 0.884 0.888 0.891 0.894 0.896 0.898 0.900 0.902 0.904 0.906 0.908 0.910 0.912 0.914 0.916 0.917 0.919 0.920 0.922 0.923 0.924 0.926 0.927 0.928 0.929 0.929 0.930 93 94 Ass. Cédrick Tombola M. Table de distribution de la loi T de Student [Test bilatéral] (Valeurs de T ayant la probabilité P d'être dépassée en valeur absolue) Pr ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 80 120 ∞ 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.001 0.158 0.142 0.137 0.134 0.132 0.131 0.130 0.130 0.129 0.129 0.129 0.128 0.128 0.128 0.128 0.128 0.128 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.137 0.127 0.127 0.127 0.126 0.126 0.126 0.126 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.253 0.510 0.445 0.424 0.414 0.408 0.404 0.402 0.399 0.398 0.397 0.396 0.395 0.394 0.393 0.393 0.392 0.392 0.392 0.391 0.391 0.391 0.390 0.390 0.390 0.390 0.390 0.389 0.389 0.389 0.389 0.388 0.387 0.386 0.385 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0 537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0 530 0.530 0.529 0.527 0.526 0.524 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0 688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.961 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.845 0.842 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.050 1.046 1.041 1.036 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.263 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 636.619 31.598 12.929 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.649 3.656 3.551 3.460 3.373 3.291 Ass. Cédrick Tombola M. 95 Table de distribution de la loi F de Fisher-Snedecor (Valeurs de F ayant la probabilité α d'être dépassées : F = S12/S22) Nu2 1 2 3 4 3 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ Nu1 = 1 α = 0.05 α = 0.01 161.4 4052.00 18.51 98.49 10.13 34.12 7.71 21.20 6.61 16.26 3.99 13.74 3.39 12.23 3.32 11.26 5.12 10.56 4.96 10.04 4.84 9.65 4.75 9.33 4.67 9.07 4.60 8.86 4.34 8.68 4.49 8.53 4.45 8.40 4.41 8.28 4.38 8.18 4.35 8.10 4.32 8.02 4.30 7.94 4.28 7.88 4.26 7.82 4.24 7.77 4.22 7.72 4.21 7.68 4.20 7.64 4.18 7.60 4.17 7.56 4.08 7.31 4.00 7.08 3.92 6.85 3.84 6.64 Nu1 = 2 α = 0.05 α = 0.01 199.5 4999.00 19.00 99.00 9.55 30.81 6.94 18.00 5.79 13.27 3.14 10.91 4.74 9.35 4.46 8.63 4.26 8.02 4.10 7.56 3.98 7.20 3.88 6.93 3.80 6.70 3.74 6.31 3.68 6.36 3.63 6.23 3.59 6.11 3.53 6.01 3.52 5.93 3.49 5.85 3.47 5.78 3.44 5.72 3.42 5.66 3.40 5.61 3.38 5.37 3.37 5.33 3.33 5.49 3.34 5.43 3.33 5.42 3.32 5.39 3.23 5.18 3.15 4.98 3.07 4.79 2.99 4.60 Nu1 = 3 α = 0.05 α = 0.01 213.7 3403.00 19.16 99.17 9.28 29.46 6.59 16.69 5.41 12.06 4.76 9.78 4.33 8.43 4.07 7.39 3.86 6.99 3.71 6.33 3.59 6.22 3.49 5.93 3.41 5.74 3.34 5.56 3.29 5.42 3.24 5.29 3.20 5.18 3.16 5.09 3.13 5.01 3.10 4.94 3.07 4.87 3.05 4.82 3.03 4.76 3.01 4.72 2.99 4.68 2.98 4.64 2.96 4.60 2.95 4.57 2.93 4.34 2.92 4.31 2.84 4.31 2.76 4.13 2.68 3.93 2.60 3.78 Nu1 = 4 α = 0.05 α = 0.01 224.6 5625.00 19.25 99.25 9.12 28.71 6.39 13.98 5.19 11.39 4.53 9.13 4.12 7.85 3.84 7.01 3.63 6.42 3.48 5.99 3.36 5.67 3.26 5.41 3.18 5.20 3.11 5.03 3.06 4.89 3.01 4.77 2.96 4.67 2.93 4.58 2.90 4.50 2.87 4.43 2.84 4.37 2.82 4.31 2.80 4.26 2.78 4.22 2.76 4.18 2.74 4.14 2.73 4.11 2.71 4.07 2.70 4.04 2.69 4.02 2.61 3.83 2.32 3.65 2.43 3.48 2.37 3.32 Nu1 = 5 α = 0.05 α = 0.01 230.2 5764.00 19.30 99.30 9.01 28.24 6.26 13.32 5.03 10.97 4.39 8.75 3.97 7.45 3.69 6.63 3.48 6.06 3.33 5.64 3.20 5.32 3.11 5.06 3.02 4.86 2.96 4.69 2.90 4.56 2.85 4.44 2.81 4.34 2.77 4.25 2.74 4.17 2.71 4.10 2.68 4.04 2.66 3.99 2.64 3.94 2.62 3.90 2.60 3.86 2.39 3.82 2.37 3.78 2.56 3.75 2.34 3.73 2.53 3.70 2.43 3.31 2.37 3.34 2.29 3.17 2.21 3.02 S12 est la plus grande des deux variances estimées. avec n degrés de liberté au numérateur. 96 Ass. Cédrick Tombola M. Table de Durbin-Watson La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 5 %. 2 0 Autocorrélation positive Absence d’autocorrélation DOUTE dL 4 du Autocorrélation négative DOUTE 4-du 4-dL k=1 k=2 k=3 k=4 k=5 n dL du dL du dL du dL du dL du 15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21 16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15 17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.91 0.67 2.10 18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06 19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02 20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99 21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96 22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94 23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92 24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90 25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89 26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88 27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86 28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85 29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84 30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83 31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83 32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82 33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81 34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81 35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80 36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80 37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80 38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79 39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79 40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79 45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78 50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77 55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77 60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77 65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77 70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77 75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77 80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77 85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77 90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78 100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 k : nombre de variables exogènes; n : nombre d’observations et α = 0.05. Ass. Cédrick Tombola M. Table de Durbin-Watson La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 1 %. 2 0 Autocorrélation positive n 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 Absence d’autocorrélation DOUTE dL 4 du Autocorrélation négative DOUTE 4-du 4-dL k=1 k=2 k=3 k=4 k=5 dL du dL du dL du dL du dL du 0.81 1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96 0.84 1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90 0.87 1.10 0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85 0.90 1.12 0.80 1.26 0.71 1.42 0.61 1.60 0.52 1.80 0.93 1.13 0.83 1.26 0.74 1.41 0.65 1.58 0.56 1.77 0.95 1.15 0.86 1.27 0.77 1.41 0.68 1.57 0.60 1.74 0.97 1.16 0.89 1.27 0.80 1.41 0.72 1.55 0.63 1.71 1.00 1.17 0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69 1.02 1.19 0.94 1.29 0.86 1.40 0.77 1.53 0.70 1.67 1.04 1.20 0.96 1.30 0.88 1.41 0.80 1.53 0.72 1.66 1.05 1.21 0.98 1.30 0.90 1.41 0.83 1.52 0.75 1.65 1.07 1.22 1.00 1.31 0.93 1.41 0.85 1.52 0.78 1.64 1.09 1.23 1.02 1.32 0.95 1.41 0.88 1.51 0.81 1.63 1.10 1.24 1.04 1.32 0.97 1.41 0.90 1.51 0.83 1.62 1.12 1.25 1.05 1.33 0.99 1.42 0.92 1.51 0.85 1.61 1.13 1.26 1.07 1.34 1.01 1.42 0.94 1.51 0.88 1.61 1.15 1.27 1.08 1.34 1.02 1.42 0.96 1.51 0.90 1.60 1.16 1.28 1.10 1.35 1.04 1.43 0.98 1.51 0.92 1.60 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 0.94 1.59 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 0.95 1.59 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 0.97 1.59 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 0.99 1.59 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65 k : nombre de variables exogènes; n : nombre d’observations et α = 0.01. 97 Ass. Cédrick Tombola M. 98 ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS Les machines un jour pourront résoudre tous les problèmes, mais jamais aucune d'entre elles ne pourra en poser un ! Albert Einstein Lancement de l’écran d’accueil Eviews Une fois installé, le logiciel Eviews est lancé comme tout autre en double-cliquant sur l’icône Eviews au bureau. Barre de menu Voici comment se présente Eviews au lancement : Barre de commande Création d’une feuille de travail [workfile] Le travail sur Eviews commence par la création d’une feuille de travail où l’on spécifie essentiellement la fréquence des données [annuelles, trimestrielles, mensuelles, etc.], leur nature [régulières, irrégulière, panel] et la taille de l’échantillon. Cette opération peut se faire de deux manières : (a) Dans la barre de menu, aller dans File New Une boîte de dialogue s’ouvre où il faut distinguer trois zones. Workfile Ici, préciser la fréquence des données et la taille de l’échantillon. Cette zone change selon que les données sont régulières [pour séries temporelles], irrégulières [pour séries en coupes transversales] ou en panel. Dans cette zone, donner un nom à la feuille de travail créée. Comme sur Excel, Eviews donne également la possibilité de travailler sur plusieurs pages. Dans page on peut les particulariser en tapant un nom. Ici, préciser si les données sont régulières, irrégulières ou en panel] Ass. Cédrick Tombola M. 99 Supposons que l’on ait une série temporelle annuelle, qui va de 2000 à 2010. Il suffira de choisir : - Dated regular frenquency dans l’onglet Workfile structure type Annual dans l’ongle Frenquency - Puis préciser la taille de l’échantillon dans Start date et End date. Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette première page [EXERCICE par exemple] : En cliquant sur OK, la feuille de travail est créée. (b) Dans la barre de commande, saisir la commande create a 2000 2010 Note : Eviews n’est pas sensible à la casse ! Création des variables et saisie des données dans Eviews Considérons, pour la période 2000-2010, les statistiques sur le taux de croissance du PIB [notée TCPIB] et le taux de chômage [notée CHOM], produites par la BCC. Pour créer les deux séries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis Enter. Une fois les deux séries créées, on peut soit : - saisir les données comme on le ferait sur Excel si les données sont saisies sur Excel, les copier-coller, série par série [après avoir pris soin de remplacer toutes les virgules éventuelles par des points] importer les données à partir d’Excel dans Eviews A partir d’Excel, importation des données dans Eviews Suivre les étapes ci-après : 1. Enregistrer les données saisies sur Excel sous Excel 97-2003, en ayant en mémoire juste les noms donnés aux séries, puis fermer le fichier ; 2. Dans Eviews, créer une feuille de travail avec la même taille d’échantillon que les données enregistrées sur Excel. Puis créer les variables avec les mêmes noms que sur Excel. Import Read Text-Lotus-Excel… Une boîte de dialogue apparaît où il faut reprendre le nom du fichier Excel. Rechercher le fichier où il a été enregistré, puis le sélectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider. 4. Une nouvelle boîte de dialogue apparaît. Là, dans Names of series or number if named in file, taper les noms des séries dans le même ordre que sur Excel, puis OK. 3. Dans la barre de Menu Eviews, aller dans File Ass. Cédrick Tombola M. 100 Illustration de l’étape 3 Illustration de l’étape 4 En validant, Eviews importe automatiquement toutes les données à partir d’Excel. Statistique descriptive des données et graphiques En un clic, Eviews peut également fournir les paramètres essentiels de position, de dispersion et de forme d’une série. Ce qui permet par exemple, pour grand échantillon, de trancher sur la conformité d’une distribution à la loi normale à partir de la statistique de Jarque – Bera. Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)]. Pour les deux séries de notre exemple, on obtient : Ass. Cédrick Tombola M. 101 On lit par exemple, pour chaque série, sa Moyenne [Mean], sa Médiane [Median], son Maximum, son Minimum, son Ecart-Type [Std. Dev.], son coefficient d’asymétrie [Skewness], son coefficient d’aplatissement [Kurtosis], sa statistique Jarque – Bera, etc De même, il y a lieu d’avoir les mêmes résultats, dans la barre de commande, saisir la commande show TCPIB CHOM puis valider, dans la fenêtre qui s’ouvre, aller dans View Descriptive Stats Common Sample. Graphiques Dans la barre de commande, saisir les commandes : scat TCPIB CHOM [pour un nuage des points] line TCPIB CHOM [pour avoir des lignes] Pour avoir d’autres types de graphiques proposés par Eviews, dans la fenêtre des données, aller dans View Graph. Puis valider le graphique de son choix. Estimation du coefficient des coefficients de corrélation de Bravais – Pearson et de Spearman Après avoir affiché les deux variables que l’on veut mettre en cause, il suffit d’aller dans View Covariance Analysis. En validant, Eviews renvoie une boîte, où on a la possibilité de choisir soit un coefficient paramétrique (Bravais-Pearson) ou non paramétrique (Spearman) : Ass. Cédrick Tombola M. 102 Si on choisit par exemple ordinary [corrélation paramétrique, Bravais-Pearson], on obtient : Covariance Analysis: Ordinary Date: 06/21/12 Time: 04:18 Sample: 1 11 Included observations: 11 TCPIB CHOM CHOM TCPIB TCPIB CHOM Correlation t-Statistic Probability Observ. 1.000000 -0.677304 1.000000 -----2.761860 ----- ----0.0220 ----- 11 11 11 Eviews renvoie le coefficient, son Student et la probabilité critique, ce qui facilite beaucoup l’interprétation des résultats, avec comme critère : rejeter H0 si probabilité critique < au seuil de signification. Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chômage et la croissance du PIB en RDC, pour la période 2000-2010, la loi d’Okun se vérifie-t-elle ? Estimation par OLS du modèle linéaire et tests Pour estimer par OLS, il suffit d’aller dans Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l’ordre apparaissant dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode d’estimation – pour notre cas LS ou Least squares – et valider. Le même résultat peut être aussi obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi de nom de la variable endogène C noms des variables exogènes séparées deux à deux par un espace Pour estimer un modèle sans terme constant, il suffit de retirer C dans la commande à passer. Tests Après avoir lancé la commande d’estimation par OLS, tous les tests portant sur les résidus figurent dans l’onglet Residuals Tests. 103 Ass. Cédrick Tombola M. ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON Laboratoire d’Analyse – Recherche en Economie Quantitative One pager Avril 2012 Numéro-010 Lien : http://www.lareq.com Processus stochastique et absence de trend Une interprétation prudente et plus attentive Cédrick Tombola Muke "Dieu ne joue pas aux dés" Albert Einstein Avertissement Ce papier est écrit dans l’objectif de mettre en garde contre le risque des conclusions erronées lors des tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est écrit au moment où, parmi la plupart de nos étudiants du niveau de la licence, la mauvaise procédure et la mauvaise interprétation de ces tests ont gagné le terrain. L’objet de notre papier repose sur le fait que nombre d’économètres en herbe, en menant ces tests, oublient que ceux-ci considèrent que la composante déterministe suit une tendance linéaire et qu’un processus DS (stationnaire en dème différence) n’exclut pas la possibilité d’un trend d’un autre type. De plus, ironie du sort, on ne pense à détecter la nature du trend que si les tests concluent à une non – stationnarité déterministe et qu’il convient d’appliquer l’écart à la tendance. Ce qui, curieusement, revient à accepter la possibilité d’avoir un trend de type non linéaire dont on ne s’est pas donné la peine de détecter au début du test. Que faire ? Ce papier se propose de répondre, prudemment, à cette question, d’abord en privilégiant les aspects théoriques, ensuite en considérant une étude des cas qui permet de mettre en exergue la problématique soulevée ci-dessus. I. Processus non stationnaire A titre de rappel, un processus est stationnaire, au sens faible, si ses moments d’ordre 1 et d’ordre 2 sont indépendants du temps. Dans le cas contraire, il est dit non – stationnaire. Pour ce dernier type de chroniques, l’une au moins de trois conditions ci-après est violée : (i) E(Yt) = μ (ii) E( (iii) Cov (Yt, Yt+k) = γk ou γ-k )= Les travaux pionniers de Nelson et Plosser (1982), qui ont souligné la présence d’une racine unitaire dans les principales séries macroéconomiques, distinguent en effet deux types de processus dans la famille des processus non – stationnaires : Ass. Cédrick Tombola M. 104 Les processus TS [Trend Stationary] qui s’expriment comme une fonction du temps et d’un bruit blanc : Yt = f(t) + Zt où Zt est un bruit blanc [white noise] Ce type de processus est rendu stationnaire en lui retirant sa tendance déterministe [Zt = Yt - f(t)]. Les processus DS [Differency Stationary] qui sont caractérisés par la présence d’au moins une racine unitaire. De tels processus sont rendus stationnaires après d différences, (1 – B)dYt. D’un point de vue économique, un processus TS implique que les chocs aléatoires frappant l’économie n’auront qu’un effet transitoire sur l’évolution de la chronique qui aura tendance ensuite à revenir sur son trend de long terme stable. En revanche, les chocs frappant l’économie auront un effet persistant et durable sur l’évolution de la chronique si le processus est DS. II. Tests de non – stationnarité Le but et l’avantage des tests de non – stationnarité consistent en la confirmation ou non de la non stationnarité46, en la détermination du type de processus et en la précision de la bonne méthode de stationnarisation. On fait généralement deux catégorisations de ces tests, synthétisées dans le tableau ci-après. Tableau 1. Catégorisation de tests de non stationnarité Catégorisation quant aux hypothèses testées Tests d’H0 de présence de racine unitaire - Test Dickey – Fuller [DF] Tests d’H0 d’absence de racine unitaire - Test de Kwiatkowski – Phillips – Schmidt – Shin - Test Augmented Dickey – Fuller [ADF] [KPSS] - Test de Phillips – Perron [PP] - Test de Ng – Perron - Etc. Catégorisation portant sur le type de trend pris en compte Tests basés sur une tendance linéaire Tests basés sur une tendance non linéaire - Test DF - Tendance polynomiale : Test de Ouliaris, Park et - Test ADF Phillips - Test PP - Tendance linéaire par morceaux et chocs : test - Test de Ng – Perron de Perron - Test KPSS - Etc. La critique que nous formulons dans ce papier concerne essentiellement l’interprétation des résultats de tests ADF et PP. 46 En effet, un examen graphique est parfois assez éloquent pour se prononcer sur la non – stationnarité d’une chronique. 105 Ass. Cédrick Tombola M. Tests ADF et PP : la composante déterministe suit une tendance linéaire Dickey et Fuller (1976) sont les premiers à avoir fourni un ensemble d’outils statistiques formels pour détecter la non – stationnarité dans un processus autorégressif du premier ordre. Dans leurs premiers développements, ils ont assumé que le processus εt était un bruit blanc, or rien, à priori, ne conduit à la satisfaction d’une telle hypothèse. La prise en compte de cette faiblesse a conduit les deux auteurs à proposer, en 1981, un test augmenté (ADF). Le test de Phillips - Perron47, en revanche, propose une correction non paramétrique des tests de Dickey – Fuller afin de tenir compte des erreurs hétéroscédastiques. La procédure des tests ADF et PP est basée sur l’estimation, par les MCO, de trois modèles autorégressifs, en intégrant tous les retards significatifs en différences premières, suivants : [1] ∆Yt = ρYt-1 + + εt [2] ∆Yt = c + ρYt-1 + [3] ∆Yt = c + bt + ρYt-1 + + εt + εt Le modèle [3] est le modèle général où la composante déterministe suit un trend linéaire (t). Rappelons que les tests ADF et PP sont des tests d’hypothèse nulle de présence de racine unitaire et portent sur le paramètre ρ : H0 : ρ = 0 [non stationnarité ou présence de racine unitaire] H1 : ρ < 0 [stationnarité ou absence de racine unitaire] La procédure du test est la suivante. Tableau 2. Procédure du test de non stationnarité Modèle à Conclusion du test estimer 1. Estimer le modèle [3] Tester b Processus Il y a un trend linéaire TS Méthode de stationnarisation Ecart à la tendance Il n’y a pas un trend linéaire . 2. Estimer le Significatif Tester ρ modèle [2] Tester c Non RH0 DS avec dérive RH0 stationnaire Non RH0 DS sans dérive RH0 stationnaire Filtre aux différences Non significatif . 3. Estimer le modèle [1] Tester ρ Filtre aux différences Comme il ressort du tableau, un processus TS signifie simplement l’absence d’une composante déterministe suivant un trend linéaire, un autre type de trend reste possible. 47 Proposé par Phillips (1987), Phillips et Perron (1988). Ass. Cédrick Tombola M. 106 Non – stationnarité de nature mixte Dans l’estimation du modèle [3], on dit qu’une chronique est caractérisée par une non – stationnarité de nature mixte, si après tests de significativité des paramètres b et ρ, on conclut qu’il y a existence, à la fois, d’un trend linéaire et d’une racine unitaire. Pour ce dernier cas, on peut aisément appliquer le filtre aux différences pour stationnariser la série. En effet, Dickey, Bell et Miller (1986) ont montré que si l’objectif poursuivi est la prévision, appliquer le filtre aux différences en présence d’une non – stationnarité de nature mixte, est plus réconfortant qu’alarmant, car dans ce cas, estiment ces auteurs, la différenciation élimine le trend linéaire. En conclusion, lorsqu’on mène les tests ADF et PP, conclure sur un processus DS implique simplement qu’on a récusé la présence d’une tendance linéaire dans la série. Il serait donc erroné de conclure, brutalement, à l’absence d’un trend, oubliant que les tests menés sont eux-mêmes basés sur l’hypothèse d’une tendance linéaire. Figures 1. Quelques types de trend Trend linéaire (t) 250 Trend quadratique (t2) 45000 40000 200 35000 30000 150 25000 20000 100 15000 10000 50 5000 1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 0 1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 0 Trend exponentiel (et) 8E+86 Trend logarithmique [Log(t)] 6 7E+86 5 6E+86 4 5E+86 4E+86 3 3E+86 2 2E+86 1 1E+86 0 1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 1 12 23 34 45 56 67 78 89 100 111 122 133 144 155 166 177 188 199 0 107 Ass. Cédrick Tombola M. III. Etude des cas de l’indice des prix [rubrique alimentation] en RDC48 La série sera abrégée IP dans la suite de ce papier. Figure 2. Analyse du plot de la série IP 900 800 700 600 500 400 300 200 100 0 00 01 02 03 04 05 06 07 08 09 IP La série IP présente une tendance haussière. Elle semble non stationnaire affectée d’une tendance. Mais de quel type ? Visiblement, d’un trend non linéaire. Figure 3. Analyse du corrélogramme de la série IP Ce corrélogramme fait état d’une décroissance lente de toutes les autocorrélations de IP. On constate aussi que la première autocorrélation partielle est significativement différente de zéro. Ceci est indicatif d’une série non stationnaire. 48 Les données sont reprises en annexe 1 et proviennent de la section économique de l’Ambassade Américaine. Elles sont mensuelles et couvrent la période allant de 2000 à 2009. 108 Ass. Cédrick Tombola M. Tests ADF et PP de la série IP en niveau Les résultats de ces tests sont repris intégralement en annexe 2 de ce papier. Le nombre de retard, retenu pour les deux tests, a été trouvé en appliquant la stratégie d’estimation séquentielle fondée sur la significativité des coefficients des retards en différences premières, proposée par Perron (1993). Alors que l’analyse du plot a indiqué que la série comportait un trend, les tests ADF et PP, synthétisés ciaprès, disent qu’il y a absence de trend. C’est donc ici qu’il faut éviter toute conclusion hâtive. Il n’y a pas absence d’un trend dans la série IP, il y a plutôt absence d’un trend linéaire. Tableau 3. Test ADF et PP de la série IP à niveau Retard Dérive Trend linéaire 0 Non Non IP P-value Statistique ADF En niveau Statistique PP 6.706690 8.150683 1.0000 1.0000 Valeur critique [à 5%] Conclusion Non-stationnaire Type stochastique -1.943540 La série étant caractérisée par une non – stationnarité de nature stochastique (DS), il convient d’appliquer le filtre aux différences pour la rendre stationnaire. Tableau 4. Tests ADF et PP de la série IP en différences premières IP P-value Statistique ADF – 7.150804 0.0000 En différences premières Statistique PP Valeur critique [à 5%] – 7.167671 -1.943563 0.0000 Conclusion stationnaire Figure 4. Plot de la série stationnaire, vraisemblablement en moyenne 80 60 40 20 0 -20 -40 -60 00 01 02 03 04 05 DIP 06 07 08 09