Corrélation entre deux variables continues
Transcription
Corrélation entre deux variables continues
Corrélation entre deux variables aléatoires continues Applications avec SAS 1) Coefficient de corrélation linéaire expérimental 2) Coefficient de corrélation linéaire théorique 4)Applications avec SAS et coefficient de corrélation ajusté 3) Tests et intervalles de confiance - comparaison à 0 -comparaison à une valeur donnée - comparaison de deux coefficients empiriques 1 Soient deux variables X et Y continues On dispose d’un échantillon de couples (x1,y1),….,(xn,yn) comment « résumer leur liaison » par un nombre invariant par translation et ne dépendant pas des unités de X et de Y 2 Proposition: Coefficient R de corrélation expérimental de l’échantillon de couples (x1,y1),….,(xn,yn) Le numérateur est appelé la covariance de l’échantillon Cov(X,Y). Cov (X,Y) est aussi égal à: 3 4 Propriétés du coefficient de corrélation empirique 5 6 Attention: R peut être proche de 0 sans que cela veuille dire que X et Y ne sont pas « liés ». R représente la « mesure » de la proximité avec un lien linéaire 7 Covariance théorique entre eux variables aléatoires X et X Cov(X,Y)= E{ (X- E(X)) (X-E(Y)) } 8 Estimation ponctuelle: On estime le coefficient de corrélation théorique ρ de deux variables aléatoires X et Y par le coefficient de corrélation empirique R d’un échantillon de couples (x1,y1),….,(xn,yn) de (X,Y) Note: r est la réalisation de R pour un échantillon de couples donné. Important: R est un estimateur biaisé de ρ car sa moyenne est différente de ρ 9 Estimation par intervalle de confiance de ρ si X et Y sont normaux 10 11 Exemple 1 Solution 12 Note: SAS utilise une approximation plus précise: Soit r le coefficient de corrélation empirique entre deux variables normales de coefficient de corrélation théorique ρ. Alors la transformée Zr suit une loi approximativement normale avec les paramètres: avec: 13 2 manières de calculer un intervalle de confiance: 1) Sans biais d’ajustement, en considérant comme étant une loi normale de moyenne 0 et de variance 1/(n-3) Les deux limites de l’IC de ζ sont : où les quantiles Z sont les quantiles correspondant à 1-α/2 14 2) IC de ζ avec biais d’ajustement, nommé bias par SAS: on considère la variable suivante comme normale de moyenne 0 et de variance 1/(n-3) où bias est défini par: Les bornes de l’IC pour ζ sont: 15 Et donc pour le coefficient de corrélation théorique (en retournant « en arrière » On obtient également un meilleur estimateur, dit estimateur « ajusté » de ρ : 16 *----------------- Data on Physical Fitness -----------------* These measurements were made on men involved in a physical fitness course at N.C. State University. The variables are Age (years), Weight (kg), Runtime (time to run 1.5 miles in minutes), and Oxygen (oxygen intake, ml per kg body weight per minute) data Fitness; input Age Weight Oxygen RunTime @@; datalines; 44 89.47 44.609 11.37 40 75.07 45.313 10.07 44 85.84 54.297 8.65 42 68.15 59.571 8.17 ….. ; 17 La corrélation avec SAS 1) Deux variables avec test d’égalité à 0 du coefficient de corrélation théorique : proc corr data=Fitness Fisher ; var Age weight; run; 2) Intervalles de confiance « ajustées » proc corr data=Fitness Fisher ; var Age weight; run; 18 19 Estimateur « classique » de la corrélation Meilleur estimateur de la corrélation 20 Dans le cas d’une étude des relations entre plusieurs variables, on peut avoir une matrice des corrélations, accompagnée des graphes des variables deux par deux proc corr data=Fitness plots=matrix(histogram); run; 21 22 23 24 Exemple 2: 25 Solution de l’exemple 2 26 Tests de comparaison de ρ à une valeur donnée 1er Cas tester si ρ est égal à 0 (test de la non-corrélation) 27 Sur SAS utiliser la procédure PROC CORR 28 Exemple 1 Solution 29 Exemple 2 30 Solution de l’exemple 2 31 32 2ème cas: Testons maintenant si ρ est égal à une valeur ρ0 (différente de 0) Presque la même démarche! 33 Exemple Solution 34 Comparaison de deux coefficients de corrélation empiriques 35 Exemple 1: Solution 36 Exemple 2: Solution 37