La statistique descriptive
Transcription
La statistique descriptive
La statistique descriptive Introduction La statistique est la méthode scientifique du traitement des données quantitatives. On distingue : La statistique descriptive qui décrit les données à l’aide de représentations graphiques et de résumés numériques. Elle utilise la géométrie et l’algèbre linéaire. La statistique inférentielle qui permet de déduire les caractéristiques inconnues d’une population à partir d’un échantillon issu de cette population. Elle utilise la théorie des probabilités pour calculer des intervalles de confiance et mettre en place des tests statistiques. Vocabulaire On s’intéresse à des unités statistiques (dits individus) : par exemple des individus, des entreprises, des ménages. Sur ces individus, on mesure un caractère ou une variable : l’âge ou la catégorie socioprofessionnelle de la personne, le chiffre d’affaires de l’entreprise, le revenu du ménage... Les valeurs possibles de la variable sont appelés des modalités. Vocabulaire, graphiques Variable qualitative : les modalités sont des catégories. Variable qualitative nominale : les modalités ne peuvent pas être ordonnées. Variable qualitative ordinale : les modalités peuvent être ordonnées. Variable quantitative : les modalités sont numériques. Variable quantitative discrète : les modalités sont numériques en quantité dénombrable. Variable quantitative continue : l’ensemble des modalités est continu. Série statistique On appelle série statistique la suite des valeurs prises par une variable X sur les individus. Souvent n désigne le nombre d’individus et les valeurs de la variable X sont notées x1 , · · · , xn . Par exemple, si X est la variable SEXE à deux modalités F et H: x1 = F , x2 = F , x3 = H, · · · , xn = F . Si Y est la variable AGE : y1 = 42, y2 = 35, y3 = 57, · · · , yn = 23. Variable qualitative nominale Une variable qualitative nominale a des modalités qui ne peuvent pas être ordonnées. Notons les x1 , · · · , xJ . L’effectif d’une modalité est le nombre de fois où cette modalité apparaı̂t dans la série. On note nj l’effectif de la modalité xj . nj La fréquence d’une modalité est fj = . n Les variables nominales peuvent être représentées graphiquement par : Un diagramme en barres des effectifs (ou en bâtons) Un diagramme en secteur des fréquences (ou camembert) Diagramme en secteurs et diagramme en barres On s’intéresse à la variable état-civil notée X et à la série statistique des valeurs prises par X sur 20 personnes. La codification est : Célibataire , Divorcé(e), Marié(e), Veuf(ve). 8 10 Célibataire 6 Divorcé(e) Marié(e) 0 2 4 Veuf(ve) Célibataire Divorcé(e) Marié(e) Veuf(ve) Variables qualitatives ordinales Les valeurs distinctes d’une variable ordinale peuvent être ordonnées x1 ≤ x2 ≤ · · · ≤ xn−1 ≤ xn Exemple : X est le dernier diplôme obtenu. On peut calculer les effectifs cumulés : Nj = j X nk k=1 j Et les fréquences cumulées : Fj = X Nj = fk . N k=1 Elles peuvent être représentées graphiquement par un diagramme en barres des effectifs ou des effectifs cumulés (ou en bâtons) ou un diagramme en secteur des fréquences. Diagramme en secteurs On interroge 50 personnes sur leur dernier diplôme obtenu. La codification est : sans diplôme (Sd), primaire (P), secondaire (S), Supérieur non-universitaire (Su), Universitaire (U). Sd P Se U Su 50 0 0 2 10 4 20 6 8 30 10 40 12 14 Diagramme en barres P Sd Se Su U P Sd Se Su U Variables quantitatives discrètes Exemple : X=nombre d’enfants par famille Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les effectifs cumulés, les fréquences, les fréquences cumulées. Les effectifs sont représentés graphiquement à l’aide d’un diagramme en bâtons et les fréquences cumulées à l’aide de la fonction de répartition (empirique). Cette fonction est définie de R dans [0, 1] et vaut : si x < x1 0 Fj si xj ≤ x < xj+1 F (x) = 1 si x ≥ xJ On peut aussi l’écrire : F (x) = n 1X 1xi ≤x . n i=1 0 5 10 15 Diagramme en bâtons 1 2 3 4 5 6 8 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de répartition 0 2 4 6 8 Variables (quantitatives) continues Pour faire des représentations graphiques et construire le tableau statistique, il faut procéder à des regroupements en classes. Notons [cj− , cj+ [ une classe. On appelle : cj− la borne inférieure de la classe j. cj+ la borne supérieure de la classe j. c − +c + cj = j 2 j le centre de la classe. aj = cj+ − cj− l’amplitude de la classe j. Exemple : taille de 50 élèves [cj− , cj+ [ [151, 155[ [155, 159[ [159, 163[ [163, 167[ [167, 171[ nj N j 10 10 12 22 11 33 7 40 10 50 fj Fj 0.2 0.2 0.24 0.44 0.22 0.66 0.14 0.8 0.2 1 Histogramme Notons : nj l’effectif de la classe j, Nj l’effectif cumulé de la classe j, fj la fréquence de la classe j, Fj la fréquence cumulée de la classe j. L’histogramme consiste à représenter les effectifs nj (resp. les fréquences fj ) des classes [cj ; cj+1 [ par des rectangles dont la surface représente l’effectif (resp. la fréquence). Histogramme Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la classe j est donc donnée par : hj = nj . aj L’aire de l’histogramme est alors égale à l’effectif total n. Pour un histogramme des fréquences, la hauteur du rectangle correspondant à la classe j est donnée par : hj = fj . aj L’aire de l’histogramme est alors égale à 1. 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Histogramme des fréquences 151 155 159 163 167 171 Remarque importante Dans le cas de classes de même amplitude, on représente souvent l’histogramme avec les effectifs (ou les fréquences) reportés en ordonnée. 0 2 4 6 8 10 12 Histogramme des effectifs avec classes d’amplitudes égales 151 155 159 163 167 171 Fonction de fréquences cumulées (croissante) Elle est définie par : Fj−1 + F (x) = 0 fj (x cj+ −cj− 1 si x < c1− − cj− ) si cj− ≤ x < cj+ si cJ+ < x Quand x est une borne de classes, F (x) est la proportion de valeurs de la série inférieures ou égales à x. A l’intérieur des classes, on fait l’hypothèse que la fonction de répartition est une fonction affine. 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de fréquences cumulées (croissante) 151 155 159 163 167 171 Statistique descriptive univariée Indicateurs de position mode moyennes médiane quartiles Indicateurs de dispersion étendue intervalle interquartile variance écart-type Le mode Le mode est la modalité de la variable correspondant à l’effectif le plus grand. Remarques : Le mode peut être calculé pour tous les types de variable, quantitative et qualitative. Le mode n’est pas nécessairement unique. Quand une variable continue est découpée en classes, on peut définir une classe modale (classe correspondant à l’effectif le plus élevé). La moyenne (arithmétique) n J 1X 1X xi ou x = ni xi dans le cas d’une variable définie à n n i=1 i=1 partir des effectifs. x= Elle ne peut être définie que sur une variable quantitative. Elle n’est pas nécessairement une valeur possible (exemple : nombre d’enfants par famille). Un défaut de la moyenne est qu’elle est très sensible aux valeurs atypiques (erreurs de mesures) Les autres moyennes Moyenne géométrique n Y 1 G = ( xi ) n i=1 Moyenne harmonique H= n . n X 1 xi i=1 La médiane (variable continue ou quantitative ordinale) La médiane d’une série statistique est une valeur m telle que au moins la moitié des valeurs de la série soient inférieures ou égales à m et au moins la moitié des valeurs de la série soient supérieures ou égales à m. On la calcule de la manière suivante : 1 2 3 On trie la série statistique par ordre croissant des valeurs observées : 3 2 1 0 0 1 2. On obtient : 0 0 1 1 2 2 3. Heuristiquement, la médiane est “la valeur qui se trouve au milieu de la série ordonnée” : ici 1. Deux cas doivent être distingués : si n est impair, la médiane est l’un des xi , si n est pair la médiane est une valeur qui est comprise entre les deux valeurs qui sont centrales, par exemple on peut prendre la plus petite valeur ou la moyenne des deux valeurs. La médiane Quelle que soit la définition choisie (cas n impair), la médiane vérifie que au moins 50% des valeurs sont inférieures ou égales à la médiane et au moins 50% des valeurs sont supérieures ou égales à la médiane. On peut définir la médiane à l’aide de la fonction de répartition empirique : n 1X 1xi ≤x . F (x) = n i=1 “La médiane” de la série peut être définie par : min{x ∈ R , F (x) ≥ 0.5}. Calcul de la médiane quand les données sont découpées en classes 0.0 0.2 0.4 0.6 0.8 1.0 On fait l’hypothèse qu’à l’intérieur d’une classe la fonction de répartition augmente de façon affine. 151 155 159 163 167 171 Les quantiles La notion de quantile généralise la notion de médiane. Soit p ∈]0, 1[. Le quantile d’ordre p peut être défini par : min{x ∈ R , F (x) ≥ p}. Attention, il y a neuf définitions possibles de quantiles, différentes selon chaque logiciel. Les quantiles d’ordre 0.25 et 0.75 sont appelés premier et troisième quartiles. Avec la définition ci-dessus, le premier quartile q0.25 est la plus petite valeur telle que au moins 25% des valeurs soient inférieures à q0.25 et le troisième quartile est la plus petite valeur q0.75 telle que au moins 75% des valeurs soient inférieures à q0.75 . L’intervalle [q0.25 ; q0.75 ] est appelé intervalle inter-quartile. Paramètres de dispersion L’étendue, différence entre la plus grande et la plus petite valeur observée. La distance interquartile dinter = q0.75 − q0.25 La variance est la moyenne des carrés des écarts à la moyenne : v= n 1X (xi − x)2 . n i=1 Théorème : v = n 1X 2 xi − x 2 . n i=1 La variance peut également être définie à partir des effectifs et des J J 1X 1X valeurs distinctes : v = (ni xi − x)2 = ni xi2 − x 2 . n n i=1 i=1 Boı̂te à moustaches (boxplot) C’est un diagramme qui permet de représenter la distribution d’une variable. Il y a beaucoup de façon de le définir. A l’orignie, Tuckey en 1977, l’avait défini ainsi : Un rectangle qui s’étend du premier au troisième quartile. Le rectangle est divisé par une ligne correspondant à la médiane. Ce rectangle est complété par deux segments de droites défini par la plus petite et la plus grande observation comprise entre q0.25 − 1.5dinter et q0.75 + 1.5dinter On trace les segments de droites reliant ces observations au rectangle. Les valeurs qui ne sont pas comprises entre les segments sont représentées par des points et sont appelées valeurs extrèmes ou valeurs atypiques (0, 3% des valeurs si X est gaussienne). Boı̂te à moustaches On utilise une base de données de communes suisses de 2003 fournie par l’Office fédéral de la statistique contenant un ensemble de variables concernant la population et l’aménagement du territoire. L’objectif est d’avoir un aperçu des superficies (en hectares) des communes du canton de Neuchâtel : 0 1000 2000 3000 4000 5000 Statistique descriptive bivariée On s’intéresse à deux variables X et Y . Ces deux variables sont mesurées sur les n individus. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque individu : (x1 , y1 ), · · · , (xn , yn ) Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine tous les cas possibles : Les deux variables sont quantitatives. Les deux variables sont qualitatives. L’une est quantitative et l’autre qualitative. Deux variables quantitatives 80 70 60 poids 90 100 Exemple: Taille et poids de 20 individus. On représente graphiquement cette série bivariée par un nuage de points. 160 170 180 taille 190 Analyse séparée des variables Il faut commencer par analyser séparément les variables : moyennes, variances, écart-types, quantiles... Covariance Elle est définie par : n cov (X , Y ) = 1X (xi − x)(yi − y ). n i=1 Remarques : cov (X , X ) = var (X ). La covariance est une “mesure de la variation simultanée de x et y ” : elle devient plus positive pour chaque couple de valeurs qui diffèrent de leur moyenne dans le même sens, et plus négative pour chaque couple de valeurs qui diffèrent de leur moyenne dans le sens opposé. Théorème : n cov (X , Y ) = 1X xi yi − x y . n i=1 Coefficient de corrélation Le coefficient de corrélation entre X et Y est la covariance divisée par les deux écart-types sX et sY : r= cov (X , Y ) . sX sY D’après l’inégalité de Cauchy Schwarz appliquée aux vecteurs centrés, −1 ≤ r ≤ 1. Si r = 1, les points sont alignés sur une droite de pente positive. Si r = −1, les points sont alignés sur une droite de pente négative. Le coefficient de détermination est r 2 , il a son interprétation propre qu’on verra au moment de la régression linéaire. Illustrations r= +1 r= -1 y y O O x -1 < r < 0 y x 0<r<1 y O O x r=0 x r=0 y y O x O x Droite de régression On considère que la variable X est explicative et que la variable Y est dépendante. Le problème consiste à identifier une droite y = ax + b qui ajuste bien le nuage de points. Si les coefficients a et b étaient connus, on pourrait calculer les erreurs ei (dits résidus) de la régression : ei = yi − axi − b. Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés : on cherche a et b qui minimisent la somme des carrés des résidus : n n X X ei2 = (yi − axi − b)2 . i=1 i=1 100 Illustration 90 yi ei 80 70 60 poids y*i 160 170 180 taille 190 Droite de régression Théorème : Les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par : a= cov (X , Y ) et b = y − ax. var (X ) La droite de régression passe par le point (x, y ) centre de gravité du nuage de points. Elle a pour équation : y − y = cov (X ,Y ) var (X ) (x − x). La moyenne des résidus est nulle. On note yˆi = axi + b les valeurs dites estimées. Ainsi le résidu pour l’observation i est ei = yi − yˆi . La moyenne des valeurs yˆi est y . Décomposition de la variance On appelle somme des carrés totaux (des écarts entre les valeurs yi et leur moyenne y ): SCT = n X (yi − y )2 . i=1 SCT traduit la variabilité des valeurs yi . On appelle somme des carrés résiduelle : SCR = n X ei2 = i=1 n X (yi − yˆi )2 . i=1 SCR traduit la variabilité des résidus. On appelle somme des carrés expliquée (par la régression) : SCE = n X (yˆi − y )2 . i=1 SCE traduit la variabilité des valeurs yˆi . Coefficient de détermination Théorème : SCT = SCE + SCR . Théorème : Soit r le coefficient de corrélation entre X et Y . On a : r 2 = SCE SCT C’est-à-dire que le coefficient de détermination r 2 mesure la proportion des variations de la variable dépendante expliquée par le modèle fourni par la régression. Le r 2 est compris entre 0 et 1. Il vaut 1 quand les résidus sont tous nuls, c’est-à-dire quand la relation entre Y et X est linéaire. Deux variables qualitatives Notons x1 , · · · , xJ et y1 , · · · , yK les modalités des variables X et Y . Les données observées peuvent être regroupées dans un tableau de contingence : X H HH y1 y2 .. . .. . yK total HH Y x1 x2 ··· ··· xJ n11 n21 .. . .. . nK 1 n.1 n12 n22 .. . .. . nK 2 n.2 ··· ··· .. . .. . ··· ··· ··· ··· .. . .. . ··· ··· n1J n2J .. . .. . nKJ n.J total n1. n2. .. . .. . nK . n Exemple Voici un tableau de contingence donnant chez 518 travailleurs dans le secteur tertiaire américain la relation entre catégorie socio-professionnelle et appartenance politique : Démocrate Républicain Indépendant total Ouvrier 126 71 19 216 Employé 61 93 14 168 Cadre 38 69 27 134 total 225 233 60 518 Profils lignes et profils colonnes On appelle ième profil ligne le J-uplet : ( nni1i. , nni2i. , · · · , nniJi. ) Interprétation : le 1er profil ligne de l’exemple indique que parmi les démocrates interrogés, il y a 126/225 = 56% d’ouvriers, 61/225 = 27, 2% d’employés et 38/225 = 16, 8% de cadres. n On appelle jème profil colonne le K-uplet : ( n1j.j , n2j n.j ,··· , nKj n.j ) Interprétation : le 1er profil colonne de l’exemple indique que parmi les ouvriers interrogés, il y a 126/228 = 58% de démocrates 71/218 = 33% de républicains et 19/218 = 9% d’indépendants. Etude du lien entre X et Y Pour étudier le lien, on construit un tableau de contingence théorique qui représente la situation où les deux variables sont indépendantes. Dans ce cas, les effectifs théoriques sont : n̂ij = ni. n.j . n On mesure l’écart à l’indépendance à l’aide de : χ2e = J X K X (nij − n̂ij )2 . n̂ij i=1 j=1 Le nombre χ2e est toujours positif ou nul. Plus il est grand, plus la liaison entre les variables est grande. On verra que l’on peut construire un test statistique (test d’indépendance du χ2 ) pour décider à partir de quelle valeur on peut dire que les variables sont liées. Coefficient de Cramer Comme χ2e dépend de n et de la taille du tableau, on introduit un coefficient qui n’en dépend pas : Le coefficient de Cramer est défini par : s χ2e . C= n min(J − 1, K − 1) Ce coefficient est compris entre 0 et 1, proche de 0 si les variables sont indépendantes et proche de 1 si elles sont très liées. Ce coefficient sert uniquement à la comparaison de liaison. Une variable qualitative, une variable quantitative On observe le prix Y d’un produit de consommation courante dans 15 grandes surfaces de 3 régions différentes. Les variables sont : Y : le prix (en euros) est une variable quantitative (continue). X : la région est une variable qualitative avec 3 modalités (Ile de France=1, Centre=2, Languedoc-Roussillon=3) appelée facteur. Y X 13.5 1 13.2 2 13.4 3 14.2 1 13.3 2 13.3 3 14.1 1 13.1 2 14 3 13.4 1 13.5 2 14.2 3 13.3 1 13.4 2 Question : on constate que les coûts moyens sur les 3 régions sont : y1 = 13.7 , y2 = 13.3 , y3 = 13.8. Il semble donc y avoir une différence de prix selon les régions, c’est-à-dire un lien entre X et Y : Comment le ”quantifier”? 14.1 3 Décomposition de la variance La variable X partage la population en c groupes. Pour i = 1 · · · c, on note : ni l’effectif du groupe i. yij la valeur de Y sur le jième individu du groupe i. yi la moyenne de Y sur le groupe i. On introduit les quantités suivantes: La variation totale : SCT = ni c X X (yij − y )2 . i=1 j=1 La variation factorielle (inter-groupes) : SCF = c X ni (yi − y )2 . i=1 La variation résiduelle (intra-groupes) : SCR = ni c X X i=1 j=1 (yij − yi )2 . Théorème de décomposition de la variance Théorème : SCT = SCF + SCR . SCF Posons R 2 = SC . Ce coefficient mesure le lien entre X et Y car T plus la variation inter-groupes SCF est grande (relativement à SCT ), plus il y a de disparité entre les moyennes de chaque groupe et donc plus la variable X influe sur la variable Y . Plus R 2 est proche de 1 (SCF très supérieure à SCR ), plus les groupes sont hétérogènes donc plus il existe une forte liaison entre X et Y . Plus R 2 est proche de 0 (SCF très inférieure à SCR ), moins il y a de différence entre les différentes moyennes des groupes donc moins il y a de liaison entre X et Y . Remarque : Si X n’a que deux modalités 0 et 1, R 2 est le carré du coefficient de corrélation linéaire entre X et Y . Calcul sur l’exemple y = 13.6 var(y ) = 0.14666 donc SCT = 15 × var(y ) = 2.3. y1 = 13.7 , y2 = 13.3 , y3 = 13.8. SCF = 5(y1 − y )2 + 5(y2 − y )2 + 5(y3 − y )2 = 0, 7. Donc R 2 = 0, 564. Ce qui signifie que 56, 4% de la variabilité de Y est expliquée par la variable X .