Statistique, vocabulaire, tableaux et graphiques
Transcription
Statistique, vocabulaire, tableaux et graphiques
STAT01 COURS Octobre 2000 Cycles préparatoires du Service Commun de Formation Continue de l’INPL COURS de STATISTIQUE et PROBABILITÉS Cours et exercices : Philippe Leclère Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 1 STAT01 COURS Octobre 2000 1-Statistiques descriptives à une variable 1 1.1 Statistique, vocabulaire, tableaux et graphiques Définitions, vocabulaire : La statistique a longtemps consisté en de simples dénombrements fournissant des renseignements sur la population ou l'économie d'un pays. Si nous ouvrons un dictionnaire, nous trouvons la définition suivante : « La statistique est la science qui a pour objet l'étude numérique et graphique d'un très grand nombre de faits analogues quelle que soit leur nature ». Cette science n’étudie pas les individus dans leur spécificité, elle permet de les rassembler dans ce qu’ils ont en commun. Les sondages sont en général anonymes et les conclusions portent sur le groupe. L'objet de la statistique est de rassembler, organiser, analyser, interpréter, des observations que l'on peut mesurer ou classer. 1.1.1 Population : Les observations que le statisticien est conduit à faire portent sur un ensemble qu'il convient de définir avec une grande précision. Cet ensemble porte le nom de population et chaque élément qui la constitue est un individu ou une unité statistique. Les ensembles et objets de la statistique doivent être parfaitement connus et identifiés. Cela implique une précision de temps et de définition. • Population des élèves de seconde année de STS biotechnologiques pour l’année 97-98 sur la France métropolitaine inscrits dans un lycée public ou en contrat avec l’état. Ces précisions permettent de cerner très exactement la population. Il n’est pas toujours simple de définir celle-ci avec précision, mais cela est nécessaire. • Population des pièces usinées par la machine A de la chaîne1 d’un processus de fabrication pendant le mois de septembre 1998. Ici la population n’est pas vivante bien que le vocabulaire reste très humanisé. La pièce usinée est toujours l’individu que l’on étudie. Il conviendrait mieux ici de parler d’unité statistique. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 2 STAT01 COURS Octobre 2000 1.1.2 Caractère : On étudie certaines propriétés des unités statistiques de la population. Chacune de ces propriétés s'appelle un caractère statistique. On parle de caractère qualitatif lorsque celui-ci n'est pas mesurable (exemples : couleur des cheveux, profession, qualité...etc). Ce caractère qualitatif est dit ordinal lorsque l’on peut faire intervenir une notion d’ordre ( exemple : les grades de l’armée ), sinon le caractère qualitatif est dit nominal. On peut affecter un nombre à chaque attribut, cependant toute opération arithmétique doit être maniée avec précaution et exclue s’il s’agit de caractère qualitatif nominal. On parle au contraire de caractère quantitatif lorsque celui-ci est mesurable (exemples : poids, taille, degré d’alcool dans le sang...etc). Un caractère statistique est aussi appelé variable statistique. Nous dirons qu’une variable statistique quantitative est discrète si elle ne peut prendre qu'un nombre dénombrable de valeurs numériques; en revanche, nous dirons qu'elle est continue si elle peut prendre toute valeur numérique appartenant à un intervalle réel. • « le nombre d’enfants d’une famille » est un caractère discret fini, il ne peut prendre qu’un nombre fini de valeurs • « le poids d’un paquet de sucre » est un caractère continu car tous les réels de l’intervalle peuvent être atteints. Dans le cas des mesures, on effectue des observations discontinues, en raison des arrondis sur les données imposés par la manipulation alors qu’en réalité le caractère est continu. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 3 STAT01 1.2 COURS Octobre 2000 Collecte de l’information : une fois la population parfaitement définie et le caractère étudié choisi, on collecte les observations et on constitue ainsi une série statistique. Cette série est exhaustive si tous les éléments de la population ont été observés : on parle alors de recensement. Lorsque l’étude exhaustive de la population se révèle trop onéreuse ou trop longue à obtenir on observe seulement une partie de la population à l’aide d’un échantillon. C’est quasiment toujours le cas. La plupart du temps l’enquête statistique utilise un questionnaire qui doit être élaboré avec le plus grand soin afin de recueillir les renseignements que l’on souhaite. Il faut qu’il soit non ambigu et pas trop compliqué. On peut également recourir à des documents existants : les registres, les documents de comptabilité ...etc. Il faut ensuite dépouiller toutes ces données et procéder à un rangement (stockage) de toutes ces informations afin de pouvoir les exploiter. 1.3 Tableaux statistiques : trois représentations proposées. Les observations sont le plus souvent nombreuses et se présentent sous forme désordonnée (liste de nombres, tableaux de valeurs...etc). Il faut alors les dépouiller, les ordonner, les classer pour en donner une représentation claire. 1.3.1 Le tableau exhaustif : On a relevé les températures des mois de décembre, janvier et février à Nancy sous abri à 3 heures et obtenu le tableau suivant : 5 8 6 7 8 2 −1 −2 2 6 5 12 12 13 10 8 4 8 9 2 −1 −2 −1 −3 0 2 −5 −2 −1 −4 −2 2 9 5 8 3 5 4 3 2 2 −2 −5 −8 −12 −16 −4 −2 6 4 5 6 2 −1 −2 5 −2 −1 −5 −8 −15 −16 −13 −12 0 2 6 5 4 6 3 3 −7 −10 5 6 −2 −4 3 8 −1 −2 0 4 5 4 −5 −2 2 5 Population : les 90 jours ( 31 en décembre, 31 en janvier et 28 en février) Unité statistique : un jour ( le 8 janvier par exemple) Variable statistique : température en degré Celsius relevée à 3 heures et à un endroit donné. Ce tableau est inexploitable sous cette forme. On peut juste dire qu’il ne fait pas chaud à Nancy en hiver. (mais ça, on le savait) Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 4 STAT01 COURS Octobre 2000 1.3.2 Regroupement de données : Lorsque les données sont très nombreuses, on peut les regrouper de la manière suivante : Désignons par X la variable statistique et par x1 , x2 ,! , xn les n valeurs possibles distinctes prises par la variable statistique X (en général si cela est possible, les valeurs xi sont rangées par ordre croissant,). Nous notons ni le nombre de fois où la valeur xi a été observée dans la population (ou dans l'échantillon étudié). Ce nombre ni est l'effectif associé à la valeur xi de la variable statistique X. L'ensemble des couples ( xi ,ni ) est appelé série statistique. Il peut évidemment s’agir ici d’une série statistique qualitative ou quantitative. En désignant par N le nombre total d'observations, nous avons la relation n N = ∑ ni i =1 sur l’exemple précédent on obtient tempé. xi effectif ni tempé. xi effectif ni −16 −15 − −13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2 14 2 1 0 1 2 0 1 0 2 1 0 4 3 1 11 1 2 3 4 5 6 7 8 9 10 11 12 13 −1 0 7 3 0 10 5 6 10 7 1 6 2 1 0 2 1 Aucune information quantitative n’est perdue, seuls les jours où telle température a été relevée ne sont plus connus. Il faudra veiller à ce que cette perte ne soit pas préjudiciable à l’exploitation que l’on veut faire de cette étude. Le tableau est un peu plus lisible que le précédent. On peut par exemple noter les températures les plus souvent atteintes lors de cette période. On peut déjà avoir une idée de la moyenne. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 5 STAT01 COURS Octobre 2000 1.3.3 Regroupement par classes : Le nombre de valeurs est encore élevé et la lecture du tableau peu commode. On peut encore simplifier la restitution des données. Il suffit de créer des classes et de compter l’effectif de chaque classe. On partage alors l’étendue (plus grande valeur − plus petite valeur, ici 13 − ( −16 ) = 29 des valeurs en p intervalles. Classe [−16; −13[ [−13; −10[ [−10; −7[ [−7; −4[ [−4; −1[ effectif 3 3 3 5 15 Classe [−1; 2[ [2; 5[ [5; 8[ [8;11[ [11;14[ effectif 10 21 18 9 3 Cette troisième représentation sera obligatoirement choisie s’il s’agit d’une variable continue. Les p classes sont alors disjointes et leur réunion recouvre la totalité des valeurs possibles. On dit que l’on fabrique une partition de l’ensemble. On ouvre classiquement l’intervalle à droite et on le ferme à gauche comme dans l’exemple suivant : Classe [ 0;4 [ effectif 5 [4 ;8 [ 10 [ 8 ; 12 [ [ 12 ; 16 [ [ 16 ; 20 [ 5 3 2 Les classes n’ont pas forcément la même amplitude (différence entre la borne supérieure et la borne inférieure). La perte d’information est évidemment le plus gros problème que pose cette technique de stockage. Le choix de l’amplitude permet un compromis satisfaisant au regard des conclusions que l’on veut tirer. On fait ensuite la supposition que chaque élément de la classe possède la valeur du milieu de classe appelé aussi centre de classe. Il est parfois difficile de préciser les classes extrêmes. On utilise souvent des classes ouvertes « Plus de » ou « moins de » qui ne possèdent pas de centre de classe. En l’absence d’informations complémentaires, on prendra alors comme centre un nombre situé à une demi amplitude de la borne de cette classe ouverte ( l’amplitude choisie étant celle de la classe voisine ) exemple : Classe effectif [ 0 ; 4 [ [4 5 ;8 10 [ [ 8 ; 12 [ [ 12 ; 16 [ 5 3 16 et plus 2 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 6 STAT01 COURS Octobre 2000 Pour la dernière classe, l’amplitude de la classe voisine étant 4, si on ne possède pas d’autres informations, on prendra comme centre de classe 16+2=18. On considère en fait que la dernière classe a une amplitude de 4. Graphiques divers : 1.4.1 Diagramme en bâtons Lorsque les distributions sont quantitatives, et la variable discrète, le graphique est réalisé en général avec en abscisse les valeurs du paramètre observé et en ordonnée l’effectif ou la fréquence. La représentation ainsi obtenue est appelée diagramme en bâtons. L’effectif ou la fréquence est illustrée par un segment de droite. (On peut également avoir cette représentation pour une variable qualitative). Reprenons les températures de l’exemple précédent. On obtient le graphique suivant : Températures à Nancy 12 10 8 effectif ni 6 4 2 12 10 8 6 4 2 0 -2 -4 -6 -8 0 -1 2 -1 4 -1 6 0 -1 1.4 Lorsque l’on rejoint par des segments de droite les sommets des bâtonnets, on obtient le polygone des effectifs. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 7 STAT01 COURS Octobre 2000 1.4.2 Histogramme Dans le cas de la variable continue, le graphique est appelé histogramme. On suppose la répartition uniforme dans une classe et on constitue les rectangles ayant pour base l’amplitude de la classe et une hauteur telle que leur aire soit proportionnelle à l’effectif ou la fréquence de la classe. Considérons la série statistique suivante qui décrit la charge de rupture d’un fil : Charge en gramme Effectif [720 ; 760[ [760 ; 800[ [800 ;840[ [840 ;880[ [880 ; 920[ 10 920 et plus 16 23 4 15 32 Histogramme 35 30 25 20 15 Effectif 10 5 0 720 à 760 760 à 800 800 à 840 840 à 880 880 à 920 920 et plus Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 8 STAT01 COURS Octobre 2000 Si les classes ont la même amplitude, on peut retrouver le polygone des effectifs en prenant comme valeur pour chaque élément de la classe le centre. Si les classes n’ont pas la même amplitude il faut recalculer la hauteur du rectangle. Par exemple, pour un même effectif dans une classe d’amplitude double, la hauteur du rectangle sera deux fois plus petite. 1.4.3 Diagrammes à bandes, à secteurs, figuratifs On utilisera ces différentes représentations lorsque le caractère est qualitatif. On considère la production d’une entreprise de fabrication d’automobiles (en milliers de véhicules) 1970 Effectif 10,2 8,3 5,5 1,0 25 Véhicule Cabriolet, 2 places 4 places 5 places modèle de luxe TOTAL Pourcentage 40,8 33,2 22 4 1978 Effectif 25,8 35,4 19,6 16,2 100 Pourcentage 25,8 35,4 19,6 16,2 Diagramme à secteurs modèle de luxe 4% 5 places 22% Cabriolet, 2 places 41% 4 places 33% On fera en sorte systématiquement que le total des pourcentages soit 100. Il est parfois nécessaire de « corriger » les arrondis. On utilise pour cela la règle des moindres erreurs. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 9 STAT01 COURS Octobre 2000 Diagramme à bandes année 1970 12 10 8 Série1 6 4 2 0 Cabriolet, 2 places 4 places 5 places modèle de luxe Bandes comparatives. comparaison des années 1970-1978 40 35 effectif 30 25 20 15 10 5 0 Cabriolet, 2 places 4 places 5 places modèle de luxe 1970 1978 véhicule Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 10 STAT01 COURS Octobre 2000 Diagramme figuratif Cabriolets Petites 4 places Cinq places Luxe Attention à ces représentations qui sont souvent utilisées dans la presse de façon approximative et ne permettent pas une exploitation « scientifique ». On ignore en fait la variable du graphique qui est proportionnelle à l’effectif. Est-ce la hauteur du rectangle, la hauteur de la voiture ? Il est fortement conseillé de ne pas utiliser ce type de diagramme, dont l’interprétation peut prêter à confusion. 1.4.4 Autres représentations utilisées : Diagrammes de type Boxplot que nous présenterons plus loin après avoir introduit les quartiles et qui ne nécessitent pas la notion de fréquence Diagrammes de type dotplots et diagrammes de type stem-and-leaf qui se rapprochent des diagrammes à bâtons et des histogrammes 2 2.1 Etude des séries statistiques simples quantitatives Introduction Un tableau statistique ou un graphique est parfois long à consulter, sans permettre d'avoir une idée suffisamment concise de la distribution statistique observée. La notion de moyenne arithmétique est bien connue et permet de donner une idée globale de la série. On peut par exemple connaître le poids total d’une population connaissant sa moyenne et son effectif et autoriser 10 personnes à monter dans un bateau dont la charge limite est de 800 kg si on sait que la moyenne des poids des individus de ce groupe n’excède pas 80 kg. On parlera de paramètre de position ou de statistique de position. Il est important également de connaître la répartition de la population autour de cette moyenne. Dans l’exemple du bateau, il est primordial, si le groupe n’est pas de poids homogène de répartir les « lourds » et les « légers » équitablement à bâbord et tribord pour ne pas risquer le dessalage. On parlera de paramètre de dispersion ou de statistique de dispersion. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 11 STAT01 2.2 COURS Octobre 2000 Paramètres de position. 2.2.1 La moyenne arithmétique : La moyenne arithmétique d'une série de valeurs d'une variable statistique est égale à la somme de ces valeurs divisée par leur nombre. Autrement dit, la moyenne arithmétique est la valeur commune qu'auraient les données si elles étaient toutes égales de façon à ce que leur somme reste la même : les surplus des nombres les plus élevés seraient répartis entre les nombres les moins élevés. On note en général cette moyenne m ou x • Cas de données énumérées (description exhaustive). m= 1 N N ∑ xk k =1 où les xk sont les valeurs prises par la variable statistique X. N est l’effectif total de la population. N ∑ est une manière abrégée d'indiquer que l'on effectue une somme de N k =1 termes, identiques à celui qu'introduit le symbole, mais différant par l'indice : k prenant successivement toutes les valeurs entières de 1 à N. Sur les données du tableau 1 du chapitre 1, l'on effectue la somme des poids ; on divise ensuite cette somme par 90; d'où la moyenne : x = 1 (on lit « x barre ») La moyenne des températures pour les mois de décembre, janvier et février est de 1 degré. • Données regroupées par valeur 1 n m = ∑ nk xk N k =1 nk est le nombre d’individus qui ont pour valeur du paramètre xk La moyenne calculée par cette méthode à l’aide du deuxième tableau donne le même résultat que précédemment : soit 1. Il n’y a aucune perte quantitative d’information. Vous remarquerez que le calcul est plus aisé avec moins de risque d’erreurs de saisie. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 12 STAT01 • COURS Octobre 2000 Variable continue et données groupées en classes. Si la variable est continue et si les données sont regroupées en p classes comme dans le tableau 3 du paragraphe 1, on ne peut qu’estimer une moyenne à l'intérieur de chaque classe, à défaut d'autre renseignement, on choisit le « centre de classe » ( ck pour la classe k qui est le milieu de l’intervalle représentant la classe). Le calcul est effectué comme si tous les individus d'une classe avaient pour caractère le centre de classe, avec toute la part d'approximation que cela comporte. 1 m≈ N p ∑ nk ck où p est le nombre de classes k =1 ( −15 )* 3 + ( −12 )* 3 + ( −9 )* 3 + ....... + 6 * 18 + 9 * 9 + 12 * 3 = 1,16 90 On fera attention aux classes ouvertes. (voir 2-c) m≈ On peut mesurer dans cet exemple la perte de précision due au regroupement des données en classes et au choix du centre de classe comme moyenne de la classe. Cependant on peut se satisfaire du résultat. On annoncera dans un cas comme dans l’autre que la moyenne de ces trois mois est de 1 degré. Malgré cette perte d’information nous aurons recours souvent au regroupement en classes afin de « visualiser » plus simplement la série. ( Pour le calcul, il est préférable de garder les valeurs) Les machines à calculer (calculettes) permettent aisément tous les calculs de statistique et sont vivement conseillées. 2.2.2 Le mode et la classe modale Dans le cas d’une variable discrète, on appelle mode ou valeur modale toute valeur que la variable statistique prend le plus fréquemment. Pour les valeurs regroupées, toute valeur dont l’effectif est le plus grand. Dans le cas d'une variable continue, et si les données sont groupées en classes, toute classe dont l'effectif est le plus élevé (effectif ramené à l'unité d'amplitude) est appelée classe modale. Attention, il peut arriver que la classe modale ne soit pas celle où l'effectif apparaît le plus élevé sur le tableau. En effet, cette dernière classe peut avoir une amplitude plus grande qu'une autre dont l'effectif par unité d'amplitude, est plus élevé. Il peut y avoir plusieurs modes ou classes modales. Dans l’exemple des températures : Le mode est −2 lorsque les données sont regroupées par valeurs la classe modale est [2; 4] pour le regroupement en classes. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 13 STAT01 COURS Octobre 2000 2.2.3 La médiane La médiane d'une série statistique est un réel tel qu'il y ait autant d'observations ayant une valeur supérieure que d'observations ayant une valeur inférieure. Nous allons définir ce réel de façon unique. Lorsque les observations sont toutes données, il suffit donc de les classer par ordre de grandeurs croissantes (ou décroissantes), et de prendre celle qui se trouve au milieu. Si le nombre des observations est pair, la médiane est la demi-somme des deux valeurs du milieu. Pour les températures, la médiane est 2. On verra dans le paragraphe prochain une technique à l’aide du cumul des effectifs. si N = 2k + 1 xk +1 N étant l’effectif total. En résumé : la médiane est xk + xk +1 si N = 2k 2 En revanche lorsque les observations sont groupées en classes, la médiane ne peut être qu’estimée. Elle est nécessairement élément d’un intervalle que l’on appelle classe médiane. On fait donc l’hypothèse que la répartition des valeurs de la classe est affine et on procède à une interpolation linéaire. Il faut toutefois retenir que « faire des statistiques » c’est travailler avec les vraies données. Les regroupements sont le fait des statisticiens. En conséquence les méthodes d’approximation, dont celle de la médiane, apparaissent comme des exercices techniques un peu gratuits et même inutiles. ( sauf pour le professeur de mathématiques ) 2.2.4 Fréquences cumulées croissantes et décroissantes. • Variable discrète. Lors d’un examen, 100 étudiants répondent à 8 questions. On pose X la variable statistique qui à chaque questionnaire associe le nombre de bonnes réponses. On obtient le tableau suivant : Valeur xi effectif ni effectifs cumulés crois X<xi effectifs cum. décrois. X ≥ xi 0 2 0 100 1 7 2 98 2 6 9 91 3 19 15 85 4 25 34 66 5 15 59 41 6 15 74 26 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 7 9 89 11 8 2 98 2 9 0 100 0 14 STAT01 COURS Octobre 2000 : Effectifs cumulés croissants : On peut interpréter la troisième ligne de la façon suivante : 15 est le nombre d’étudiants ayant répondu correctement à au plus deux questions. C’est en fait l’effectif pour lequel X<3. Mathématiquement : 15 = ∑ nk xk <3 : Effectifs cumulés décroissants : Dans la dernière ligne, 41 est le nombre d’étudiants ayant répondu correctement à au moins 5 questions. C’est en fait l’effectif pour lequel X ≥ 5. On obtient ainsi le polygone des effectifs cumulés croissants et décroissants. Polygone des effectifs cumulés 120 100 80 effectifs cumulés croissants X<xi 60 effectifs cumulés décrois. X xi 40 20 0 0 1 2 3 4 5 6 7 8 9 Pour une série statistique discrète, la représentation polygonale ne paraît pas très adaptée. L’interpolation n’a pas beaucoup de sens. Il faut lui préférer la fonction en escaliers suivante. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 15 STAT01 COURS Octobre 2000 effectifs cumulés croissants X<xi 120 100 80 effectifs cumulés croissants X<xi 60 40 20 0 0 1 2 3 4 5 6 7 8 9 Dans certains ouvrages on trouve une définition différente des effectifs cumulés. On prendra X ≤ x ( norme AFNOR ) pour les effectifs cumulés croissants, ce qui change évidemment la courbe pour une variable discrète. En revanche pour une variable continue, cela ne change rien. On verra que ce choix paraîtra justifié lorsque nous étudierons en probabilité la fonction de répartition. On peut également considérer les fréquences au lieu des effectifs. Cela ne change pas l’allure des courbes La fréquence de la modalité xi est le nombre fi = ni où ni est l’effectif pour la N valeur xi du paramètre. i La fréquence cumulée en xi est donc ∑ fi = k =1 f1 + ! + fi si on prend X ≤ xi Le pourcentage de la modalité xi est pi = 100 fi Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 16 STAT01 • COURS Octobre 2000 Variable continue. En reprenant l’exemple des charges de rupture du chapitre 1-3-b Charge en gramme Effectif 10 effectifs cumulés croissants 10 effectifs cumulés décroissants 100 [700 ; 750[ [750 ; 800[ [800 ;840[ [840 ;880[ [880 ; 920[ 23 33 90 4 37 67 15 52 63 32 84 48 920 et plus 16 100 16 Sur l’intervalle [ xk ; xk +1 [ on a : effectif cumulé croissant = ∑ xi < xk +1 effectif cumulé décroissant = ∑ ni xi > xk ni 120 100 80 effectifs cumulés croissants effectifs cumulés décroissants 60 40 20 Médiane 0 700 750 800 840 880 920 960 On peut ainsi trouver graphiquement une estimation de la médiane comme abscisse du point d’intersection des courbes cumulées croissantes et décroissantes. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 17 STAT01 COURS Octobre 2000 On peut également procéder à une interpolation linéaire à partir de la courbe cumulative croissante par exemple. On privilégiera cette méthode, préférable à la précédente. 60 B(880 ; 52) 50 40 30 A(840 ; 37) 20 10 0 840 880 Soit 15 x − 8 y − 11 120 = 0 une équation de la droite ( AB ) . On obtient donc une valeur approchée de la médiane en donnant à y la valeur 50 soit 874,67 Cette représentation ne présente aucune difficulté si le tableau des effectifs cumulés a été correctement réalisé. L'échelle des abscisses doit être exacte ; par conséquent, les classes d'amplitudes inégales doivent apparaître inégales. Entre deux points connus, l'on suppose que la variation de l'effectif cumulé est linéaire ; on peut, par exemple, lire sur la figure que 20 fils ont supporté moins 770 g, environ Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 18 STAT01 COURS Octobre 2000 (STAT01E01A) On donne les salaires annuels nets en milliers de francs des employés d’une entreprise de textile. Valeurs femmes 105 110 112 132 133 134 151 154 154 112 135 158 118 138 119 138 120 138 120 138 125 142 126 145 127 148 128 148 130 150 Valeurs hommes 141 144 146 156 156 160 172 172 176 148 160 179 149 160 150 163 150 164 151 164 153 165 153 166 153 168 154 168 155 170 1. Que pouvez-vous conclure en observant ces deux tableaux ? 2. Pour chacune des deux séries, hommes et femmes, vous effectuerez un regroupement par classes d’amplitude 10, la première classe étant : [104;114[ . Vous ferez un tableau comprenant les effectifs, les fréquences, les fréquences cumulées Vous donnerez alors une représentation graphique adaptée pour chacun des deux regroupements. 3. Calculer : x f ,x g et x , les moyennes exactes de salaires pour les femmes, les hommes et l’ensemble de la population. (On utilisera le tableau exhaustif de l’énoncé). 4. Calculer x ′ f ,x ′ g et x ′ les moyennes approchées de salaires pour les femmes, les hommes et l’ensemble de la population. On utilisera le regroupement par classes de la deuxième question. Quelle remarque peut-on faire ? 5. Calculer les médianes m f ,mg et m de la population des femmes, des hommes et de la population totale. On utilisera les données exhaustives. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 19 STAT01 2.3 COURS Octobre 2000 Paramètres de dispersion. On considère les deux séries de données suivantes : 99 1 100 100 101 199 Elles ont une moyenne arithmétique et une médiane égale à 100. Cependant elles diffèrent profondément. Il apparaît que la deuxième série est beaucoup plus dispersée que la première. Il est donc nécessaire d’évaluer cette dispersion autour d’une valeur centrale. Nous définirons deux sortes de statistiques de dispersion : celles liées à la moyenne : écart moyen et écart type ; celles liées à la médiane : écart interquartile, écart interdécile, etc2.3.1 Ecart absolu moyen On calcule la moyenne des écarts à la moyenne. Ce calcul se fait en valeur absolue pour que le résultat soit exploitable. En effet, quelle que soit la série on a : 1 n 1 n 1 n 1 x x x ( i − ) = ∑ i − ∑ x = x − nx = 0 ∑ n i =1 n i =1 n i =1 n Ce calcul ne permet évidemment aucune exploitation. On pose donc 1 n e = ∑ xi − x si les n données sont toutes évaluées n i =1 e= 1 p ∑ ni xi − x n i =1 si les données sont regroupées en p valeurs distinctes. 1 p ∑ ni ci − x si les données sont regroupées dans p classes, ci étant le centre de n i =1 classe. e= On a ainsi établi la moyenne des valeurs absolues des écarts à la moyenne. Cette caractéristique rend convenablement compte de la dispersion entre les deux séries. On peut également calculer cet écart moyen par rapport à la médiane. On démontre d’ailleurs que c’est par rapport à la médiane que l’écart moyen absolu est le plus faible. L’écart moyen absolu est peu utilisé. La plupart des livres affirment que son maniement algébrique difficile en est la cause. Cela ne paraît guère fondé. Il faudrait, je pense rechercher la cause dans l’acception plus probabiliste de l’écart type dont l’utilisation reste privilégiée et peut être dans son utilisation géométrique. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 20 STAT01 COURS Octobre 2000 2.3.2 Ecart type On utilise la moyenne quadratique des écarts à la moyenne. On introduit donc un intermédiaire que l’on appelle la variance de la variable statistique définie par les formules : 2 1 n var X = ∑ xi − x si les n données sont toutes disponibles n i =1 ( ) 1 p ∑ ni xi − x n i =1 ) si les données sont regroupées par valeurs au nombre de p 1 p ∑ ni ci − x n i =1 centre de classe. ) si les données sont regroupées dans p classes, ci étant le var X = var X = ( ( 2 2 Ces formules se simplifient notablement de la façon suivante : 2 2 2 1 p 1 p 1 p 1 p 1 p var X = ∑ ni xi − x = ∑ ni xi2 + x − 2 xi x = ∑ ni xi2 + ∑ ni x − ∑ 2ni xi x = n i =1 n i =1 n i =1 n i =1 n i =1 ( ( ) 2 1 p 2x ni xi2 + x − ∑ n i =1 n p ∑ xi = i =1 ) 2 1 p ni xi2 + x − 2 x x = ∑ n i =1 2 1 p ni xi2 − x ∑ n i =1 finalement on obtient : 2 1 n var X = ∑ xi2 − x n i =1 var X = 2 1 p ni xi2 − x dans chacun des trois cas précédents. ∑ n i =1 var X = 2 1 p ni ci2 − x ∑ n i =1 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 21 STAT01 COURS Octobre 2000 La variance étant définie comme une somme de carré, par cohérence on utilisera la racine carrée de la variance. On appelle écart type ( on le note en général σ X ) la racine carrée de la variance σ X = var X On peut remarquer que le premier terme est la moyenne arithmétique des carrés des valeurs de la variable statistique. On peut ainsi retenir de façon mnémotechnique : 2 ( ) () var X= var X = x 2 − x Contrairement à l’écart moyen, l’écart type est minimal si l’on prend la moyenne et non la médiane. 2.3.3 Quartiles, déciles, centiles etc... Les quartiles, déciles et centiles sont des caractéristiques qui correspondent au même genre de préoccupation que la médiane. Leurs définitions sont également très semblables. • Quartiles : • Le premier quartile Q1 est la valeur pour laquelle 25% de la population est • en dessous. Le deuxième quartile Q 2 est la médiane • Le troisième quartile Q 3 est la valeur pour laquelle 75% de la population est en dessous • Déciles : • Le premier décile D1 est la valeur pour laquelle 10% de la population est en dessous • Le deuxième décile D2 est la valeur pour laquelle 20% de la population est en dessous • etc.. • Le cinquième décile D5 est la médiane. • Le premier centile C1 est la valeur pour laquelle 1% de la population est en dessous Etc... Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 22 STAT01 COURS Octobre 2000 2.3.4 Etendue, écart interquartile, interdécile etc... L’étendue (range en anglais) d’une série statistique est la différence entre les deux valeurs extrêmes de la variable étudiée. Attention toutefois ! si ces valeurs sont anormales, cette étendue n’est pas significative de la série. En adoptant comme paramètres de dispersion les quartiles, on définit l’écart interquartile Q3 − Q1 étendue de la série statistique d’effectif moitié de la série initiale centrée sur la médiane. C’est en fait l’intervalle qui contient 50% des individus « du milieu ». Cela revient à éliminer le premier quart et le dernier quart. De même on définit l’écart interdécile D9 − D1 et l’écart intercentile C99 − C1 (utilisé par exemple en démographie) • Pour les déciles, on conserve malgré tout 80% de la population alors que pour l’écart interquartile, seule la moitié de la population est considérée. En général on considère que les valeurs situées à plus de 1,5 × (Q3 − Q1 ) de Q2 sont aberrantes ou exceptionnelles. On les élimine. • Les calculs de ces paramètres se font sur le modèle de la médiane. (rangement des valeurs dans l’ordre croissant pour les variables discrètes et interpolation linéaire pour les valeurs groupées en classe) On les appelle caractéristiques de position, puisqu'elles permettent de placer les valeurs de la variable. Ces paramètres sont préférés en statistique à l’écart type considéré plutôt comme un paramètre probabiliste. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 23 STAT01 COURS Octobre 2000 2.3.5 Les statistiques de dissymétrie. On peut considérer les moments centrés d’ordre k par rapport à la 1 n 1 n k moyenne mk = ∑ ( xi − x ) ou mk = ∑ nk ( xi − x )k . n i =1 n i =1 En général, les moments d’ordre pair rendent compte de la dispersion, alors que ceux d’ordre impair reflètent la « dissymétrie » de la série. Ils sont nuls si la série est symétrique et d’autant plus grands en valeur absolue que la dissymétrie est marquée. Ils sont négatifs quand le maximum de fréquences est décentré vers la droite et positifs si les fréquences sont décentrées vers la gauche. Le fait de prendre les centres de classe dans les distributions groupées ne provoque pas beaucoup d’erreurs sur les moments centrés d’ordre impair alors que les moments centrés d’ordre pair se trouvent surestimés. Les quartiles permettent de construire les diagrammes de type boxplots, ils sont constitués de deux boîtes contiguës délimités par le premier quartile, la médiane et le troisième quartile. Un segment s’étend de part et d’autre jusqu’au valeurs extrêmes. On appelle aussi ces diagrammes : boîtes à moustaches. Min Q1 m=Q2 Q3 Max ( On peut définir des moustaches « normales » en faisant abstraction des valeurs exceptionnelles définies ci-dessus.) Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 24 STAT01 COURS Octobre 2000 (STAT01E02A) On reprend les données de l’exercice STAT01E01A Valeurs femmes 105 110 112 132 133 134 151 154 154 112 135 158 118 138 119 138 120 138 120 138 125 142 126 145 127 148 128 148 130 150 Valeurs hommes 141 144 146 156 156 160 172 172 176 148 160 179 149 160 150 163 150 164 151 164 153 165 153 166 153 168 154 168 155 170 1. Calculer l’écart interquartile pour chacune des trois séries, femmes, hommes et ensemble de la population. (On utilisera le tableau exhaustif de l’énoncé) 2. Calculer : σ f , σ H et σ , les écarts types exacts des trois séries : femmes, hommes et ensemble de la population (On utilisera le tableau exhaustif de l’énoncé). ′ et σ ′ , les écarts types approchés des trois séries : femmes, 3. Calculer : σ ′f , σ H hommes et l’ensemble de la population après le regroupement par classes, en prenant comme valeur le milieu de la classe). Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère 25 STAT01 COMPénoncés Octobre 2000 (STAT01E03) Dans un pays en voie de développement, on désire étudier le nombre d’enfants par famille. On sélectionne un échantillon de 200 familles qui donne les résultats suivants xi 0 1 2 3 4 5 6 7 8 9 10 0 Total ni 25 52 58 35 19 5 4 0 1 0 1 200 nixi 0 52 116 105 76 25 24 0 8 0 10 416 nixi2 0 52 232 315 304 125 144 0 64 0 100 1336 1. Faire un diagramme en bâtons. 2. Calculer la moyenne x . 3. Calculer l’écart type s. 4. Donner la valeur de la médiane m et des quartiles q1 et q 3 . 5. Trouver un intervalle théorique de la forme x − α ; x + α dans lequel on trouve environ 75% de la population. 6. Donner le mode. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPénoncés Octobre 2000 (STAT01E04) Une machine fabrique des rondelles de diamètre théorique 35,5mm, avec une tolérance de ±11 , . L’objectif est d’obtenir 95% de pièces acceptables. On effectue des mesures sur un échantillon de 500 pièces prélevées au hasard données dans le tableau suivant : Diamètre effectif ni [34 ; 34,2[ 10 [34,2; 34,4[ 8 [34,4; 34,6[ 15 [34,6; 34,8[ 23 [34,8; 35 [ 30 [35 ; 35,2[ 52 [35,2; 35,4[ 70 [35,4; 35,6[ 92 [35,6; 35,8[ 82 [35,8;36 [ 57 [36 ; 36,2[ 23 [36,2; 36,4[ 15 [36,4; 36,6[ 10 [36,6; 36,8[ 6 [36,8; 37 [ 5 [37 ; 37,2[ 2 Total 500 centre de classe ci nici nici2 34,10 34,30 34,50 34,70 34,90 35,10 35,30 35,50 35,70 35,90 36,10 36,30 36,50 36,70 36,90 37,10 569,60 341,00 274,40 517,50 798,10 1047,00 1825,20 2471,00 3266,00 2927,40 2046,30 830,30 544,50 365,00 220,20 184,50 74,20 17732,60 11628,10 9411,92 17853,75 27694,07 36540,30 64064,52 87226,30 115943,00 104508,18 73462,17 29973,83 19765,35 13322,50 8081,34 6808,05 2752,82 629036,20 1. Représenter l’histogramme des effectifs de cette série statistique, ainsi que le polygone des fréquences cumulées croissantes. 2. Calculer une valeur approchée de la moyenne et de l’écart-type de la série au centième le plus proche. 3. Déterminer, au vue du polygone des fréquences cumulées, la médiane et l’écart interdécile. On donnera le résultat au dixième le plus proche. 4. Calculer le pourcentage de pièces acceptables. L’objectif est-il atteint ? Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPénoncés Octobre 2000 (STAT01E05) On considère les notes obtenues à l’épreuve de mathématiques par les 35 candidats d’un concours. 16,5 9 15 6,5 12,5 7 13,5 1. 2. 3. 4. 5. 6. 7. 8. 13,5 16 11,5 7,5 7 16,5 15 2,5 9,5 8,5 12 9,5 11 11,5 8,5 10,5 6 5 5 11,5 15 17,5 9,5 5,5 7 16 18,5 9 Regrouper par valeurs cette série. Tracer le diagramme en bâtons. Déterminer la médiane. Déterminer une valeur approchée au dixième le plus proche de la moyenne x de cette série. Quel est le pourcentage des notes appartenant à l’intervalle 7 ,5;13,5 Quel est approximativement l’écart interquartile de cette série. Donner une valeur approchée au dixième le plus proche, de l’écart-type σ , de cette série. Déterminer le pourcentage de notes comprises dans l’intervalle 2 2 x − σ;x + σ 3 3 LM N OP Q Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 SUPénoncés Octobre 2000 (STAT01S01) Un recensement récent donne pour les 20 arrondissements de Paris cités dans l’ordre les chiffres de population suivant ( arrondis à 100 unités près) : 18500 48900 146900 179400 21200 67500 138000 169500 36100 46400 170800 186900 34000 64100 138600 162600 62200 87000 225600 172000 1. Calculer la moyenne et l’écart type. 2. Effectuer un regroupement suivant les classes de largeur 30000 : 10000;40000 ... etc 3. Tracer l’histogramme et donner une conclusion. Calculer à nouveau la moyenne et l’écart type. Comparer les résultats. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 SUPénoncés Octobre 2000 (STAT01S02) Une étude statistique dans une grande entreprise fait apparaître la répartition des ouvriers par tranche de salaire net annuel suivante : Salaire Effectif Ni moins de 72 [72 ; 75[ [75; 78[ [78; 81[ [81; 84[ [84; 87[ 87 et plus Somme 5 10 28 27 15 12 3 100 1. Faire un histogramme de cette série. 2. Calculer une valeur approchée de la moyenne et de l’écart-type de la distribution des salaires, en prenant comme valeur commune de la classe, le centre. 3. Donner la classe modale de cette statistique. 4. Donner une estimation de la médiane en effectuant une interpolation linéaire. 5. Donner en effectuant les interpolations linéaires nécessaires, le pourcentage de la population ouvrière dont les salaires sont dans l’intervalle : [ 75 ; 83 ] , puis dans l’intervalle [ 71 ; 87 ] Que vous inspirent ces résultats ? Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 (STAT01E03) 1. Diagramme en bâtons xi 0 1 2 3 4 5 6 7 8 9 10 0 Total ni 25 52 58 35 19 5 4 0 1 0 1 200 2 nixi 0 52 116 105 76 25 24 0 8 0 10 416 nixi 0 52 232 315 304 125 144 0 64 0 100 1336 Diagramme en bâtons 70 Nombre de familles 60 50 40 30 20 10 0 1 2 3 4 5 6 7 Nombre d'enfants 8 9 10 11 2. Moyenne : Nous avons un regroupement par valeurs, il faut donc utiliser la formule : ∑ ni xi = 416 = 2,08 ∑ ni 200 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 3- Ecart-type : On calcule tout d’abord la variance : 2 ni xi 2 2 1336 416 ∑ VarX = − x = − = 2 ,35 200 200 ∑ ni Puis l’écart-type : () σX 4 • 2 1336 416 = VarX = − = 1,5341 200 200 Médiane et quartiles Médiane : Pour trouver la médiane, et les quartiles, il suffit de ranger par ordre croissant les valeurs du caractère pour chaque famille. Le travail est déjà fait dans le tableau. La médiane est LA valeur du caractère pour laquelle 50% de l’effectif a une valeur supérieure ou égale et 50% inférieure ou égale. Sur cet exemple, la 99ième famille, la 100ième et la 101ième ont deux enfants. Ici la réponse est simple : la médiane est 2. • Quartiles q1 ( premier quartile ): La valeur du caractère pour laquelle 75% de l’effectif a une valeur supérieure ou égale et 25% inférieure ou égale. Sur cet exemple, la 25ième famille n’a pas d’enfant, la 26ième en a un. Si on prend 0, on a 25% des familles avec une valeur inférieure ou égale et 76% avec une valeur supérieure ou égale. Il faut donc prendre le milieu. q1 = 0 ,5 . Ici le premier quartile n’est pas une valeur du paramètre. • Quartile q3 : ( troisième quartile ) La valeur du caractère pour laquelle 25% de l’effectif a une valeur supérieure ou égale et 75% inférieure ou égale. Sur cet exemple, la 74ième famille, la 75ième et la 76ième ont quatre enfants : la réponse est simple : q3 = 4 . L’écart interquartile est donc : q3 − q1 = 4 − 0 ,5 = 3,5 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 5 COMPsolutions Octobre 2000 Intervalle x − α ; x + α La moyenne est de 2,08. On cherche donc un réel α tel que dans l’intervalle [2,08 − α ; 2,08 + α ] on trouve 3 individus sur 4. On remarque que l’intervalle [1; 4] contient 52 + 58 + 35 + 19 = 164 individus. Si on prend l’intervalle [2 , 08 − 1, 08; 2, 08 + 1, 08] = [1; 3,16] , celui-ci contient 145 ≈ 0 , 725 , on peut considérer que cet 150 intervalle satisfait aux conditions de l’énoncé. 52 + 58 + 35 = 145 individus. Et comme On peut également admettre l’intervalle [2,08 − 1,92; 2,08 + 1,92] = [0,16; 4] car 164 ≈ 0,82 n’est pas très loin des conditions exigées. 200 4- Calcul du mode Le mode ou les modes sont les valeurs du paramètre pour lesquelles l’effectif est le plus grand. Ici le mode est unique et vaut 2 (effectif de 58 ). Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 (STAT01E04) 1 Histogramme des effectifs et polygone des fréquences cumulées croissantes 92 70 52 30 34 2 35 35,4 36. 36,4 37 Calcul d’une valeur approchée de l a moyenne et de l’écart-type de la série.. Vous remarquerez qu’on parle de valeurs approchées. En effet, nous n’avons aucun renseignement concernant la répartition des individus dans chaque classe et nous faisons l’hypothèse que ceux-ci y sont uniformément répartis. On prend donc comme valeur moyenne du caractère, le milieu de classe ci . Les formules sont donc : ∑ ni ci = 17732,60 = 35,47 500 ∑ ni 2 ni ci 2 2 629036 , 20 17732 ,60 ∑ VarX ≈ −x = − = 0 , 29 500 500 ∑ ni x≈ σ X ≈ VarX = 0 ,54 Il faut, à chaque étape, reprendre la valeur non approchée du calcul précédent afin de ne pas multiplier les erreurs. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 3 COMPsolutions Octobre 2000 Résolution graphique. On demande une résolution graphique que nous proposons sur la page suivante. Diamètre [34 ; 34,2[ [34,2; 34,4[ [34,4; 34,6[ [34,6; 34,8[ [34,8; 35 [ [35 ; 35,2[ [35,2; 35,4[ [35,4; 35,6[ [35,6; 35,8[ [35,8;36 [ [36 ; 36,2[ [36,2; 36,4[ [36,4; 36,6[ [36,6; 36,8[ [36,8; 37 [ [37 ; 37,2[ Total effectif ni 10 8 15 23 30 52 70 92 82 57 23 15 10 6 5 2 500 centre de classe ci 34,1 34,3 34,5 34,7 34,9 35,1 35,3 35,5 35,7 35,9 36,1 36,3 36,5 36,7 36,9 37,1 569,6 effectifs cumulés croissants 10 18 33 56 86 138 208 300 382 439 462 477 487 493 498 500 500 Cependant, nous allons faire le calcul théorique d’interpolation linéaire souvent demandé dans les exercices. Cette question encore d’actualité dans de nombreux sujets est très critiquée par les statisticiens pour qui, cette interpolation linéaire n’a pas de sens. En effet disent-ils, la médiane ou toute valeur de dispersion n’ont de sens que si elles sont calculées à partir des valeurs exactes. Cependant plions-nous de bonne grâce à la résolution de cet exercice purement mathématique. 208 individus ont une valeur du caractère inférieure ou égale à 35,4 et 300 individus ont une valeur du caractère inférieure ou égale à 35,6. La médiane est donc dans l’intervalle [35, 4; 35,6] . Cette classe contient environ 100 individus en considérant que les individus sont uniformément répartis dans cet intervalle, on sait que la valeur cherchée sera proche de 35,5. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 Effectifs 300 B 250 208 C A 34,4 D E 34,6 Valeur du caractère AD CD CD 42 = ⇒ AD = AE × ⇒ 0, 2 × = 0 ,09 AE BE BE 92 Finalement la valeur obtenue grâce à cette interpolation linéaire 35, 4 + 0 ,09 = 35, 49 . En appliquant Thalès : est On peut opérer de même pour les valeurs des premier et dernier déciles. 50 − 33 d1 = 34 ,6 + 0 , 2 × ≈ 34 ,75 56 − 33 450 − 439 d9 = 36 + 0, 2 × ≈ 36 ,1 462 − 439 L’écart interdécile est alors 1,35 On peut lire sur ce graphique représentant le polygone des effectifs cumulés croissants les valeurs de la médiane et de l’écart interdécile. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 effectifs cumulés croissants 600 500 400 effectifs cumulés croissants 300 200 100 34 ,1 34 ,5 34 ,9 35 ,3 35 ,7 36 ,1 36 ,5 36 ,9 0 m ≈ 35,5 d1 ≈ 34, 7 et d9 ≈ 36 ,1 e10 ≈ 36 ,1 − 34 ,7 ≈ 1, 4 On peut dire que 80% de la population est dans l’intervalle [34 , 7; 36 ,1] . On notera que les résultats théoriques sont proches des lectures graphiques. 4 Pourcentage des pièces acceptables. L’intervalle de tolérance est [35,5 − 1,1; 35,5 + 1,1] = [34 , 4; 36 ,6] On compte les individus dont les valeurs du caractère sont dans cet intervalle. On trouve : 500 − 31 = 469 . 469 × 100 ≈ 93,8 . Cela représente 500 L’objectif n’est donc pas atteint. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 (STAT01E05) 1 Regroupement par valeurs Note xi 2,50 5,00 5,50 6,00 6,50 7,00 7,50 8,50 9,00 9,50 10,50 11,00 11,50 12,00 12,50 13,50 15,00 16,00 16,50 17,50 18,50 Total effectif ni 1 2 1 1 1 3 1 2 2 3 1 1 3 1 1 2 3 2 2 1 1 35 nixi nixi 2,5 10 5,5 6 6,5 21 7,5 17 18 28,5 10,5 11 34,5 12 12,5 27 45 32 33 17,5 18,5 376 2 6,25 50 30,25 36 42,25 147 56,25 144,5 162 270,75 110,25 121 396,75 144 156,25 364,5 675 512 544,5 306,25 342,25 4618 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 2 COMPsolutions Octobre 2000 Diagramme en bâtons Diagramme en bâtons effectifs 4 3 2 1 0 notes 3 Médiane La médiane est la valeur pour laquelle il y a autant d’individus ayant une valeur du paramètre supérieure que d’individus ayant une valeur du paramètre inférieure. Le nombre d’individus étant impair, la médiane est la 18ième valeur donc : 10,5 4 Valeur approchée de la moyenne On choisit la formule de la moyenne pour les regroupements par valeur. ∑ xi ni = 376 ≈ 10,7 x= ∑ ni 35 5 Pourcentage d’individus dans l’intervalle [7 ,5;13,5] Il suffit de compter dans le tableau. Il y a 17 individus dans l’intervalle, donc 6 17 × 100 ≈ 48, 6% 35 Ecart interquartile Les 8ième et 9ième individus ont pour valeur du caractère 7. Les 27ième et 28ième individus ont pour valeur du caractère 15. q1 ≈ 7 et q3 ≈ 15 q3 − q1 ≈ 8 7 Valeur approchée de l’écart type On choisit la formule de l’écart type pour les regroupements par valeur. Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 COMPsolutions Octobre 2000 2 x 2i ni 2 4618 376 ∑ VarX = −x = − ≈ 16 ,53 35 35 ∑ ni σ X = VarX = 4 ,1 8 2 2 Pourcentage d’individus dans l’intervalle x − σ ; x + σ 3 3 2 2 x − 3 σ ; x + 3 σ = [7 ,97;13, 43] On compte 14 individus dans cet intervalle soit 14 × 100 ≈ 40% 35 Cycles Préparatoires du Service Commun de Formation Continue de L’INPL Cours et Exercices : Philippe Leclère STAT01 : GI SOLUTIONS octobre 2000 (STAT01E01A) 1 Informations à la lecture de ces données. • • • L’effectif des hommes et des femmes est le même. Les salaires féminins sont plus faibles que les salaires masculins. Les salaires féminins sont compris dans l’intervalle 105;158 • Les salaires masculins sont compris dans l’intervalle 141;179 2 Regroupement en classes Femmes Hommes 0,133 fréquences cumulées 0,133 effectifs fréquences ]104;114] 0 0,000 fréquences cumulées 0,000 4 0,133 0,267 ]114;124] 0 0,000 0,000 ]124;134] 8 0,267 0,533 ]124;134] 0 0,000 0,000 ]134;144] 6 0,200 0,733 ]134;144] 2 0,067 0,067 ]144;154] 7 0,233 0,967 ]144;154] 10 0,333 0,400 ]154;164] 1 0,033 1,000 ]154;164] 9 0,300 0,700 ]164;174] 0 0,000 1,000 ]164;174] 7 0,233 0,933 ]174;184] 0 0,000 1,000 ]174;184] 2 0,067 1,000 30 1,000 30 1,000 Classes effectifs fréquences ]104;114] 4 ]114;124] Total Classes Total Représentation graphique On peut dessiner deux histogrammes en portant indifféremment en ordonnées les effectifs ou les fréquences car les classes sont de même amplitude. Cycles Préparatoires du Service Commun de Formation Continue de l'INPL. Cours et exercices : Philippe Leclère STAT01 : GI SOLUTIONS octobre 2000 12 10 8 6 4 2 0 Série1 Série2 ]1 04 ;1 14 ]1 ] 14 ;1 24 ] ]1 24 ;1 34 ] ]1 34 ;1 44 ]1 ] 44 ;1 54 ] ]1 54 ;1 64 ] ]1 64 ;1 74 ] ]1 74 ;1 84 ] effectif SALAIRES en milliers de francs La série 1 représente les femmes et la série 2 les hommes. 3 Moyennes des distributions initiales : On x la moyenne de la population totale On x f la moyenne de la population féminine On x h la moyenne de la population masculine x= 1 60 1 30 1 30 4766 + 3988 x xf xhk = = + = 145,9 ∑ ∑ ∑ k k 60 k =1 30 k =1 30 k =1 60 xf = 1 30 3988 xf k = = 132 ,9 ∑ 30 k =1 30 1 30 4766 xh = xhk = = 158,9 ∑ 30 k =1 30 Cycles Préparatoires du Service Commun de Formation Continue de l'INPL. Cours et exercices : Philippe Leclère STAT01 : GI 4 SOLUTIONS octobre 2000 Moyenne d’après les regroupements par classe. Pour chaque classe on prend comme valeur du paramètre le milieu de la classe. On obtient alors : 4 × 109 + 4 × 119 + 8 × 129 + 8 × 139 + 17 × 149 + 10 × 159 + 7 × 169 + 2 × 179 ≈ 145,3 60 4 × 109 + 4 × 119 + 8 × 129 + 6 × 139 + 7 × 149 + 1 × 159 x′ f = ≈ 132 ,7 30 2 × 139 + 10 × 149 + 9 × 159 + 7 × 169 + 2 × 179 x′h = ≈ 158 30 On remarque que les résultats sont sensiblement différents des résultats exacts. La répartition dans chaque classe n’est donc pas uniforme. x′ = 5 Calcul des médianes Pour la série totale En observant les données rangées par ordre croissant, on trouve : 149 pour le rang 30 et 150 pour le rang 31. En appliquant la règle du cours : « demi149 + 150 = 149 ,5 somme de ces valeurs » ; mg = 2 Pour la série femmes En observant les données rangées par ordre croissant, on trouve : 133 pour le rang 15 et 134 pour le rang 16. En appliquant la règle du cours : « demi133 + 134 somme de ces valeurs » ; m f = = 133,5 2 Pour la série hommes En observant les données rangées par ordre croissant, on trouve : 156 pour le rang 15 et 160 pour le rang 16. En appliquant la règle du cours : « demi156 + 160 = 158 somme de ces valeurs » ; m f = 2 On notera que calculer les médianes pour les valeurs regroupées n’a pas de sens, bien que souvent ce soit demandé dans les sujets. Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous conseillons vivement de contacter votre tuteur. Cycles Préparatoires du Service Commun de Formation Continue de l'INPL. Cours et exercices : Philippe Leclère STAT01 : GI SOLUTIONS octobre 2000 (STAT01E02A) 1. Calcul des quartiles On reprend les tableaux exhaustifs des deux séries. Pour la série des femmes : • • Les termes de rang 7 et 8 valent 120. Donc Q1 = 120 Le terme de rang 22 vaut 142 et le terme de rang 23 vaut 145. • Si on prend 142 alors 73,33% de la population ont une valeur inférieure ou égale et 30% ont une valeur supérieure ou égale. • Si on prend 145 alors 76,67% de la population ont une valeur inférieure ou égale et 26,67% ont une valeur supérieure ou égale. • Pour toute valeur comprise entre 142 et 145, on trouve : .73,33% en dessous et 26,67 au dessus. • Il est donc clair qu’il n’y a pas de valeur qui permette de répondre exactement au problème. On choisira la moins mauvaise soit 145. • l’écart interquartile vaut donc 145 − 120 = 25 D’une manière générale, si le nombre d’observations est grand, l’erreur commise est assez faible et on peut se rapprocher fortement des valeurs 25% et 75%. xk + xk +1 x + xn −k +1 et Q3 = n −k ( valeurs exactes ) 2 2 et Q3 = xn−k ( valeurs approchées ) Si n = 4k alors Q1 = Sinon Q1 = xk +1 On peut ne pas apprendre ces résultats et conjecturer en essayant les différentes valeurs, comme ci-dessus. Pour la série des hommes : • Q1 = 151 , Q3 = 166 et donc Q3 − Q1 = 166 − 151 = 15 Pour la série totale, on est dans le cas 60 = 4 × 15 • Q1 = x15 + x16 x + x66 = 133,5 et Q3 = 45 = 159 2 2 Cycles Préparatoires du Service Commun de Formation Continue de l'INPL. Cours et exercices : Philippe Leclère STAT01 : GI SOLUTIONS octobre 2000 2. Calcul des écarts type pour la série exhaustive. σf 2 ( ) 1 30 2 = ∑ x f ,i − x f 30 i =1 2 ( ) 1 30 2 σh = ∑ xh,i − xh 30 i =1 σ = 2 () 1 60 2 ∑ xi − x 60 i =1 2 536176 3988 = − ≈ 14, 2 30 30 = 2 = 759954 4766 − ≈ 9 ,7 30 30 1296130 2 − (145.9 ) ≈ 17 ,8 60 3. Calcul des écarts type pour la série exhaustive. σ ′f ≈ 14 σ h′ ≈ 10, 4 σ ′ ≈ 17 ,8 Sur les questions 2 et 3, on peut faire les remarques suivantes : • • • L’écart type des femmes est plus faible que celui des hommes. Cela signifie sans doute que les fonctions remplies par les femmes sont assez homogènes. Compte tenu des différences de salaires, elles occupent sans doute peu de postes à responsabilité ou de cadre. L’écart type de la population totale est important, ce qui est dû à la présence de deux groupes assez différents. Les pertes d’information ne sont pas très significatives après les regroupements par classe. Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous conseillons vivement de contacter votre tuteur. Cycles Préparatoires du Service Commun de Formation Continue de l'INPL. Cours et exercices : Philippe Leclère STAT01 AIDES Octobre2000 (STAT01E01A) 1 Le tableau original ne permet pas de tirer des conclusions sur les raisons de disparité des salaires entre les hommes et les femmes. On peut cependant s’en tenir aux chiffres et donner les valeurs extrêmes pour chaque famille. 2 Regroupement en classes On peut remplir le tableau suivant : Femmes Classes ]104;114] effectifs 4 fréquences Hommes fréquences cumulées Classes effectifs fréquences cumulées ]104;114] ]114;124] ]114;124] ]124;134] ]124;134] ]134;144] ]134;144] ]144;154] ]144;154] ]154;164] ]154;164] ]164;174] ]164;174] ]174;184] ]174;184] Total fréquences Total On peut dessiner deux histogrammes en portant indifféremment en ordonnées les effectifs ou les fréquences car les classes sont de même amplitude. 3, 4 Pour les moyennes on se reportera au cours. 5 On observe les données rangées par ordre croissant Service Commun de Formation Continue de l’INPL Cours et exercices : Philippe Leclère 1 STAT01 AIDES Octobre2000 (STAT01E02A) Calcul des quartiles On reprend les tableaux exhaustifs des deux séries et on opère comme pour la médiane. D’une manière générale, si le nombre d’observations est grand, l’erreur commise est assez faible et on peut se rapprocher fortement des valeurs 25% et 75%. xk + xk +1 x + xn −k +1 et Q3 = n −k ( valeurs exactes ) 2 2 et Q3 = xn−k ( valeurs approchées ) Si n = 4k alors Q1 = Sinon Q1 = xk +1 Pour les calculs d’écart type on se reportera aux formules du cours. On essaiera de commenter les deux séries de résultats, données exhaustives et données groupées. Service Commun de Formation Continue de l’INPL Cours et exercices : Philippe Leclère 2