Test du khi-2 (Test de conformité)
Transcription
Test du khi-2 (Test de conformité)
Fiche n°02 de statistique inférentielle 1 Test du khi-2 (Test de conformité) Comparer une distribution observée à une distribution de référence Un échantillon, une variable nominale à plusieurs valeurs Situation La distribution d’une variable est connue dans une population qui fait référence. On souhaite comparer à cette référence distribution de cette même variable, observée sur un échantillon de la population. Exemple En 2004 1 79,7% des candidats ont obtenu le baccalauréat dont 28,8% des candidats qui l’ont obtenu avec mention. Le lycée Descartes a scolarisé 238 élèves en classe terminale, 199 ont obtenu le baccalauréat dont 84 avec mention. Que penser des performances des élèves du lycée Descartes ? Méthode statistique La méthode statistique pour répondre à cette question comporte différentes étapes qui sont réalisées de manière automatique, mais dont il faut comprendre la signification pour interpréter le résultat produit par le logiciel. 1. On organise les données pour faire apparaître la distribution empirique des effectifs observés sur l’échantillon étudié. 2. On calcule les effectifs de la distribution théorique qu’on obtiendrait sur un échantillon théorique de même taille que l’échantillon étudié et où la distribution des fréquences de la population parente s’appliquerait exactement. 3. On détermine l’écart entre cette distribution théorique et la distribution effectivement observée. La méthode de calcul de cet écart est la méthode du khi-2. 4. On formule l’hypothèse de départ (notée H0 et dite hypothèse nulle) que l’échantillon étudié est issu d’un échantillonnage aléatoire au sein de la population où les tirages successifs des individus sont indépendants. Selon cette hypothèse, l’échantillon étudié est une issue2 d’échantillon aléatoire et n’a donc aucune caractéristique particulière liée à la situation étudiée. La distribution empirique est de même considérée comme une issue de la distribution aléatoire associée à l’échantillon aléatoire. 5. On détermine la probabilité p d’obtenir, sous l’hypothèse nulle, un écart entre une distribution aléatoire et la distribution théorique égal ou supérieur à celui obtenu avec l’échantillon observé. Cette étape repose de manière sous-jacente sur des résultats mathématiques de probabilité, des conditions sur les effectifs théoriques doivent être remplies pour que la méthode soit valide : ils doivent être au moins égaux à 5. 6. Si cette probabilité est faible (c’est-à-dire inférieure à un seuil décidé à l’avance qui est généralement de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que l’échantillon observé possède des caractéristiques particulières liées à la situation étudiée. On dit alors que la différence entre la distribution observée et celle de la population parente est significative au seuil de 1% ou de 5%, on peut préciser le degré de signification p. Sinon, on ne rejette pas l’hypothèse nulle, et on admet donc que l’échantillon observé puisse ne pas posséder ces caractéristiques particulières, la différence entre la distribution observée et celle de la population parente est attribuée aux fluctuations d’échantillonnage. On dit que la différence n’est pas significative. 1 2 D’après la note d’information de mars 2005. En probabilité, « issue » a le sens de réalisation, produit, résultat. Fiche n°02 de statistique inférentielle 2 Exemple (suite) La distribution « observée » des résultats au lycée Descartes est : Observée Échec 39 Sans mention 115 Mention 84 Sur un échantillon de même taille, la distribution « théorique » est : Théorique Échec 48,3 Sans mention 121,2 Mention 68,5 Le lycée Descartes affiche des réussites supérieures à la moyenne nationale puisque le nombre d’échecs est inférieur au nombre attendu, le nombre de réussite sans mention aussi, et le nombre de mention est supérieur au nombre attendu. Un test du khi-2 de conformité au seuil de 5% montre néanmoins qu’il n’y pas de différence significative entre les résultats du lycée Descartes et ceux de la population nationale. Avec le classeur d’outils statistiques, on obtient automatiquement : Le détail de la méthode statistique repose sur le calcul de la distance entre les tableaux selon la méthode du khi-2, et de l’évaluation de la probabilité de cette valeur du khi-2. Calcul de la distance selon la méthode du khi-2 : Distance Échec 1,79 Sans mention 0,31 Mention 3,49 Total 5,59 Le nombre de degré de liberté du tableau de contingence est 2. Selon la loi de khi-2 à 2 degrés de liberté, la probabilité d’obtenir une valeur supérieure ou égale à 5,59 est 6,11%3. La différence entre les résultats nationaux et ceux du lycée Descartes n’est donc pas significative au seuil de 5%. 3 La valeur du khi-2 à 2 degrés de liberté qui correspond à 5% est 5,99, c’est le khi-2 théorique.