Test du khi-2 (Test de conformité)

Transcription

Test du khi-2 (Test de conformité)
Fiche n°02 de statistique inférentielle
1
Test du khi-2 (Test de conformité)
Comparer une distribution observée à une distribution de référence
Un échantillon, une variable nominale à plusieurs valeurs
Situation
La distribution d’une variable est connue dans une population qui fait référence. On souhaite
comparer à cette référence distribution de cette même variable, observée sur un échantillon de
la population.
Exemple
En 2004 1 79,7% des candidats ont obtenu le baccalauréat dont 28,8% des candidats
qui l’ont obtenu avec mention. Le lycée Descartes a scolarisé 238 élèves en classe
terminale, 199 ont obtenu le baccalauréat dont 84 avec mention.
Que penser des performances des élèves du lycée Descartes ?
Méthode statistique
La méthode statistique pour répondre à cette question comporte différentes étapes qui sont
réalisées de manière automatique, mais dont il faut comprendre la signification pour
interpréter le résultat produit par le logiciel.
1. On organise les données pour faire apparaître la distribution empirique des effectifs
observés sur l’échantillon étudié.
2. On calcule les effectifs de la distribution théorique qu’on obtiendrait sur un échantillon
théorique de même taille que l’échantillon étudié et où la distribution des fréquences de la
population parente s’appliquerait exactement.
3. On détermine l’écart entre cette distribution théorique et la distribution effectivement
observée. La méthode de calcul de cet écart est la méthode du khi-2.
4. On formule l’hypothèse de départ (notée H0 et dite hypothèse nulle) que l’échantillon
étudié est issu d’un échantillonnage aléatoire au sein de la population où les tirages
successifs des individus sont indépendants. Selon cette hypothèse, l’échantillon étudié est
une issue2 d’échantillon aléatoire et n’a donc aucune caractéristique particulière liée à la
situation étudiée. La distribution empirique est de même considérée comme une issue de
la distribution aléatoire associée à l’échantillon aléatoire.
5. On détermine la probabilité p d’obtenir, sous l’hypothèse nulle, un écart entre une
distribution aléatoire et la distribution théorique égal ou supérieur à celui obtenu avec
l’échantillon observé. Cette étape repose de manière sous-jacente sur des résultats
mathématiques de probabilité, des conditions sur les effectifs théoriques doivent être
remplies pour que la méthode soit valide : ils doivent être au moins égaux à 5.
6. Si cette probabilité est faible (c’est-à-dire inférieure à un seuil décidé à l’avance qui est
généralement de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que
l’échantillon observé possède des caractéristiques particulières liées à la situation étudiée.
On dit alors que la différence entre la distribution observée et celle de la population
parente est significative au seuil de 1% ou de 5%, on peut préciser le degré de
signification p. Sinon, on ne rejette pas l’hypothèse nulle, et on admet donc que
l’échantillon observé puisse ne pas posséder ces caractéristiques particulières, la
différence entre la distribution observée et celle de la population parente est attribuée aux
fluctuations d’échantillonnage. On dit que la différence n’est pas significative.
1
2
D’après la note d’information de mars 2005.
En probabilité, « issue » a le sens de réalisation, produit, résultat.
Fiche n°02 de statistique inférentielle
2
Exemple (suite)
La distribution « observée » des résultats au lycée Descartes est :
Observée
Échec
39
Sans mention
115
Mention
84
Sur un échantillon de même taille, la distribution « théorique » est :
Théorique
Échec
48,3
Sans mention
121,2
Mention
68,5
Le lycée Descartes affiche des réussites supérieures à la moyenne nationale puisque le
nombre d’échecs est inférieur au nombre attendu, le nombre de réussite sans mention
aussi, et le nombre de mention est supérieur au nombre attendu.
Un test du khi-2 de conformité au seuil de 5% montre néanmoins qu’il n’y pas de
différence significative entre les résultats du lycée Descartes et ceux de la population
nationale.
Avec le classeur d’outils statistiques, on obtient automatiquement :
Le détail de la méthode statistique repose sur le calcul de la distance entre les tableaux
selon la méthode du khi-2, et de l’évaluation de la probabilité de cette valeur du khi-2.
Calcul de la distance selon la méthode du khi-2 :
Distance
Échec
1,79
Sans mention
0,31
Mention
3,49
Total
5,59
Le nombre de degré de liberté du tableau de contingence est 2. Selon la loi de khi-2 à
2 degrés de liberté, la probabilité d’obtenir une valeur supérieure ou égale à 5,59 est
6,11%3.
La différence entre les résultats nationaux et ceux du lycée Descartes n’est donc pas
significative au seuil de 5%.
3
La valeur du khi-2 à 2 degrés de liberté qui correspond à 5% est 5,99, c’est le khi-2 théorique.