l`analyse log-linéaire de tableaux de contingence et le
Transcription
l`analyse log-linéaire de tableaux de contingence et le
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 L’ANALYSE LOG-LINEAIRE DE TABLEAUX DE CONTINGENCE ET LE MODELE LOGIT I : PRINCIPE, USAGE, INTERET ET LIMITES. The loglinear analysis of contingency tables and the logit model I : principle, application, interest and limits Estelle KAH Docteur en géographie (ATER) Laboratoire “Image et Ville”, faculté de Géographie - Université Louis Pasteur - Strasbourg mailto:[email protected] Michel PRUVOT Maître de conférences (Faculté de Géographie Strasbourg) Laboratoire “Image et Ville”, faculté de Géographie - Université Louis Pasteur - Strasbourg mailto:[email protected] Résumé Cet article présente les aspects théoriques de l’utilisation des méthodes log-linéaires, comme substitut à l’analyse de variance lorsque les variables sont catégorielles, et logit, comme substitut à la régression, dans le même contexte. Leur intérêt particulier est de modéliser des données catégorielles, donc qualitatives, rencontrées notamment dans les informations provenant d’enquêtes, en conservant leur caractère probabiliste. L’accent est mis sur les deux riches notions d’interaction et de rapport de chances qui permettent de révéler des phénomènes de liaisons non-linéaires complexes. Mots-clefs :Logit, Log-linéaire, Qualitatif, Interaction, Rapport de chances. Abstract This paper introduces the theoretical basis of the loglinear methods, as a substitute to analysis of variance when variables are categorical, and logit , as a substitute to regression analysis in the same context. Their specific advantage is to allow the modelling of categorical, thus qualitative data, often collected from surveys, while keeping their probabilistic nature. The stress is put on the concepts of interaction and odds ratio which allow to unveil complex phenomena with non linear relations. Key words : Logit, Loglinear, Qualitative data, Interaction, Odds ratio. De nombreuses données en géographie, comme les données d’enquête, notamment, sont bien souvent composées de données catégorielles ; on les qualifie encore de variables nominales. Ce sont des données logiques (vrai/faux), dichotomiques (du type oui/non, 1/0), multinomiales (favorable/défavorable/indifférent, ou rouge/bleu/jaune/vert/…etc.) qu’on peut souvent traduire en effectifs dans chacune des k modalités de variables de tableaux de contingence, ainsi que nous les connaissons dans les tests de khi2 ou les analyses des correspondances, par exemple. Les tests et la modélisation de ces données nécessitent l’utilisation d’une classe particulière de modèles. De même, le fait de raisonner sur des 1 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 probabilités de réaliser un comportement donné, un choix, etc., implique que les probabilités prédites restent dans les limites de valeur des probabilités (p ≤ 1). C’est à la classe des modèles log-linéaires qu’il faut faire appel. Cette classe de modèles a été développée à partir des travaux de Birch (1963), et de Goodman (1970). Selon Theil (1972), on peut remonter, pour la création du terme de logit, aux publications de Berkson en 1944. De nombreuses contributions ont depuis lors aidé à les enrichir (Haberman, 1974, par exemple) ; une somme est représentée par la publication d’Agresti (1990). Ce qui nous intéressera de façon plus limitée ici, ce sont les méthodes appliquées aux tableaux de contingence, et à tous les cas où l’on peut transcrire les données en de tels tableaux. La terminologie, la présentation et la formalisation étant extrêmement différentes selon les auteurs, nous ferons des choix dictés par un souci de simplicité et de familiarité avec d’autres méthodes plus généralement connues. Un exemple d’application permettra de privilégier quelques aspects particulièrement riches de la méthode concernant la notion de chances et celle d’interaction. 1.L’analyse log-linéaire Le principe général de l’analyse log-linéaire est proche de celui de l’analyse de variance, en ce qu’elle permet de tester des effets de modalités de variables et d’interactions entre des modalités de deux ou plusieurs variables, mais elle en diffère aussi fondamentalement, puisque ce ne sont pas des moyennes de variables continues qui sont prises en compte, mais des effectifs. Ce dont on cherche à rendre compte, ce ne sont pas des différences entre des moyennes de groupes, mais des différences entre des effectifs observés dans les cellules résultant du croisement des modalités de deux ou plusieurs variables, et les effectifs théoriques qu’on aurait eus si l’existence de diverses modalités n’avait aucune incidence sur les répartitions des effectifs. Le point de départ est toujours un tableau de contingence, à deux ou plusieurs critères. Ce qu’on va “expliquer”, c’est l’effectif de chaque cellule. Deux attitudes différentes peuvent présider à cette étude, l’une considérant chaque variable de façon similaire, symétrique, ayant donc le même statut, comme dans l’analyse de variance ; l’autre considérant l’une des variables comme une variable dépendante, les autres, comme des variables indépendantes, explicatives, comme dans les modèles de régression. Deux aspects principaux se partagent l’attention de l’utilisateur : les tests de signification, et la modélisation. Cette méthode s’appuie sur les principes de la statistique bayésienne et sur la notion de rapport de vraisemblance, qui remplace la notion plus familière de moindres carrés de la statistique linéaire classique. C’est ainsi que les tests de signification ne procèdent pas du χ2 de Pearson, mais du rapport de vraisemblance n G 2 = 2 i=Σ1 m ΣO =j 1 ij ln O ij T ij où Oi j et Ti j sont les effectifs observés et théoriques de chaque cellule d’un tableau de contingence. L’exemple Pour prendre un exemple simple d’accompagnement de l’explication, considérons un tableau de contingence bâti sur les résultats d’une enquête sur le consentement à payer pour l’amélioration du service des déchets ménagers, en vue de préserver l’environnement, à l’aide 2 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 de la méthode d’évaluation contingentei réalisée sur un échantillon de 300 personnes, dont 285 réponses utilisables ici avec, en lignes le consentement à payer (oui/non) et en colonnes, le lieu. Les 285 personnes ayant répondu sont réparties en fonction de leurs réponses. On a un petit tableau de contingence, auquel on peut adjoindre le tableau des effectifs théoriques (Tableau 1). Observés Rural Urbain oui non Marges des colonnes Marges des lignes Théoriques Marges Rural Urbain des lignes 65 107 65 48 130 155 oui non 172 113 285 Marges des colonnes 78.46 93.54 172.0 51.54 61.46 113.0 130 155 285 G 2 = 10.732 DdL = 1 p= 0.00105 Tableau 1 : test de l’indépendance entre le critère ligne et le critère colonne Un classique test du χ2 donne une valeur de 10.7 avec (2 – 1) = 1 degré de liberté. La différence à la situation d’indépendance est hautement significative (p = 0.001). Le rapport de vraisemblance G2 donne quant à lui une valeur de 10.732 et se lit dans une table de χ2 avec 1 degré de liberté. Il est bien sûr également hautement significatif. On commencera par le premier niveau d’explication. Si on considère un tableau de contingence à deux critères, le premier niveau de test est celui de l’équiprobabilité (égale probabilité entre les cellules). C’est le plus simple des modèles ; il n’est pas plausible dans une situation réelle, mais permet de progresser logiquement. Il supposerait que le tableau de contingence aurait pu présenter une même proportion de cas dans chaque cellule. Il s’agit de savoir si la situation réelle diffère significativement de cette situation théorique d’équiprobabilité. Cela correspond au test de l’effet de la moyenne générale : dans le cas de l’équiprobabilité, la moyenne générale reproduit, explique complètement les valeurs (Tableau 2). Observés Marges Théoriques Rural Urbain des lignes oui non Marges des colonnes Marges Rural Urbain des lignes 65 107 65 48 130 155 oui non 172 113 285 Marges des colonnes 71.25 71.25 142.5 71.25 71.25 142.5 142.5 142.5 285 G 2 = 25.230 DdL = 3 p= 0.00001 Tableau 2 : test de la moyenne générale (équiprobabilité) On a un G2 de 25.230, avec (4 - 1) = 3 degrés de liberté (une seule contrainte), le test est hautement significatif (p = 0.00001) ; le modèle ne représente pas du tout la réalité, comme on pouvait s’y attendre. 3 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Le modèle d’équiprobabilité conditionnelle reprend la même idée, mais restreinte à l’une des variables. Les effectifs des modalités oui / non étant disparates, on peut rendre cette répartition équiprobable, conditionnée aux seules modalités lignes (Tableau 3). Observés Rural Urbain oui non Marges des colonnes Marges des lignes Théoriques Marges Rural Urbain des lignes 65 107 65 48 130 155 oui non 86.00 86.00 56.50 56.50 142.5 142.5 172 113 285 Marges des colonnes 172 113 285 G 2 = 12.928 DdL = 2 p= 0.00156 Tableau 3 : test de l’équiprobabilité conditionnelle (colonne) Le même test G2 appliqué à cette hypothèse “naïve”, avec 2 degrés de liberté (4 – 2 contraintes), donne G2 = 12.928, soit une valeur hautement significative (p = 0.00156). Ici encore, le modèle ne correspond pas du tout à la réalité. La même opération réalisée sur l’autre variable, conditionnée au niveau des modalités colonnes est représentée dans le Tableau 4. Observés Marges Théoriques Rural Urbain des lignes oui non Marges des colonnes Marges Rural Urbain des lignes 65 107 65 48 130 155 oui non 172 113 285 Marges des colonnes 65.00 77.50 142.5 65.00 77.50 142.5 130 155 285 G 2 = 23.035 DdL = 2 p= 0.00001 Tableau 4 : test de l’équiprobabilité conditionnelle (ligne) Le test G2 appliqué à cette autre hypothèse “naïve”, avec 2 degrés de liberté (4 - 2 contraintes) donne toujours une valeur hautement significative : G2 = 23.035 soit une probabilité de p = 0.00001 ; même si elle est ici un peu moins vigoureuse, la conclusion est donc la même. Un deuxième niveau de test est celui des effets simultanés des lignes et colonnes : c’est le test du modèle d’indépendance : on compare les effectifs observés avec les effectifs théoriques correspondant à la situation d’indépendance entre les deux critères (lignes et colonnes). C’est le test classique du χ2 (également adapté au rapport de vraisemblance, soit le G2) (Tableau 5). 4 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Observés Rural Urbain oui non Marges des colonnes Marges des lignes Théoriques 65 107 65 48 130 155 oui non 172 113 285 Marges des colonnes G 2 = DdL = p= Marges Rural Urbain des lignes 78.46 93.54 172.0 51.54 61.46 113.0 130 155 285 10.732 1 0.00105 Tableau 5 : test de l’indépendance Comme précédemment, cependant, le modèle se révèle non pertinent, puisque le résultat du test montre un G2 de 10.732, avec (3-1) (2-1) = 2 degrés de liberté, soit un résultat hautement significatif (p = 0.00105). Le modèle d’indépendance ajuste mal les données. Cela veut dire que l’interaction (ici entre la variable en ligne et la variable en colonne) joue un rôle dans l’organisation des fréquences, et par conséquent dans l’explication du critère-ligne par le critère-colonne (et vice-versa). Le modèle log-linéaire est construit pour tester l’ensemble de ces hypothèses, en décomposant l’ensemble de la relation en ses différentes composantes. Quand il prend en considération tous les effets de toutes les variables, le modèle est dit saturé ; alors l’information est reconstituée à 100 %, le degré de liberté du test est bien sûr de 0. Il n’est plus nécessaire de faire un calcul pour tester ce modèle. En effet, le terme d’interaction prend en compte tout ce qui restait inexpliqué par le modèle d’indépendance, qui ne prenait en considération que les effets séparés des deux critères, qu’on nomme effets principaux. Le modèle d’interaction est un modèle saturé, en ce qu’il ne laisse donc rien d’inexpliqué, aucun résidu ; il reconstitue complètement les données réelles. De ce fait, il n’a aucun degré de liberté, et son G2, comme, du reste, son χ2 de Pearson, est égal à 0. Le résultat intéressant ici, est simplement le fait que l’interaction est le fait explicatif. En revanche, l’écriture du modèle est moins intéressante, et les résidus sont absents. Ce qui contribue à rendre ce modèle difficile, c’est la possibilité de l’écrire de plusieurs manières, sous forme additive ou multiplicative. Au départ, on a un certain nombre de sujets (représentant l’effectif total de l’échantillon) répartis dans un tableau de contingence, comme celui du Tableau 5. Le problème posé est d’expliquer les effectifs des cellules par les effets simples et d’interaction des deux critères de groupement en lignes et en colonnes. Ces effets peuvent être exprimés de façon additive, ainsi qu’on le fait en analyse de variance, ou multiplicative. En analyse de variance, le modèle est additif au sens où les effets s’additionnent pour reconstituer les valeurs individuelles sous la forme de l’équation : Xijk = µ + α j + β k + α β jk + eijk où : Xijk est la valeur de l’individu i classé sous la modalité j de la variable-ligne et de la modalité k de la variable-colonne, µ est la moyenne générale αj est l’effet de groupe de la variable-lignes βk est l’effet de groupe de la variable-colonnes αβjk est l’effet de groupe de l’interaction entre variables lignes et variables colonnes eijk est le résidu, la part non-expliquée par les effets 5 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Dans le modèle log-linéaire, c’est l’effectif présent dans une cellule qu’on cherche à expliquer. On l’exprime d’abord sous sa forme multiplicative : mij = τˆτˆiC τˆjL où : mij est l’effectif théorique de la cellule correspondant à la modalité i en ligne et la modalité j en colonne τˆ est l’effet de la moyenne géométrique des effectifs théoriques (attendus) des cellules (équivalent à la moyenne générale de l’analyse de variance) – (τ est la lettre tau) τˆiC est le rapport entre la moyenne géométrique des cellules de la ligne i et τˆ τˆ Lj est le rapport entre la moyenne géométrique des cellules de la colonne j et τˆ Ce modèle n’est pas tout à fait complet ; il constitue le modèle d’indépendance et la formule permet de reconstituer la valeur théorique mij qui est celle de l’hypothèse d’indépendance. Le modèle complet, qu’on appelle aussi modèle saturé, reconstitue l’effectif observé nij, en incluant le terme d’interaction τˆijCL , en prenant la forme : nij = τˆτˆ iCτˆ Lj τˆijCL où : τˆijCL est le terme d’interaction nij est l’effectif observé de la cellule correspondant à la modalité i en ligne et la modalité j en colonne. Toute l’information est reconstituée par un tel modèle ; il n’y a pas de terme résiduel. Avant de l’appliquer à l’exemple du consentement et du lieu, on va lui donner sa deuxième forme, la forme additive. Cette réécriture passe par la transformation en logarithme : ce n’est plus l’effectif mij qu’on reconstitue, mais son logarithme, soit ln (mij) : ( ) ( ) ln m ij = ln (τˆ ) + ln (τˆ iC) + ln τˆ Lj Si on écrit λ = ln(τˆ ), le modèle d’indépendance s’écrit de façon additiveii : ln(mij ) = λ + λCi + λLj et le modèle complet : ln (n ij ) = λ + λCi + λ Lj + λCL ij L’application de ces formules à l’exemple portant sur la relation entre le consentement et le lieu permet de suivre des résultats simples et leur interprétation élémentaire. Les coefficients τ et leur équivalent additif (exprimé en logarithme) λ sont présentés dans le Tableau 6. Terme Moyenne générale Calcul ˆτ = 4 78.456 × 93.544 × 51.544 × 61456 = 69.438 Logarithme λ = 4.240 6 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 78.546 × 61.456 69.438 51.544 × 93.544 τ nC = 69.438 93.544 × 61.456 τˆrL = 69.438 78.456 × 51.544 τˆuL = 69.438 Effet consentement = oui τˆoC = Effet consentement = non Effet lieu = rural Effet lieu = urbain = 0.811 = 1.234 = 1.092 = 0.916 λCo = −0.210 λCr = 0.210 λLr = 0.0879 λ Lu = − 0.0879 Tableau 6 : coefficients des modèles multiplicatif et additif Si le premier τ représente une “moyenne générale”, chacun des autres coefficients indique par quoi il faut multiplier cette moyenne pour trouver la valeur de la modalité (ligne ou colonne), et donc son importance relative. À partir de ces valeurs, on peut reconstituer la valeur théorique d’une cellule mij. Par exemple mou correspondant aux modalités “oui” et “urbain” : m12 = mou = τˆτˆ o τˆu = 69.438 × 0.811 × 0.916 = 51.544 C L Chacun des coefficients tau dans ces équations représente l’effet de chaque modalité de chaque variable dans la différence constatée entre la moyenne générale τˆ et la valeur de la cellule dans le tableau théorique, correspondant à l’hypothèse d’indépendance. On aurait pu faire la même opération par rapport à l’hypothèse d’équiprobabilité conditionnelle (au niveau des lignes) du Tableau 2 : La moyenne générale (moyenne géométrique) serait τˆ = 4 65 × 77.50 × 65 × 77.50 = 70.975 Les effets seraient neutres pour τˆrL = 1 et τˆuL = 1 et pour les consentements ils resteraient comme précédemment : τˆoC = 65 × 65 = 0.916 et τˆnC = 70.975 77.5 × 77.5 = 1.092 70.975 On peut vérifier que la cellule mor serait bien reconstituée à hauteur de la valeur théorique de l’hypothèse d’équiprobabilité conditionnelle, soit : m12 = mou = τˆτˆ o τˆu = 70.975 × 0.916 × 1.0 = 65 C L Il est maintenant possible de réécrire les effets sous leur forme logarithmique et linéaire, qui justifie le nom de log-linéaire qu’on donne au modèle ln (n ij ) = λ + λCi + λ Lj + λCL ij . Les valeurs figurent dans la troisième colonne du Tableau 6. On voit que les effets (additifs) des modalités d’une même variable ont une somme de zéro. Les coefficients multiplicateurs de 0.811 pour τˆoC et de 1.234 pour τˆnC une fois traduits en logarithmes, soit λCo = −0.210 et λCn = 0.210 , apparaissent plus clairement comme complémentaires. Les premiers expriment qu’il faut multiplier la moyenne générale τˆ par 0.811 ou 1.234 pour prendre en compte l’effet 7 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 des modalités oui ou non du consentement, les seconds indiquent ce qu’il faut ajouter au logarithme de la moyenne générale, pour prendre en compte ces effets (ici - 0.210 ou 0.210). Il est maintenant possible de résumer les résultats en vue du test des modèles (Tableau 7). Les modèles ddl p multiplicatifs additifs G2 ˆ mij = τ 25.230 3 0.00001 ln (mij ) = λ ln (mij ) = λ + λCi mij = τˆτˆiC mij = τˆτˆ mij = τˆτˆiCτˆ Lj ln (mij ) = λ + λLj nij = τˆτˆ τˆ τˆ ln n ij = λ + λCi + λ Lj + λCL ij L j C i L CL j ij ln (mij ) = λ + λCi + λ Lj 23.035 2 0.00001 12.928 2 0.00156 10.732 1 0.00105 0 0 — ( ) Tableau 7 : test des modèles successifs Le dernier modèle est le modèle saturé. C’est celui qui contient l’interaction, et c’est ici celui qu’il faut retenir, puisque tous les autres modèles d’ordre inférieur n’ajustent pas les données de façon satisfaisante : la différence avec les valeurs observées est hautement significative dans tous les cas. C’est en effet un cas rare où on attend un test non significatif, pour retenir la solution. Le test des effets marginaux est celui de l’association partielle. Nous avions précédemment testé les effets principaux en créant des modèles simples, mais, ils incluent les effets d’ordre inférieur. Ainsi, le modèle ln (mij ) = λ + λCi , par exemple, inclut l’effet du modèle ln (mij ) = λ de la moyenne générale. On peut, en revanche, tester l’effet isolé, corrigé d’autres effets, l’association partielle, en soustrayant le G2 correspondant. Quand on passe du modèle le plus simple (et le moins bien ajusté) au modèle avec effet principal C (consentement), on passe de G2 = 25.230 à G2 = 23.035, soit, puisque G2 se décompose de manière additive, une différence de (25.230 – 23.035) = 2.196, avec un degré de liberté de 3 – 2 = 1. La différence n’est pas significative (p = 0.138). L’effet corrigé pour le lieu est la différence de G2 = 25.230 à G2 = 12.928, soit 12.303, avec un degré de liberté de 3 – 2 = 1 : soit une différence hautement significative (p = 0.00045). Enfin, pour l’effet d’interaction, le test revient au même que celui que nous avons déjà réalisé, puisque la différence entre le modèle d’indépendance (comprenant les 2 effets, mais indépendamment), et le modèle saturé, comprenant l’interaction, est la différence entre G2 = 10.732 et G2 = 0.0, soit 10.732 (la valeur du G2 du modèle d’indépendance, avec le même degré de liberté), c’est-à-dire une valeur hautement significative. Il convient en analysant ces résultats, de noter une chose, en suivant une remarque essentielle de D. Howell (1998)iii : si, en analyse de variance, les effets principaux des variables peuvent être interprétés comme effets, ces mêmes effets principaux en analyse log-linéaire ne peuvent pas l’être, car ils peuvent ne refléter que les différences d’effectifs des modalités, lesquelles peuvent être dues aux conditions de l’enquête, au plan d’échantillonnage, et non à des variations susceptibles d’être expliquées, tandis qu’il n’en est pas ainsi pour toutes les formes d’interaction. 8 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Comme le modèle d’indépendance n’ajuste pas de manière satisfaisante les effectifs observés, c’est le modèle saturé que nous sommes amenés à retenir ici. On peut calculer les coefficients λ qui correspondent à la forme logarithmique du modèle. Le premier est le logarithme naturel de la moyenne géométrique de toutes les cellules du tableau de contingence, soit une moyenne générale (correspondant au modèle d’équiprobabilité) : λ = ln ( 65 × 65 ×107 × 48 )= ln (68.2516 ) = 4.2232 4 Les effets principaux des modalités sont les moyennes marginales, auxquelles est soustraite la moyenne générale, afin d’isoler l’effet de la modalité proprement dite. Le tableau des logarithmes des effectifs et des moyennes marginales consiste à remplacer les effectifs par leur logarithme et à calculer les moyennes de ces logarithmes en lignes et colonnes (Tableau 8). critèreConsentement ligne Moyennes marginales Oui Non Critère-colonne Lieu rural urbain 4,1744 4,1744 4,6728 3,8712 4,4236 4,0228 Moyennes marginales 4,1744 4,2720 4,2232 Tableau 8 : logarithmes des effectifs et moyennes marginales On peut calculer, par exemple λCo comme la moyenne marginale du oui à laquelle on soustrait la moyenne générale, soit λCo = 4.1744 − 4.2232 = − 0.0488 et par conséquent λCn = 4.2720 − 4.2232 = 0.0488 qui lui est complémentaire par rapport à zéro, puisque tous les effets d’une variable ont une somme égale à zéro. Les effets d’interaction se calculent en soustrayant la moyenne générale et les effets des modalités concernées du logarithme de la valeur observée de la cellule. Ainsi par exemple : C L λCL ou = ln (n12 ) − λ − λ o − λ u = 4.1744 − 4.2232 − (− 0.0488) − 0.2004 = − 0.2004 On vérifie aisément les autres valeurs, d’autant que les interactions d’une modalité ont elles aussi une somme égale à zéro. On peut rassembler dans le tableau (Tableau 9) l’ensemble de ces résultats. Oui Consentement Non Effets principaux Critère ligne Critère colonne Lieu rural urbain CL CL λ or = −0.2004 λ ou = 0.2004 CL λ nr = 0.2004 λCL nu = −0.2004 L λr = 0.2004 λ Lu = − 0.2004 Effets principaux λCo = −0.0488 λCn = 0.0488 λ = 4.2232 Interactions 9 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Tableau 9 : effets principaux et d’interaction Ce tableau donne les coefficients λ. Les valeurs positives de λ correspondent aux modalités (lignes ou colonnes) où les fréquences sont supérieures à la moyenne générale. Il faut noter ici que les similitudes des coefficients, en dehors des sommes nulles citées plus haut, sont dues à la petite taille de l’exemple et à 2 valeurs similaires dans le tableau de contingence. Ainsi une première réponse sommaire est fournie : avec λCo = −0.0488 et son complément λCn = 0.0488 les réponses générales “oui” et “non” au consentement, n’offrent pas un déséquilibre notable. Les effets principaux (hors interaction) des modalités lieu révèlent des différences de réponses un peu plus importantes ; ainsi λ Lr = 0.2004 , l’effet de la modalité avec une valeur positive plus élevée joue un rôle supérieur à la moyenne. Plus intéressants, les coefficients d’interaction traduisent la tendance, à la rencontre de deux modalités : λCL or = −0.2004 traduit une conjonction qui tire l’effectif vers le bas. Cependant, dans l’ensemble, ces coefficients ne sont pas d’usage commode, car ils prennent en compte l’importance des effectifs d’une modalité (comme par exemple la part de personnes appartenant au monde urbain dans notre analyse) ; or cette donnée du plan d’expérience ou d’échantillonnage n’a pas nécessairement de signification : c’est la situation, ici. D’autres renseignements, comme les chances, que nous analyserons après le modèle logit, seront plus performants. 2. Le modèle logit Le modèle logit s’appuie sur les mêmes bases conceptuelles et utilise en grande partie les mêmes calculs que le modèle log-linéaire général, mais il s’en distingue par le fait qu’il établit la séparation entre variable dépendante et variables indépendantes, et peut être considéré comme un modèle de régression. Nous aurons d’un côté des variables indépendantes, subdivisées en modalités, de l’autre une variable dépendante, subdivisée en deux modalités : on parle alors de modèle logit dichotomique. Il existe également des modèles logit, parfois appelés polychotomiques, ou, plutôt, multinomiaux, plus complexes et surtout plus rarement disponibles dans les logiciels statistiques courants. La logique du modèle logit diffère donc quelque peu de celle du modèle log-linéaire. Le point de départ relève des probabilités conditionnelles bayésiennes, probabilités d’un évènement, lorsqu’une autre condition est remplie. Là où le modèle log-linéaire à trois variables s’écrit, par exemple : ( ) CL EL CEL ln n1 jk = λ + λC1 + λEj + λLk + λCE 1j + λ 1k + λ jk + λ1 jk pour la modalité 1 (oui) de la variable C (consentement), le modèle logit sera le logarithme népérien du rapport des chances du oui et du non, soit la fonction logit: F(π (oui )) = ln où : π (oui ) π (oui ) π (oui ) = ln 1 − π (oui ) π (non) est la probabilité du oui. 10 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Et, puisque la probabilité du oui, comme celle du non, est le rapport de l’effectif du oui (et du non) à l’effectif total qui est la somme des deux, le logit, dont le nom est dérivé de l’anglais log odds (log des chances) est le log du rapport des effectifs n1 jk du oui et n2 jk du non, soit : n1jk = ln(n1jk )− ln (n2 jk ) ln n2 jk CEL E L CE CL EL CEL C = (λ + λC1 + λEj + λLk + λ1CEj + λ 1CLk + λ EL jk + λ1 jk )− (λ + λ 2 + λ j + λ k + λ2 j + λ 2 k + λ jk + λ 2 jk ) C E CL EL CEL L CE CL EL CEL = λ + λC1 + λ Ej + λ Lk + λ CE 1 j + λ1k + λ jk + λ1 jk − λ − λ2 − λ j − λ k − λ 2 j − λ 2 k − λ jk − λ 2 jk C CL CEL CE CL CEL = λC1 + λCE 1 j + λ1 k + λ1 jk − λ 2 − λ2 j − λ 2 k − λ 2 jk Puisque la somme des coefficients des modalités d’une variable doit être nulle, λC1 + λC2 = 0 , et : λC2 = − λ C1 . Donc n1 jk C C CE CL CEL CE CL CEL = λ C1 + λ 1CEj + λ1CLk + λ CEL ln 1 jk + λ1 + λ1 j + λ 1k + λ1 jk = 2λ1 + 2λ 1 j + 2 λ1 k + 2 λ1 jk n2 jk Mais on préfèrera considérer ce rapport de probabilité comme les chances du oui par rapport n au non et noter le log des chances ln O1C = ln 1 jk et compacter l’écriture du modèle logit : n2 jk ln O1C = α + τ Ej + τ kL + τ où : EL jk ln O1C est le logarithme des chances de répondre oui (par rapport bien sûr au non) α = 2 λC1 est la constante (équivalente à l’ordonnée à l’origine b en régression) E CE τ j = 2λ1 j est l’estimation du coefficient (additif) de l’effet principal de la modalité j de la variable E sur les chances de dire oui, par rapport au fait de dire non τ kL = 2 λCL représente la même chose pour la modalité k de la variable L. 1k Il faut noter que les coefficients τ sont calculés à partir des λ du modèle log-linéaire et qu’il ne faut pas les confondre avec les τ̂ du modèle multiplicatif. On note aussi qu’il n’y a plus, dans ce modèle, d’éléments d’interaction entre les variables indépendantes, mais seulement entre celles-ci et la variable dépendante (comme c’est d’ailleurs le cas en régression multiple). Enfin les valeurs des coefficients τ̂ sont les augmentations ou diminutions des logarithmes des chances de répondre oui associées aux modalités notées en indices, par rapport à ce qu’on aurait attendu s’il n’y avait aucune relation avec cette modalité ou cette combinaison de modalités. Il est également possible d’exprimer ces coefficients de façon multiplicative en passant par l’exponentiation. L’équation devient C α τ E τ L τ jkEL O1 = e e j e k e 11 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 et les coefficients s’interprètent comme des augmentations ou des diminutions, mais par multiplication. Les tableaux des coefficients rassemblent les deux, car les seconds sont souvent plus faciles à concevoir pour les grosses modifications. La plupart des logiciels présentent les résultats de façons différentes, mais aussi simplifiées, puisque la somme des effets des modalités d’une variable s’annule, l’un des coefficients est dépendant des autres et est supprimé du listing. Pour les coefficients additifs λ , la neutralité (absence d’effet) est atteinte pour une valeur de 0, tandis que les valeurs négatives indiquent un effet de diminution, une valeur positive un effet vers l’augmentation. Dans le cas de la forme multiplicative du modèle, les coefficients notés τ ont une valeur de 1 dans le cas de la neutralité (absence d’effet), des valeurs supérieures (1 ≤ τ ≤ +∞) dans le cas d’un effet d’augmentation, et des valeurs fractionnelles (0 ≤ τ ≤ 1) dans le cas d’un effet réducteur. Pour ces coefficients, il est possible de calculer un test z. Pour l’effet du lieu, on teste l’hypothèse qu’il n’y a pas de différence entre les coefficients, c’est-à-dire pas d’effet du lieu (différence nulle) en la rapportant à l’erreur-type de cette différence. Le calcul en est complexe et l’erreur type est rarement fournie par les logiciels. Le résultat est une variable standardisée z qui suit une loi normale. On considère les seuils de significativité habituels, de 1.96 pour une probabilité de 5% et 1.65 pour 10%. L’ensemble de ces calculs et des résultats sont intéressants, mais les plus parlants, pour l’utilisateur, quand il s’agit d’interpréter concrètement, sont les chances et les rapports de chances. 3. La notion de chance et de rapport de chances Comme on l’a déjà introduit brièvement ci-dessus, les chances expriment le rapport de probabilités d’un événement et de l’événement complémentaire ; par exemple, si une variable catégorielle x possède 2 modalités ayant chacune une probabilité dont la somme est 1, les chances de la modalité 1 par rapport à la modalité 2 sont le rapport de la probabilité de la modalité 1, sur la probabilité de la modalité 2, soit (1- la probabilité de la modalité 1) : on peut les noter P(m1 ) = P(m1 ) P(m2 ) 1− P(m1 ) On sait donc que le logit est le logarithme de ce rapport des chances. Dans le cas d’un tableau de contingence simple à 2 variables, chacune ayant 2 modalités, du type oui/non. Variable L Variable C total oui non rural nor nnr n•r urbain nou nnu n•u Variable L total no • nn • n•• Variable C total oui non rural 65 107 172 urbain 65 48 113 total 130 155 285 les chances marginales sont calculées, par exemple, pour oui par rapport à non : 12 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 no• 130 = = 0.8387 nn• 155 tandis que les chances conditionnelles sont, pour, par exemple la modalité rural de la variable colonne L : nor 65 = = 0.6075 nnr 107 Les chances ne sont pas les mêmes pour les deux modalités de la variable L (lieu). Le rapport de chances est une mesure d’association pour deux variables. C’est le rapport des chances de deux modalités d’une variable. Par exemple, pour la variable L (lieu) de l’exemple ci-dessus, les chances de oui/non pour la modalité rural étaient de 0.6075 ; elles sont de 65/48 = 1.35 pour la modalité urbain. Le rapport des chances de rural par rapport à urbain est de 0.61 / 1.35 = 0.45. Le rapport des chances de urbain par rapport à rural est de 1.35 / 0.61 = 2.23. Les usagers urbains ont 2.23 fois plus de chances de répondre oui que non. Les rapports des chances, notés Ω , constituent, selon A. DeMaris (1992)iv, des mesures immédiatement interprétables. Si OorCL représente les chances de dire oui (consentement) en milieu rural (Lieu = r), et OouCL les chances de dire oui en milieu urbain (Lieu = u), τL OorCL eα e r τL τL Ω = CL = α τ L = e r − e u Oou e eu représente les chances de répondre oui en milieu rural, par rapport à celles de dire oui en milieu urbain, et ceci indépendamment des effectifs. Après l’analyse exploratoire des variables, des lieux et des ménages, la vérification d’hypothèses plus spécifiques peut être entreprise, et la modélisation permettra de rendre compte, de manière à la fois plus précise et plus rigoureuse, des liens explicatifs que la variable centrale de cette enquête (consentement) entretient avec certaines variables explicatives. C’est aussi à cela que peuvent répondre le modèle log-linéaire et le modèle logit. Avant d’en exploiter les possibilités, il convient d’abord d’en rappeler, schématiquement, l’intérêt et les principes de lecture des résultats. 4. Intérêt et lecture des résultats : les interactions L’exemple illustratif de l’analyse log-linéaire nous permettait de nous intéresser à la structure des informations sans différencier le statut des variables. En fait dans l’étude dont cet exemple est tiré, c’est le consentement à payer qui nous intéressait, et son explication par des conditions (caractéristiques des ménages), exprimées par l’intermédiaire de variables indépendantes, comme le fait de vivre en milieu rural ou urbain, le niveau d’éducation, etc. C’est donc au modèle logit qu’il a fallu s’adresser pour connaître les influences de modalités de ces variables et les interactions avec certaines combinaisons. Comme nous l’avons annoncé plus haut, en énonçant les principes de base de ces méthodes, le modèle logit permet de choisir une variable comme variable dépendante ; mais ce ne sont pas des valeurs individuelles de type continu qu’on va reconstituer plus ou moins bien, comme dans la régression classique. On commence par reconnaître les différentes modalités des 13 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 variables explicatives, tandis que la variable dépendante (expliquée) sera limitée à 2 modalités. Ainsi, le consentement à payer, que nous noterons C, aura une modalité oui (pour l’acceptation) et une modalité non (pour le refus). La variable C exprimera donc fondamentalement un choix. Ce qui nous intéressera, ce n’est pas tant le nombre de oui, ni même sa distribution par rapport à une autre caractéristique, que les chances que les ménages répondent oui selon les modalités d’une ou plusieurs autres variables, et selon les combinaisons particulières avec des modalités de ces variables explicatives. Ces combinaisons rassembleront des effectifs d’importance variable, traduisant des interactions plus ou moins marquées. Pour chacune des variables explicatives (ou indépendantes), on va tenter d’exprimer une mesure de son influence sur le choix C ; on appelle ces influences les effets principaux des variables. Les combinaisons particulières de modalités révèleront des effets qu’on appelle des interactions. Selon le nombre de variables, et selon le nombre de variables pris en compte dans ces interactions, on parlera d’interaction d’ordre 1, 2, etc., mais il faut savoir qu’il devient tout de suite très difficile d’imaginer et d’interpréter ce que représentent des interactions d’ordre 3, et même parfois d’ordre 2. Le modèle, dont nous avons rappelé plus haut la formulation habituelle, L C E ln O1 = α + τ j + τ k + τ où, dans cet exemple C E L j, k, l EL jk est la variable consentement est la variable éducation est la variable lieu sont des modalités pour un modèle à 3 variables (2 variables explicatives), possède un premier terme alpha qui représente un effet de “moyenne générale” (c’est le logarithme naturel de la moyenne géométrique de toutes les cellules) ; les coefficients tau à un seul indice et un seul exposant, représentent les effets principaux des variables identifiées par l’exposant, tandis que ce qui est ici le dernier terme, fournit l’effet (ou les effets dans les équations plus complexes) d’interaction. On peut exprimer ces coefficients comme étant les influences des variables ou de leurs interactions sur les chances de choisir la modalité 1 par rapport à la modalité 2, ici, de répondre oui, par rapport à ce qu’on aurait eu sans l’influence de la variable, ou de l’interaction. 14 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Graphique 1 Exemples de présence ou d’absence d’interactions (d’après une idée de D. Howell) On peut traduire visuellement l’interaction en portant sur un graphique (Graphique 1) les chances d’une modalité de la variable dépendante (par rapport à l’autre modalité), pour les différentes modalités d’un caractère B, respectivement pour les diverses modalités du caractère A : si les lignes brisées reliant les valeurs de chances des modalités A1, A2, etc. en fonction de B1, B2, etc. sont parallèles, il n’y a pas d’interaction ; dans le cas contraire, on reconnaîtra diverses formes d’interaction. D’autre part, lorsqu’un modèle contient tous les termes possibles d’effets principaux et d’interaction, on dit que le modèle est saturé ; il reconstitue les données sans erreur (pas de résidus) et il n’a aucun degré de liberté, au sens des statistiques. On peut éliminer de ce modèle des effets qui ne seraient pas significatifs, toujours au sens statistique du terme, au moyen d’un test G2 du maximum de vraisemblance, tel que nous l’avons présenté ci-dessus à propos des modèles log-linéaires. Rappelons qu’il présente des avantages sur le χ 2 , du point de vue de l’additivité, tout en s’interprétant de la même façon. Toutefois, on reste ici dans un modèle hiérarchique, c’est-à-dire que pour toute interaction retenue comme significative, on conservera les effets principaux, même s’ils ne sont pas significatifs. Avec des modèles à deux variables explicatives, la marge de manœuvre est réduite. On verra dans la deuxième partie de cet article, par E. Kahv le traitement de quelques hypothèses et l’interprétation de résultats à trois variables, dans le cadre d’une enquête fondée sur la méthode d’évaluation contingentevi. Cependant ces résultats se complètent avec d’autres, très intéressants : les rapports de chances, c’est-à-dire le rapport entre les chances obtenues par le oui dans une modalité donnée ou une association de modalités (interaction) et les chances obtenues par le non. Ce type de résultats est un des plus riches des modèles logit et fait l’objet essentiel de l’article complémentaire par E. Kah.. 15 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 5. Questions complémentaires et prolongements Cette présentation des modèles, nous l’avons cependant limitée au cas où on peut considérer les données sous la forme d’un tableau de contingence. Même s’il ne s’agit pas ici d’envisager la variété des possibilités des modèles et des questions qui se posent à l’utilisateur, il convient de signaler quelques points importants. Les résidus Pour chaque cellule du tableau de contingence, on peut calculer un résidu. C’est, comme en régression classique, la part non expliquée par le modèle ; mais ici il n’est pas calculé pour chaque individu, mais pour chaque cellule selon la formule : eij = Oij − Tij Tij ou encore, pour garder la même notation : eij = nij − mij mij Ainsi, pour le modèle d’indépendance, le résidu de la cellule oui/rural est : 65 − 78.46 = − 1.5196 78.46 Bien entendu le calcul d’un résidu n’a de sens que pour un modèle non saturé, puisque dans le cas contraire, l’effectif est entièrement reconstitué. eor = Nature des variables et choix de la méthode Des modèles multinomiaux peuvent être utilisés dans les modèles logit, lorsque la variable dépendante n’est pas dichotomique (2 modalités) , mais multinomiale. En effet, on ne peut constituer des chaînes de modèles dichotomiques, dans la mesure où ceux-ci ne sont pas indépendants. D’autre part, à côté des modèles où les modalités sont simplement des catégories, certaines variables sont découpées en modalités qui sont ordonnées, comme par exemple petit/moyen/gros, très bon/bon/passable/mauvais, toujours/parfois/jamais, etc. Il est avantageux alors d’utiliser des modèles qui prennent en compte le caractère ordinal de ces modalités. Lorsqu’on peut supposer que la variable dépendante n’est pas réellement une variable catégorielle, mais qu’elle reflète en réalité une variable sous-jacente de nature quantitative on se tournera vers les modèles probit, lesquels reposent sur l’inverse de la courbe normale standard cumulative. De nombreux auteurs signalent cependant que les résultats diffèrent peu de ceux des modèles logit. Le modèle tobit, plus rarement utilisé, répond à des situations où les variables sont extrêmement asymétriques. Quant à la régression logistique, elle concerne des données traitées individuellement, comme les régressions linéaires, et non regroupées dans des tableaux de contingence ; elle permet de mêler des variables continues et catégorielles. 16 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Des procédures pas à pas (stepwise) existent pour ajouter les variables selon leur contribution et leur significativité ou les retrancher, de la même façon que cela se fait en régression linéaire, en analyse discriminante ou en analyse de variance, par exemple. Elles présentent les mêmes attraits et les mêmes risques. Il existe des modèles hiérarchiques et non-hiérarchiques : dans les premiers, prendre en comte un niveau donné d’interaction, suppose de considérer tous les effets des niveaux inférieurs. Si nous nous sommes limités ici à des modèles hiérarchiques, cela ne signifie pas qu’il soient exclusifs : il est plus facile, et apparemment plus logique de tenir compte des effets de niveau inférieur. Certains logiciels ne traitent que ces cas-là. Les précautions et les limites La limite la plus marquante est liée à la quantité de données, c’est à dire aux effectifs, nécessaires pour pouvoir réaliser de telles analyses. Cette quantité varie en fonction du nombre de modalités prises en compte. Cependant ce n’est pas le seul critère : la constitution même des modalités nécessite une réflexion, afin d’éviter de former des cellules contenant de trop faibles effectifs (comme dans le khi2 les effectifs théoriques devraient être supérieurs à 5). En effet les modalités peuvent présenter des effectifs suffisants en apparence, mais un certain nombre de cellules au croisement de ces modalités peuvent avoir des effectifs redoutablement bas. Si la robustesse relative de la méthode permet de s’accomoder de quelques valeurs insuffisantes, leur nombre doit être limité. Cellules vides et données manquantes Le cas de cellules vides ne peut être traité d’une manière unique. En effet, il peut s’agir de valeur effectivement égales à 0, de données réellement manquantes, ou bien de cellules “structurellement” vides. Dans le cas d’un effectif nul, on emploie une artifice qui consiste à ajouter une valeur très faible à chaque cellule, souvent 0.5 qui ne modifie pas l’équilibre de l’ensemble des cellules (inférieur à un entier). Dans le cas de données manquantes, on aura intérêt, chaque fois que cela est possible, à regrouper des modalités, afin d’éviter le problème. Dans le troisième cas, la cellule doit être exclue. Dispersion et corrélation Quand on construit un modèle de régression, on le complète d’une mesure de corrélation. Il n’existe pas d’équivalent réel pour le modèle logit. Toutefois deux mesures de dispersion ont été proposées, qui peuvent servir de base pour obtenir quelque chose qui se rapproche du R2. Le premier utilise la notion d’entropie, selon la formule de Shannon. Theil (1972)vii a montré la relation existant entre logit et entropie. Si, comme exposé plus haut, on a une fonction logit : F(π (oui )) = ln et si pi = π (oui ), l’entropie est π (oui ) π (oui ) = ln 1 − π (oui ) π (non) H = − ∑ pi ln pi i Le second indice est dérivé de l’indice de concentration de Gini : C = 1 − ∑ p2i i 17 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Le rapport de ces coefficients pour la part expliquée par le modèle divisée par la dispersion totale donne une approche de corrélation, un indice d’association avec des valeurs variant de 0 à +1 (Magidson, 1981, DeMaris, 1982). On trouvera le détail du calcul du second dans DeMaris (1982)viii.Toutefois les utilisateurs rencontrent parfois des valeurs d’association faibles attachées à des variables fortement reliées, et la prudence est donc de mise. Conclusion partielle Même si notre présentation s’est limitée au cas des données exprimées sous forme de tableau de contingence, cette petite exploration ne saurait prétendre envisager tous les cas, ni considérer tous les aspects de ces modèles, pas plus que nous n’avons cité tous les compléments, ni tous les problèmes. Cependant il paraît important et intéressant de revenir de façon plus explicite et plus illustrée sur deux des notions les plus fondamentales de ces analyses, celle d’interaction, d’une part, et celle de rapport de chances, d’autre part. C’est l’objet du deuxième texte de ce dyptique, proposé par le premier des deux co-auteurs. Bibliographie Agresti A., 1990, Categorical data analysis. John Wiley and sons, New York. Ajzen I., Fishbein M., 1980, Understanding attitudes and predicting social behavior. Prentice-Hall, Englewood Cliffs, New Jersey, 278 p. Aldrich, J. H., Nelson F. D., 1984, Linear probability, logit, and probit models. Sage publications, Beverly Hills, Calif. Birch M. W., 1963, Maximum likelihood in three-way contingency tables. J. Royal Statist. Soc. B, 25 p 220-233. DeMaris A., 1992, Logit modeling : practical applications. Sage University Papers series on Quantitative Applications in the Social Sciences series n° 07-086. Newbury Park, CA. 87 p. Fishbein M., Ajzen I., 1975, Belief, attitude, intention and behavior : an introduction to theory and research. Addison-Wesley, Reading, Mass., 518 p. Gauthier G., Thibault M., 1993, L’analyse coûts-avantages. Economica, 526 p. Goodman L. A., 1970, The multivariate analysis of qualitative data : interaction among multiple classifications. J. Amer. Statist. Assoc., 65, p 226-256. Haberman S. J., 1974, The analysis of frequency data. University of Chicago Press, Chicago. Howell D. C., 1998, Méthodes statistiques en sciences humaines. De Boeck Université. Paris, 821 p. Kah E., 2001, Pour un détournement géographique de la méthode d’évaluation contingente dans une appréciation différentielle de biens environnementaux : illustration par le cas des déchets. À paraître. Kah, E., 2000, Un problème de préservation de l’environnement en géographie : l’élimination des déchets ménagers et le comportement des usagers. L’exemple du consentement à payer. Thèse de doctorat non publiée. Faculté de géographie, université Louis Pasteur de Strasbourg. 18 CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003 Kah E., Pruvot M., 2001, L’analyse log-linéaire de tableaux de contingence et le modèle logit. II : interaction et rapport de chances à propos d’un problème d’évaluation contingente. (2e partie de cet article) Lebart L., Morineau A., Piron M., 1995, Statistique exploratoire multidimensionnelle. Dunod, Paris, 439 p. Norusis M. J., 1994, SPSS Advanced statistics. SPSS Inc., Chicago. 606 p. Theil H., 1972, Statistical decomposition analysis with applications in the social and administrative sciences. North Holland. Amsterdam – London. Studies in mathematical and managerial economics. Wrigley N., 1985, Categorical Data Analysis for geographers and Environmental Scientists. Longman, New York. Il convient d’ajouter des sites Internet intéressants sur le sujet, parmi lesquels on a retenu par exemple : http://www2.chass.ncsu.edu/garson/pa765/logit.htm http://baserv.uci.kun.nl/-johnh/mcl/ http://userwww.sfsu.edu/-efc/classes/biol710/loglinear/ .htm http://www.hccg.nl/software/strucoef.htm http://wizard.ucr.edu/~rhannema/soc271/ologit.html http://www.math.yorku.ca/SCS/friendly.html Logiciels : Les principaux logiciels d’analyse de données comme SPSS, BMDP, SAS, SYSTAT, STATA, STATISTICA, DATA DESKpro, MINITAB, etc. comprennent des modules plus ou moins complets. Un logiciel comme STATA, un des plus complets compte quelques 24 fonctions. De nombreux autres logiciels plus spécialisés ou plus confidentiels complètent la liste. i Le détail del’expérience est expliqué dans un deuxième article par E. Kah, qui prolonge celui-ci (E. Kah, Cybergeo n°231, 2002). Et la justification détaillée dans la thèse de E. Kah (2000). ii Suivant en cela la notation de Goodman (1970). iii Howell D. C., 1998. iv DeMaris, A., 1992, p. 87. v Kah, E. (2001). L’analyse log-linéaire de tableaux de contingence et le modèle logit.II :Analyse et interprétation d’un exemple en évaluation contingente. vi Kah, E.(2000). Un problème de préservation de l’environnement en géographie : l’élimination des déchets ménagers et le comportement des usagers. L’exemple du consentement à payer. Thèse de doctorat non publiée. Faculté de géographie, université Louis Pasteur de Strasbourg. vii Theil (1972), p171. viii DeMaris (1982), p27 © CYBERGEO 2003 KAH E., PRUVOST M., CYBERGEO, No. 230, 10 janvier 2003 19