l`analyse log-linéaire de tableaux de contingence et le

Transcription

l`analyse log-linéaire de tableaux de contingence et le
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
L’ANALYSE LOG-LINEAIRE DE TABLEAUX DE CONTINGENCE ET
LE MODELE LOGIT I :
PRINCIPE, USAGE, INTERET ET LIMITES.
The loglinear analysis of contingency tables and the logit model I :
principle, application, interest and limits
Estelle KAH
Docteur en géographie (ATER)
Laboratoire “Image et Ville”, faculté de Géographie - Université Louis Pasteur - Strasbourg
mailto:[email protected]
Michel PRUVOT
Maître de conférences (Faculté de Géographie Strasbourg)
Laboratoire “Image et Ville”, faculté de Géographie - Université Louis Pasteur - Strasbourg
mailto:[email protected]
Résumé
Cet article présente les aspects théoriques de l’utilisation des méthodes log-linéaires, comme
substitut à l’analyse de variance lorsque les variables sont catégorielles, et logit, comme
substitut à la régression, dans le même contexte. Leur intérêt particulier est de modéliser des
données catégorielles, donc qualitatives, rencontrées notamment dans les informations
provenant d’enquêtes, en conservant leur caractère probabiliste. L’accent est mis sur les deux
riches notions d’interaction et de rapport de chances qui permettent de révéler des
phénomènes de liaisons non-linéaires complexes.
Mots-clefs :Logit, Log-linéaire, Qualitatif, Interaction, Rapport de chances.
Abstract
This paper introduces the theoretical basis of the loglinear methods, as a substitute to analysis
of variance when variables are categorical, and logit , as a substitute to regression analysis in
the same context. Their specific advantage is to allow the modelling of categorical, thus
qualitative data, often collected from surveys, while keeping their probabilistic nature. The
stress is put on the concepts of interaction and odds ratio which allow to unveil complex
phenomena with non linear relations.
Key words : Logit, Loglinear, Qualitative data, Interaction, Odds ratio.
De nombreuses données en géographie, comme les données d’enquête, notamment, sont bien
souvent composées de données catégorielles ; on les qualifie encore de variables nominales.
Ce sont des données logiques (vrai/faux), dichotomiques (du type oui/non, 1/0),
multinomiales (favorable/défavorable/indifférent, ou rouge/bleu/jaune/vert/…etc.) qu’on peut
souvent traduire en effectifs dans chacune des k modalités de variables de tableaux de
contingence, ainsi que nous les connaissons dans les tests de khi2 ou les analyses des
correspondances, par exemple. Les tests et la modélisation de ces données nécessitent
l’utilisation d’une classe particulière de modèles. De même, le fait de raisonner sur des
1
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
probabilités de réaliser un comportement donné, un choix, etc., implique que les probabilités
prédites restent dans les limites de valeur des probabilités (p ≤ 1). C’est à la classe des
modèles log-linéaires qu’il faut faire appel. Cette classe de modèles a été développée à partir
des travaux de Birch (1963), et de Goodman (1970). Selon Theil (1972), on peut remonter,
pour la création du terme de logit, aux publications de Berkson en 1944. De nombreuses
contributions ont depuis lors aidé à les enrichir (Haberman, 1974, par exemple) ; une somme
est représentée par la publication d’Agresti (1990). Ce qui nous intéressera de façon plus
limitée ici, ce sont les méthodes appliquées aux tableaux de contingence, et à tous les cas où
l’on peut transcrire les données en de tels tableaux. La terminologie, la présentation et la
formalisation étant extrêmement différentes selon les auteurs, nous ferons des choix dictés par
un souci de simplicité et de familiarité avec d’autres méthodes plus généralement connues. Un
exemple d’application permettra de privilégier quelques aspects particulièrement riches de la
méthode concernant la notion de chances et celle d’interaction.
1.L’analyse log-linéaire
Le principe général de l’analyse log-linéaire est proche de celui de l’analyse de variance, en
ce qu’elle permet de tester des effets de modalités de variables et d’interactions entre des
modalités de deux ou plusieurs variables, mais elle en diffère aussi fondamentalement,
puisque ce ne sont pas des moyennes de variables continues qui sont prises en compte, mais
des effectifs. Ce dont on cherche à rendre compte, ce ne sont pas des différences entre des
moyennes de groupes, mais des différences entre des effectifs observés dans les cellules
résultant du croisement des modalités de deux ou plusieurs variables, et les effectifs
théoriques qu’on aurait eus si l’existence de diverses modalités n’avait aucune incidence sur
les répartitions des effectifs.
Le point de départ est toujours un tableau de contingence, à deux ou plusieurs critères. Ce
qu’on va “expliquer”, c’est l’effectif de chaque cellule. Deux attitudes différentes peuvent
présider à cette étude, l’une considérant chaque variable de façon similaire, symétrique, ayant
donc le même statut, comme dans l’analyse de variance ; l’autre considérant l’une des
variables comme une variable dépendante, les autres, comme des variables indépendantes,
explicatives, comme dans les modèles de régression.
Deux aspects principaux se partagent l’attention de l’utilisateur : les tests de signification, et
la modélisation. Cette méthode s’appuie sur les principes de la statistique bayésienne et sur la
notion de rapport de vraisemblance, qui remplace la notion plus familière de moindres carrés
de la statistique linéaire classique. C’est ainsi que les tests de signification ne procèdent pas
du χ2 de Pearson, mais du rapport de vraisemblance
n
G 2 = 2 i=Σ1
m
ΣO
=j 1
ij
ln
O ij
T ij
où Oi j et Ti j sont les effectifs observés et théoriques de chaque cellule d’un tableau de
contingence.
L’exemple
Pour prendre un exemple simple d’accompagnement de l’explication, considérons un tableau
de contingence bâti sur les résultats d’une enquête sur le consentement à payer pour
l’amélioration du service des déchets ménagers, en vue de préserver l’environnement, à l’aide
2
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
de la méthode d’évaluation contingentei réalisée sur un échantillon de 300 personnes, dont
285 réponses utilisables ici avec, en lignes le consentement à payer (oui/non) et en colonnes,
le lieu. Les 285 personnes ayant répondu sont réparties en fonction de leurs réponses. On a un
petit tableau de contingence, auquel on peut adjoindre le tableau des effectifs théoriques
(Tableau 1).
Observés
Rural Urbain
oui
non
Marges des
colonnes
Marges
des lignes
Théoriques
Marges
Rural Urbain des lignes
65
107
65
48
130
155
oui
non
172
113
285
Marges des
colonnes
78.46
93.54
172.0
51.54
61.46
113.0
130
155
285
G 2 =
10.732
DdL =
1
p=
0.00105
Tableau 1 : test de l’indépendance entre le critère ligne et le critère colonne
Un classique test du χ2 donne une valeur de 10.7 avec (2 – 1) = 1 degré de liberté. La
différence à la situation d’indépendance est hautement significative (p = 0.001). Le rapport de
vraisemblance G2 donne quant à lui une valeur de 10.732 et se lit dans une table de χ2 avec 1
degré de liberté. Il est bien sûr également hautement significatif.
On commencera par le premier niveau d’explication. Si on considère un tableau de
contingence à deux critères, le premier niveau de test est celui de l’équiprobabilité (égale
probabilité entre les cellules). C’est le plus simple des modèles ; il n’est pas plausible dans
une situation réelle, mais permet de progresser logiquement. Il supposerait que le tableau de
contingence aurait pu présenter une même proportion de cas dans chaque cellule. Il s’agit de
savoir si la situation réelle diffère significativement de cette situation théorique
d’équiprobabilité. Cela correspond au test de l’effet de la moyenne générale : dans le cas de
l’équiprobabilité, la moyenne générale reproduit, explique complètement les valeurs (Tableau
2).
Observés
Marges
Théoriques
Rural Urbain des lignes
oui
non
Marges des
colonnes
Marges
Rural Urbain des lignes
65
107
65
48
130
155
oui
non
172
113
285
Marges des
colonnes
71.25
71.25
142.5
71.25
71.25
142.5
142.5
142.5
285
G 2 =
25.230
DdL =
3
p=
0.00001
Tableau 2 : test de la moyenne générale (équiprobabilité)
On a un G2 de 25.230, avec (4 - 1) = 3 degrés de liberté (une seule contrainte), le test est
hautement significatif (p = 0.00001) ; le modèle ne représente pas du tout la réalité, comme on
pouvait s’y attendre.
3
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Le modèle d’équiprobabilité conditionnelle reprend la même idée, mais restreinte à l’une des
variables. Les effectifs des modalités oui / non étant disparates, on peut rendre cette
répartition équiprobable, conditionnée aux seules modalités lignes (Tableau 3).
Observés
Rural Urbain
oui
non
Marges des
colonnes
Marges
des lignes
Théoriques
Marges
Rural Urbain des lignes
65
107
65
48
130
155
oui
non
86.00
86.00
56.50
56.50
142.5
142.5
172
113
285
Marges des
colonnes
172
113
285
G 2 =
12.928
DdL =
2
p=
0.00156
Tableau 3 : test de l’équiprobabilité conditionnelle (colonne)
Le même test G2 appliqué à cette hypothèse “naïve”, avec 2 degrés de liberté (4 –
2 contraintes), donne G2 = 12.928, soit une valeur hautement significative (p = 0.00156). Ici
encore, le modèle ne correspond pas du tout à la réalité.
La même opération réalisée sur l’autre variable, conditionnée au niveau des modalités
colonnes est représentée dans le Tableau 4.
Observés
Marges
Théoriques
Rural Urbain des lignes
oui
non
Marges des
colonnes
Marges
Rural Urbain des lignes
65
107
65
48
130
155
oui
non
172
113
285
Marges des
colonnes
65.00
77.50
142.5
65.00
77.50
142.5
130
155
285
G 2 =
23.035
DdL =
2
p=
0.00001
Tableau 4 : test de l’équiprobabilité conditionnelle (ligne)
Le test G2 appliqué à cette autre hypothèse “naïve”, avec 2 degrés de liberté (4 - 2 contraintes)
donne toujours une valeur hautement significative : G2 = 23.035 soit une probabilité de
p = 0.00001 ; même si elle est ici un peu moins vigoureuse, la conclusion est donc la même.
Un deuxième niveau de test est celui des effets simultanés des lignes et colonnes : c’est le test
du modèle d’indépendance : on compare les effectifs observés avec les effectifs théoriques
correspondant à la situation d’indépendance entre les deux critères (lignes et colonnes). C’est
le test classique du χ2 (également adapté au rapport de vraisemblance, soit le G2) (Tableau 5).
4
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Observés
Rural Urbain
oui
non
Marges des
colonnes
Marges
des lignes
Théoriques
65
107
65
48
130
155
oui
non
172
113
285
Marges des
colonnes
G 2 =
DdL =
p=
Marges
Rural Urbain des lignes
78.46
93.54
172.0
51.54
61.46
113.0
130
155
285
10.732
1
0.00105
Tableau 5 : test de l’indépendance
Comme précédemment, cependant, le modèle se révèle non pertinent, puisque le résultat du
test montre un G2 de 10.732, avec (3-1) (2-1) = 2 degrés de liberté, soit un résultat hautement
significatif (p = 0.00105). Le modèle d’indépendance ajuste mal les données. Cela veut dire
que l’interaction (ici entre la variable en ligne et la variable en colonne) joue un rôle dans
l’organisation des fréquences, et par conséquent dans l’explication du critère-ligne par le
critère-colonne (et vice-versa).
Le modèle log-linéaire est construit pour tester l’ensemble de ces hypothèses, en
décomposant l’ensemble de la relation en ses différentes composantes. Quand il prend en
considération tous les effets de toutes les variables, le modèle est dit saturé ; alors
l’information est reconstituée à 100 %, le degré de liberté du test est bien sûr de 0. Il n’est
plus nécessaire de faire un calcul pour tester ce modèle. En effet, le terme d’interaction prend
en compte tout ce qui restait inexpliqué par le modèle d’indépendance, qui ne prenait en
considération que les effets séparés des deux critères, qu’on nomme effets principaux. Le
modèle d’interaction est un modèle saturé, en ce qu’il ne laisse donc rien d’inexpliqué, aucun
résidu ; il reconstitue complètement les données réelles. De ce fait, il n’a aucun degré de
liberté, et son G2, comme, du reste, son χ2 de Pearson, est égal à 0. Le résultat intéressant ici,
est simplement le fait que l’interaction est le fait explicatif. En revanche, l’écriture du modèle
est moins intéressante, et les résidus sont absents.
Ce qui contribue à rendre ce modèle difficile, c’est la possibilité de l’écrire de plusieurs
manières, sous forme additive ou multiplicative. Au départ, on a un certain nombre de sujets
(représentant l’effectif total de l’échantillon) répartis dans un tableau de contingence, comme
celui du Tableau 5. Le problème posé est d’expliquer les effectifs des cellules par les effets
simples et d’interaction des deux critères de groupement en lignes et en colonnes. Ces effets
peuvent être exprimés de façon additive, ainsi qu’on le fait en analyse de variance, ou
multiplicative. En analyse de variance, le modèle est additif au sens où les effets
s’additionnent pour reconstituer les valeurs individuelles sous la forme de l’équation :
Xijk = µ + α j + β k + α β jk + eijk
où :
Xijk
est la valeur de l’individu i classé sous la modalité j de la variable-ligne et de la
modalité k de la variable-colonne,
µ
est
la moyenne générale
αj
est l’effet de groupe de la variable-lignes
βk
est l’effet de groupe de la variable-colonnes
αβjk est l’effet de groupe de l’interaction entre variables lignes et variables colonnes
eijk
est le résidu, la part non-expliquée par les effets
5
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Dans le modèle log-linéaire, c’est l’effectif présent dans une cellule qu’on cherche à
expliquer. On l’exprime d’abord sous sa forme multiplicative :
mij = τˆτˆiC τˆjL
où :
mij
est l’effectif théorique de la cellule correspondant à la modalité i en ligne et la
modalité j en colonne
τˆ
est l’effet de la moyenne géométrique des effectifs théoriques (attendus) des
cellules (équivalent à la moyenne générale de l’analyse de variance) – (τ est la lettre tau)
τˆiC
est le rapport entre la moyenne géométrique des cellules de la ligne i et τˆ
τˆ Lj
est le rapport entre la moyenne géométrique des cellules de la colonne j et τˆ
Ce modèle n’est pas tout à fait complet ; il constitue le modèle d’indépendance et la formule
permet de reconstituer la valeur théorique mij qui est celle de l’hypothèse d’indépendance. Le
modèle complet, qu’on appelle aussi modèle saturé, reconstitue l’effectif observé nij, en
incluant le terme d’interaction τˆijCL , en prenant la forme :
nij = τˆτˆ iCτˆ Lj τˆijCL
où :
τˆijCL
est le terme d’interaction
nij
est l’effectif observé de la cellule correspondant à la modalité i en ligne et la
modalité j en colonne.
Toute l’information est reconstituée par un tel modèle ; il n’y a pas de terme résiduel. Avant
de l’appliquer à l’exemple du consentement et du lieu, on va lui donner sa deuxième forme, la
forme additive. Cette réécriture passe par la transformation en logarithme : ce n’est plus
l’effectif mij qu’on reconstitue, mais son logarithme, soit ln (mij) :
( )
( )
ln m ij = ln (τˆ ) + ln (τˆ iC) + ln τˆ Lj
Si on écrit λ = ln(τˆ ), le modèle d’indépendance s’écrit de façon additiveii :
ln(mij ) = λ + λCi + λLj
et le modèle complet :
ln (n ij ) = λ + λCi + λ Lj + λCL
ij
L’application de ces formules à l’exemple portant sur la relation entre le consentement et le
lieu permet de suivre des résultats simples et leur interprétation élémentaire. Les coefficients τ
et leur équivalent additif (exprimé en logarithme) λ sont présentés dans le Tableau 6.
Terme
Moyenne générale
Calcul
ˆτ = 4 78.456 × 93.544 × 51.544 × 61456 = 69.438
Logarithme
λ = 4.240
6
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
78.546 × 61.456
69.438
51.544
× 93.544
τ nC =
69.438
93.544 × 61.456
τˆrL =
69.438
78.456 × 51.544
τˆuL =
69.438
Effet consentement = oui
τˆoC =
Effet consentement = non
Effet lieu = rural
Effet lieu = urbain
= 0.811
= 1.234
= 1.092
= 0.916
λCo = −0.210
λCr = 0.210
λLr = 0.0879
λ Lu = − 0.0879
Tableau 6 : coefficients des modèles multiplicatif et additif
Si le premier τ représente une “moyenne générale”, chacun des autres coefficients indique par
quoi il faut multiplier cette moyenne pour trouver la valeur de la modalité (ligne ou colonne),
et donc son importance relative.
À partir de ces valeurs, on peut reconstituer la valeur théorique d’une cellule mij. Par
exemple mou correspondant aux modalités “oui” et “urbain” :
m12 = mou = τˆτˆ o τˆu = 69.438 × 0.811 × 0.916 = 51.544
C
L
Chacun des coefficients tau dans ces équations représente l’effet de chaque modalité de
chaque variable dans la différence constatée entre la moyenne générale τˆ et la valeur de la
cellule dans le tableau théorique, correspondant à l’hypothèse d’indépendance. On aurait pu
faire la même opération par rapport à l’hypothèse d’équiprobabilité conditionnelle (au niveau
des lignes) du Tableau 2 :
La moyenne générale (moyenne géométrique) serait
τˆ = 4 65 × 77.50 × 65 × 77.50 = 70.975
Les effets seraient neutres pour τˆrL = 1 et τˆuL = 1 et pour les consentements ils resteraient
comme précédemment :
τˆoC =
65 × 65
= 0.916 et τˆnC =
70.975
77.5 × 77.5
= 1.092
70.975
On peut vérifier que la cellule mor serait bien reconstituée à hauteur de la valeur théorique de
l’hypothèse d’équiprobabilité conditionnelle, soit :
m12 = mou = τˆτˆ o τˆu = 70.975 × 0.916 × 1.0 = 65
C
L
Il est maintenant possible de réécrire les effets sous leur forme logarithmique et linéaire, qui
justifie le nom de log-linéaire qu’on donne au modèle ln (n ij ) = λ + λCi + λ Lj + λCL
ij . Les valeurs
figurent dans la troisième colonne du Tableau 6. On voit que les effets (additifs) des
modalités d’une même variable ont une somme de zéro. Les coefficients multiplicateurs de
0.811 pour τˆoC et de 1.234 pour τˆnC une fois traduits en logarithmes, soit λCo = −0.210
et λCn = 0.210 , apparaissent plus clairement comme complémentaires. Les premiers expriment
qu’il faut multiplier la moyenne générale τˆ par 0.811 ou 1.234 pour prendre en compte l’effet
7
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
des modalités oui ou non du consentement, les seconds indiquent ce qu’il faut ajouter au
logarithme de la moyenne générale, pour prendre en compte ces effets (ici - 0.210 ou 0.210).
Il est maintenant possible de résumer les résultats en vue du test des modèles (Tableau 7).
Les modèles
ddl
p
multiplicatifs
additifs
G2
ˆ
mij = τ
25.230
3
0.00001
ln (mij ) = λ
ln (mij ) = λ + λCi
mij = τˆτˆiC
mij = τˆτˆ
mij = τˆτˆiCτˆ Lj
ln (mij ) = λ + λLj
nij = τˆτˆ τˆ τˆ
ln n ij = λ + λCi + λ Lj + λCL
ij
L
j
C
i
L CL
j ij
ln (mij ) = λ + λCi + λ Lj
23.035
2
0.00001
12.928
2
0.00156
10.732
1
0.00105
0
0
—
( )
Tableau 7 : test des modèles successifs
Le dernier modèle est le modèle saturé. C’est celui qui contient l’interaction, et c’est ici celui
qu’il faut retenir, puisque tous les autres modèles d’ordre inférieur n’ajustent pas les données
de façon satisfaisante : la différence avec les valeurs observées est hautement significative
dans tous les cas. C’est en effet un cas rare où on attend un test non significatif, pour retenir
la solution.
Le test des effets marginaux est celui de l’association partielle. Nous avions précédemment
testé les effets principaux en créant des modèles simples, mais, ils incluent les effets d’ordre
inférieur. Ainsi, le modèle ln (mij ) = λ + λCi , par exemple, inclut l’effet du modèle ln (mij ) = λ
de la moyenne générale. On peut, en revanche, tester l’effet isolé, corrigé d’autres effets,
l’association partielle, en soustrayant le G2 correspondant.
Quand on passe du modèle le plus simple (et le moins bien ajusté) au modèle avec effet
principal C (consentement), on passe de G2 = 25.230 à G2 = 23.035, soit, puisque G2 se
décompose de manière additive, une différence de (25.230 – 23.035) = 2.196, avec un degré
de liberté de 3 – 2 = 1. La différence n’est pas significative (p = 0.138).
L’effet corrigé pour le lieu est la différence de G2 = 25.230 à G2 = 12.928, soit 12.303, avec un
degré de liberté de 3 – 2 = 1 : soit une différence hautement significative (p = 0.00045).
Enfin, pour l’effet d’interaction, le test revient au même que celui que nous avons déjà réalisé,
puisque la différence entre le modèle d’indépendance (comprenant les 2 effets, mais
indépendamment), et le modèle saturé, comprenant l’interaction, est la différence entre G2 =
10.732 et G2 = 0.0, soit 10.732 (la valeur du G2 du modèle d’indépendance, avec le même
degré de liberté), c’est-à-dire une valeur hautement significative.
Il convient en analysant ces résultats, de noter une chose, en suivant une remarque essentielle
de D. Howell (1998)iii : si, en analyse de variance, les effets principaux des variables peuvent
être interprétés comme effets, ces mêmes effets principaux en analyse log-linéaire ne peuvent
pas l’être, car ils peuvent ne refléter que les différences d’effectifs des modalités, lesquelles
peuvent être dues aux conditions de l’enquête, au plan d’échantillonnage, et non à des
variations susceptibles d’être expliquées, tandis qu’il n’en est pas ainsi pour toutes les formes
d’interaction.
8
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Comme le modèle d’indépendance n’ajuste pas de manière satisfaisante les effectifs observés,
c’est le modèle saturé que nous sommes amenés à retenir ici. On peut calculer les coefficients
λ qui correspondent à la forme logarithmique du modèle. Le premier est le logarithme naturel
de la moyenne géométrique de toutes les cellules du tableau de contingence, soit une moyenne
générale (correspondant au modèle d’équiprobabilité) :
λ = ln
( 65 × 65 ×107 × 48 )= ln (68.2516 ) = 4.2232
4
Les effets principaux des modalités sont les moyennes marginales, auxquelles est soustraite la
moyenne générale, afin d’isoler l’effet de la modalité proprement dite. Le tableau des
logarithmes des effectifs et des moyennes marginales consiste à remplacer les effectifs par
leur logarithme et à calculer les moyennes de ces logarithmes en lignes et colonnes
(Tableau 8).
critèreConsentement
ligne
Moyennes marginales
Oui
Non
Critère-colonne
Lieu
rural
urbain
4,1744
4,1744
4,6728
3,8712
4,4236
4,0228
Moyennes
marginales
4,1744
4,2720
4,2232
Tableau 8 : logarithmes des effectifs et moyennes marginales
On peut calculer, par exemple λCo comme la moyenne marginale du oui à laquelle on soustrait
la moyenne générale, soit
λCo = 4.1744 − 4.2232 = − 0.0488
et par conséquent
λCn = 4.2720 − 4.2232 = 0.0488
qui lui est complémentaire par rapport à zéro, puisque tous les effets d’une variable ont une
somme égale à zéro. Les effets d’interaction se calculent en soustrayant la moyenne générale
et les effets des modalités concernées du logarithme de la valeur observée de la cellule. Ainsi
par exemple :
C
L
λCL
ou = ln (n12 ) − λ − λ o − λ u = 4.1744 − 4.2232 − (− 0.0488) − 0.2004 = − 0.2004
On vérifie aisément les autres valeurs, d’autant que les interactions d’une modalité ont elles
aussi une somme égale à zéro. On peut rassembler dans le tableau (Tableau 9) l’ensemble de
ces résultats.
Oui
Consentement
Non
Effets principaux
Critère
ligne
Critère colonne
Lieu
rural
urbain
CL
CL
λ or = −0.2004
λ ou = 0.2004
CL
λ nr = 0.2004
λCL
nu = −0.2004
L
λr = 0.2004
λ Lu = − 0.2004
Effets
principaux
λCo = −0.0488
λCn = 0.0488
λ = 4.2232
Interactions
9
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Tableau 9 : effets principaux et d’interaction
Ce tableau donne les coefficients λ. Les valeurs positives de λ correspondent aux modalités
(lignes ou colonnes) où les fréquences sont supérieures à la moyenne générale. Il faut noter ici
que les similitudes des coefficients, en dehors des sommes nulles citées plus haut, sont dues à
la petite taille de l’exemple et à 2 valeurs similaires dans le tableau de contingence.
Ainsi une première réponse sommaire est fournie : avec λCo = −0.0488 et son complément
λCn = 0.0488 les réponses générales “oui” et “non” au consentement, n’offrent pas un
déséquilibre notable. Les effets principaux (hors interaction) des modalités lieu révèlent des
différences de réponses un peu plus importantes ; ainsi λ Lr = 0.2004 , l’effet de la modalité
avec une valeur positive plus élevée joue un rôle supérieur à la moyenne. Plus intéressants, les
coefficients d’interaction traduisent la tendance, à la rencontre de deux modalités :
λCL
or = −0.2004 traduit une conjonction qui tire l’effectif vers le bas. Cependant, dans
l’ensemble, ces coefficients ne sont pas d’usage commode, car ils prennent en compte
l’importance des effectifs d’une modalité (comme par exemple la part de personnes
appartenant au monde urbain dans notre analyse) ; or cette donnée du plan d’expérience ou
d’échantillonnage n’a pas nécessairement de signification : c’est la situation, ici. D’autres
renseignements, comme les chances, que nous analyserons après le modèle logit, seront plus
performants.
2. Le modèle logit
Le modèle logit s’appuie sur les mêmes bases conceptuelles et utilise en grande partie les
mêmes calculs que le modèle log-linéaire général, mais il s’en distingue par le fait qu’il établit
la séparation entre variable dépendante et variables indépendantes, et peut être considéré
comme un modèle de régression. Nous aurons d’un côté des variables indépendantes,
subdivisées en modalités, de l’autre une variable dépendante, subdivisée en deux modalités :
on parle alors de modèle logit dichotomique. Il existe également des modèles logit, parfois
appelés polychotomiques, ou, plutôt, multinomiaux, plus complexes et surtout plus rarement
disponibles dans les logiciels statistiques courants.
La logique du modèle logit diffère donc quelque peu de celle du modèle log-linéaire. Le point
de départ relève des probabilités conditionnelles bayésiennes, probabilités d’un évènement,
lorsqu’une autre condition est remplie. Là où le modèle log-linéaire à trois variables s’écrit,
par exemple :
( )
CL
EL
CEL
ln n1 jk = λ + λC1 + λEj + λLk + λCE
1j + λ 1k + λ jk + λ1 jk
pour la modalité 1 (oui) de la variable C (consentement), le modèle logit sera le logarithme
népérien du rapport des chances du oui et du non, soit la fonction logit:
F(π (oui )) = ln
où :
π (oui )
π (oui )
π (oui )
= ln
1 − π (oui )
π (non)
est la probabilité du oui.
10
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Et, puisque la probabilité du oui, comme celle du non, est le rapport de l’effectif du oui (et du
non) à l’effectif total qui est la somme des deux, le logit, dont le nom est dérivé de l’anglais
log odds (log des chances) est le log du rapport des effectifs n1 jk du oui et n2 jk du non, soit :
 n1jk 
 = ln(n1jk )− ln (n2 jk )
ln 
 n2 jk 
CEL
E
L
CE
CL
EL
CEL
C
= (λ + λC1 + λEj + λLk + λ1CEj + λ 1CLk + λ EL
jk + λ1 jk )− (λ + λ 2 + λ j + λ k + λ2 j + λ 2 k + λ jk + λ 2 jk )
C
E
CL
EL
CEL
L
CE
CL
EL
CEL
= λ + λC1 + λ Ej + λ Lk + λ CE
1 j + λ1k + λ jk + λ1 jk − λ − λ2 − λ j − λ k − λ 2 j − λ 2 k − λ jk − λ 2 jk
C
CL
CEL
CE
CL
CEL
= λC1 + λCE
1 j + λ1 k + λ1 jk − λ 2 − λ2 j − λ 2 k − λ 2 jk
Puisque la somme des coefficients des modalités d’une variable doit être nulle, λC1 + λC2 = 0 ,
et : λC2 = − λ C1 . Donc
 n1 jk 
C
C
CE
CL
CEL
CE
CL
CEL
 = λ C1 + λ 1CEj + λ1CLk + λ CEL
ln 
1 jk + λ1 + λ1 j + λ 1k + λ1 jk = 2λ1 + 2λ 1 j + 2 λ1 k + 2 λ1 jk
 n2 jk 
Mais on préfèrera considérer ce rapport de probabilité comme les chances du oui par rapport
n 
au non et noter le log des chances ln O1C = ln 1 jk  et compacter l’écriture du modèle logit :
 n2 jk 
ln O1C = α + τ Ej + τ kL + τ
où :
EL
jk
ln O1C est le logarithme des chances de répondre oui (par rapport bien sûr au non)
α = 2 λC1
est la constante (équivalente à l’ordonnée à l’origine b en régression)
E
CE
τ j = 2λ1 j
est l’estimation du coefficient (additif) de l’effet principal de la
modalité j de la variable E sur les chances de dire oui, par rapport au
fait de dire non
τ kL = 2 λCL
représente
la même chose pour la modalité k de la variable L.
1k
Il faut noter que les coefficients τ sont calculés à partir des λ du modèle log-linéaire et qu’il
ne faut pas les confondre avec les τ̂ du modèle multiplicatif. On note aussi qu’il n’y a plus,
dans ce modèle, d’éléments d’interaction entre les variables indépendantes, mais seulement
entre celles-ci et la variable dépendante (comme c’est d’ailleurs le cas en régression multiple).
Enfin les valeurs des coefficients τ̂ sont les augmentations ou diminutions des logarithmes
des chances de répondre oui associées aux modalités notées en indices, par rapport à ce qu’on
aurait attendu s’il n’y avait aucune relation avec cette modalité ou cette combinaison de
modalités.
Il est également possible d’exprimer ces coefficients de façon multiplicative en passant par
l’exponentiation. L’équation devient
C
α
τ E τ L τ jkEL
O1 = e e j e k e
11
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
et les coefficients s’interprètent comme des augmentations ou des diminutions, mais par
multiplication. Les tableaux des coefficients rassemblent les deux, car les seconds sont
souvent plus faciles à concevoir pour les grosses modifications. La plupart des logiciels
présentent les résultats de façons différentes, mais aussi simplifiées, puisque la somme des
effets des modalités d’une variable s’annule, l’un des coefficients est dépendant des autres et
est supprimé du listing.
Pour les coefficients additifs λ , la neutralité (absence d’effet) est atteinte pour une valeur de
0, tandis que les valeurs négatives indiquent un effet de diminution, une valeur positive un
effet vers l’augmentation. Dans le cas de la forme multiplicative du modèle, les coefficients
notés τ ont une valeur de 1 dans le cas de la neutralité (absence d’effet), des valeurs
supérieures (1 ≤ τ ≤ +∞) dans le cas d’un effet d’augmentation, et des valeurs fractionnelles
(0 ≤ τ ≤ 1) dans le cas d’un effet réducteur.
Pour ces coefficients, il est possible de calculer un test z. Pour l’effet du lieu, on teste
l’hypothèse qu’il n’y a pas de différence entre les coefficients, c’est-à-dire pas d’effet du lieu
(différence nulle) en la rapportant à l’erreur-type de cette différence. Le calcul en est
complexe et l’erreur type est rarement fournie par les logiciels. Le résultat est une variable
standardisée z qui suit une loi normale. On considère les seuils de significativité habituels, de
1.96 pour une probabilité de 5% et 1.65 pour 10%.
L’ensemble de ces calculs et des résultats sont intéressants, mais les plus parlants, pour
l’utilisateur, quand il s’agit d’interpréter concrètement, sont les chances et les rapports de
chances.
3. La notion de chance et de rapport de chances
Comme on l’a déjà introduit brièvement ci-dessus, les chances expriment le rapport de
probabilités d’un événement et de l’événement complémentaire ; par exemple, si une variable
catégorielle x possède 2 modalités ayant chacune une probabilité dont la somme est 1, les
chances de la modalité 1 par rapport à la modalité 2 sont le rapport de la probabilité de la
modalité 1, sur la probabilité de la modalité 2, soit (1- la probabilité de la modalité 1) : on
peut les noter
P(m1 )
=
P(m1 )
P(m2 ) 1− P(m1 )
On sait donc que le logit est le logarithme de ce rapport des chances. Dans le cas d’un tableau
de contingence simple à 2 variables, chacune ayant 2 modalités, du type oui/non.
Variable L
Variable C
total
oui
non
rural
nor
nnr
n•r
urbain
nou
nnu
n•u
Variable L
total
no •
nn •
n••
Variable C
total
oui
non
rural
65
107
172
urbain
65
48
113
total
130
155
285
les chances marginales sont calculées, par exemple, pour oui par rapport à non :
12
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
no• 130
=
= 0.8387
nn• 155
tandis que les chances conditionnelles sont, pour, par exemple la modalité rural de la variable
colonne L :
nor 65
=
= 0.6075
nnr 107
Les chances ne sont pas les mêmes pour les deux modalités de la variable L (lieu).
Le rapport de chances est une mesure d’association pour deux variables. C’est le rapport des
chances de deux modalités d’une variable. Par exemple, pour la variable L (lieu) de l’exemple
ci-dessus, les chances de oui/non pour la modalité rural étaient de 0.6075 ; elles sont de 65/48
= 1.35 pour la modalité urbain. Le rapport des chances de rural par rapport à urbain est de
0.61 / 1.35 = 0.45. Le rapport des chances de urbain par rapport à rural est de
1.35 / 0.61 = 2.23. Les usagers urbains ont 2.23 fois plus de chances de répondre oui que non.
Les rapports des chances, notés Ω , constituent, selon A. DeMaris (1992)iv, des mesures
immédiatement interprétables. Si OorCL représente les chances de dire oui (consentement) en
milieu rural (Lieu = r), et OouCL les chances de dire oui en milieu urbain (Lieu = u),
τL
OorCL eα e r
τL
τL
Ω = CL = α τ L = e r − e u
Oou
e eu
représente les chances de répondre oui en milieu rural, par rapport à celles de dire oui en
milieu urbain, et ceci indépendamment des effectifs.
Après l’analyse exploratoire des variables, des lieux et des ménages, la vérification
d’hypothèses plus spécifiques peut être entreprise, et la modélisation permettra de rendre
compte, de manière à la fois plus précise et plus rigoureuse, des liens explicatifs que la
variable centrale de cette enquête (consentement) entretient avec certaines variables
explicatives. C’est aussi à cela que peuvent répondre le modèle log-linéaire et le modèle logit.
Avant d’en exploiter les possibilités, il convient d’abord d’en rappeler, schématiquement,
l’intérêt et les principes de lecture des résultats.
4. Intérêt et lecture des résultats : les interactions
L’exemple illustratif de l’analyse log-linéaire nous permettait de nous intéresser à la structure
des informations sans différencier le statut des variables. En fait dans l’étude dont cet exemple
est tiré, c’est le consentement à payer qui nous intéressait, et son explication par des
conditions (caractéristiques des ménages), exprimées par l’intermédiaire de variables
indépendantes, comme le fait de vivre en milieu rural ou urbain, le niveau d’éducation, etc.
C’est donc au modèle logit qu’il a fallu s’adresser pour connaître les influences de modalités
de ces variables et les interactions avec certaines combinaisons.
Comme nous l’avons annoncé plus haut, en énonçant les principes de base de ces méthodes, le
modèle logit permet de choisir une variable comme variable dépendante ; mais ce ne sont pas
des valeurs individuelles de type continu qu’on va reconstituer plus ou moins bien, comme
dans la régression classique. On commence par reconnaître les différentes modalités des
13
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
variables explicatives, tandis que la variable dépendante (expliquée) sera limitée à 2
modalités. Ainsi, le consentement à payer, que nous noterons C, aura une modalité oui (pour
l’acceptation) et une modalité non (pour le refus). La variable C exprimera donc
fondamentalement un choix. Ce qui nous intéressera, ce n’est pas tant le nombre de oui, ni
même sa distribution par rapport à une autre caractéristique, que les chances que les ménages
répondent oui selon les modalités d’une ou plusieurs autres variables, et selon les
combinaisons particulières avec des modalités de ces variables explicatives. Ces
combinaisons rassembleront des effectifs d’importance variable, traduisant des interactions
plus ou moins marquées.
Pour chacune des variables explicatives (ou indépendantes), on va tenter d’exprimer une
mesure de son influence sur le choix C ; on appelle ces influences les effets principaux des
variables. Les combinaisons particulières de modalités révèleront des effets qu’on appelle des
interactions. Selon le nombre de variables, et selon le nombre de variables pris en compte
dans ces interactions, on parlera d’interaction d’ordre 1, 2, etc., mais il faut savoir qu’il
devient tout de suite très difficile d’imaginer et d’interpréter ce que représentent des
interactions d’ordre 3, et même parfois d’ordre 2.
Le modèle, dont nous avons rappelé plus haut la formulation habituelle,
L
C
E
ln O1 = α + τ j + τ k + τ
où, dans cet exemple C
E
L
j, k, l
EL
jk
est la variable consentement
est la variable éducation
est la variable lieu
sont des modalités
pour un modèle à 3 variables (2 variables explicatives), possède un premier terme alpha qui
représente un effet de “moyenne générale” (c’est le logarithme naturel de la moyenne
géométrique de toutes les cellules) ; les coefficients tau à un seul indice et un seul exposant,
représentent les effets principaux des variables identifiées par l’exposant, tandis que ce qui est
ici le dernier terme, fournit l’effet (ou les effets dans les équations plus complexes)
d’interaction. On peut exprimer ces coefficients comme étant les influences des variables ou
de leurs interactions sur les chances de choisir la modalité 1 par rapport à la modalité 2, ici, de
répondre oui, par rapport à ce qu’on aurait eu sans l’influence de la variable, ou de
l’interaction.
14
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Graphique 1 Exemples de présence ou d’absence d’interactions (d’après une idée de D. Howell)
On peut traduire visuellement l’interaction en portant sur un graphique (Graphique 1) les
chances d’une modalité de la variable dépendante (par rapport à l’autre modalité), pour les
différentes modalités d’un caractère B, respectivement pour les diverses modalités du
caractère A : si les lignes brisées reliant les valeurs de chances des modalités A1, A2, etc. en
fonction de B1, B2, etc. sont parallèles, il n’y a pas d’interaction ; dans le cas contraire, on
reconnaîtra diverses formes d’interaction.
D’autre part, lorsqu’un modèle contient tous les termes possibles d’effets principaux et
d’interaction, on dit que le modèle est saturé ; il reconstitue les données sans erreur (pas de
résidus) et il n’a aucun degré de liberté, au sens des statistiques. On peut éliminer de ce
modèle des effets qui ne seraient pas significatifs, toujours au sens statistique du terme, au
moyen d’un test G2 du maximum de vraisemblance, tel que nous l’avons présenté ci-dessus à
propos des modèles log-linéaires. Rappelons qu’il présente des avantages sur le χ 2 , du point
de vue de l’additivité, tout en s’interprétant de la même façon. Toutefois, on reste ici dans un
modèle hiérarchique, c’est-à-dire que pour toute interaction retenue comme significative, on
conservera les effets principaux, même s’ils ne sont pas significatifs. Avec des modèles à
deux variables explicatives, la marge de manœuvre est réduite. On verra dans la deuxième
partie de cet article, par E. Kahv le traitement de quelques hypothèses et l’interprétation de
résultats à trois variables, dans le cadre d’une enquête fondée sur la méthode d’évaluation
contingentevi.
Cependant ces résultats se complètent avec d’autres, très intéressants : les rapports de
chances, c’est-à-dire le rapport entre les chances obtenues par le oui dans une modalité
donnée ou une association de modalités (interaction) et les chances obtenues par le non. Ce
type de résultats est un des plus riches des modèles logit et fait l’objet essentiel de l’article
complémentaire par E. Kah..
15
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
5. Questions complémentaires et prolongements
Cette présentation des modèles, nous l’avons cependant limitée au cas où on peut considérer
les données sous la forme d’un tableau de contingence. Même s’il ne s’agit pas ici d’envisager
la variété des possibilités des modèles et des questions qui se posent à l’utilisateur, il convient
de signaler quelques points importants.
Les résidus
Pour chaque cellule du tableau de contingence, on peut calculer un résidu. C’est, comme en
régression classique, la part non expliquée par le modèle ; mais ici il n’est pas calculé pour
chaque individu, mais pour chaque cellule selon la formule :
eij =
Oij − Tij
Tij
ou encore, pour garder la même notation :
eij =
nij − mij
mij
Ainsi, pour le modèle d’indépendance, le résidu de la cellule oui/rural est :
65 − 78.46
= − 1.5196
78.46
Bien entendu le calcul d’un résidu n’a de sens que pour un modèle non saturé, puisque dans le
cas contraire, l’effectif est entièrement reconstitué.
eor =
Nature des variables et choix de la méthode
Des modèles multinomiaux peuvent être utilisés dans les modèles logit, lorsque la variable
dépendante n’est pas dichotomique (2 modalités) , mais multinomiale. En effet, on ne peut
constituer des chaînes de modèles dichotomiques, dans la mesure où ceux-ci ne sont pas
indépendants.
D’autre part, à côté des modèles où les modalités sont simplement des catégories, certaines
variables sont découpées en modalités qui sont ordonnées, comme par exemple
petit/moyen/gros, très bon/bon/passable/mauvais, toujours/parfois/jamais, etc. Il est
avantageux alors d’utiliser des modèles qui prennent en compte le caractère ordinal de ces
modalités.
Lorsqu’on peut supposer que la variable dépendante n’est pas réellement une variable
catégorielle, mais qu’elle reflète en réalité une variable sous-jacente de nature quantitative on
se tournera vers les modèles probit, lesquels reposent sur l’inverse de la courbe normale
standard cumulative. De nombreux auteurs signalent cependant que les résultats diffèrent peu
de ceux des modèles logit. Le modèle tobit, plus rarement utilisé, répond à des situations où
les variables sont extrêmement asymétriques. Quant à la régression logistique, elle concerne
des données traitées individuellement, comme les régressions linéaires, et non regroupées
dans des tableaux de contingence ; elle permet de mêler des variables continues et
catégorielles.
16
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Des procédures pas à pas (stepwise) existent pour ajouter les variables selon leur contribution
et leur significativité ou les retrancher, de la même façon que cela se fait en régression
linéaire, en analyse discriminante ou en analyse de variance, par exemple. Elles présentent les
mêmes attraits et les mêmes risques.
Il existe des modèles hiérarchiques et non-hiérarchiques : dans les premiers, prendre en comte
un niveau donné d’interaction, suppose de considérer tous les effets des niveaux inférieurs. Si
nous nous sommes limités ici à des modèles hiérarchiques, cela ne signifie pas qu’il soient
exclusifs : il est plus facile, et apparemment plus logique de tenir compte des effets de niveau
inférieur. Certains logiciels ne traitent que ces cas-là.
Les précautions et les limites
La limite la plus marquante est liée à la quantité de données, c’est à dire aux effectifs,
nécessaires pour pouvoir réaliser de telles analyses. Cette quantité varie en fonction du
nombre de modalités prises en compte. Cependant ce n’est pas le seul critère : la constitution
même des modalités nécessite une réflexion, afin d’éviter de former des cellules contenant de
trop faibles effectifs (comme dans le khi2 les effectifs théoriques devraient être supérieurs à
5). En effet les modalités peuvent présenter des effectifs suffisants en apparence, mais un
certain nombre de cellules au croisement de ces modalités peuvent avoir des effectifs
redoutablement bas. Si la robustesse relative de la méthode permet de s’accomoder de
quelques valeurs insuffisantes, leur nombre doit être limité.
Cellules vides et données manquantes
Le cas de cellules vides ne peut être traité d’une manière unique. En effet, il peut s’agir de
valeur effectivement égales à 0, de données réellement manquantes, ou bien de cellules
“structurellement” vides. Dans le cas d’un effectif nul, on emploie une artifice qui consiste à
ajouter une valeur très faible à chaque cellule, souvent 0.5 qui ne modifie pas l’équilibre de
l’ensemble des cellules (inférieur à un entier). Dans le cas de données manquantes, on aura
intérêt, chaque fois que cela est possible, à regrouper des modalités, afin d’éviter le problème.
Dans le troisième cas, la cellule doit être exclue.
Dispersion et corrélation
Quand on construit un modèle de régression, on le complète d’une mesure de corrélation. Il
n’existe pas d’équivalent réel pour le modèle logit. Toutefois deux mesures de dispersion ont
été proposées, qui peuvent servir de base pour obtenir quelque chose qui se rapproche du R2.
Le premier utilise la notion d’entropie, selon la formule de Shannon. Theil (1972)vii a montré
la relation existant entre logit et entropie. Si, comme exposé plus haut, on a une fonction
logit :
F(π (oui )) = ln
et si pi = π (oui ), l’entropie est
π (oui )
π (oui )
= ln
1 − π (oui )
π (non)
H = − ∑ pi ln pi
i
Le second indice est dérivé de l’indice de concentration de Gini :
C = 1 − ∑ p2i
i
17
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Le rapport de ces coefficients pour la part expliquée par le modèle divisée par la dispersion
totale donne une approche de corrélation, un indice d’association avec des valeurs variant de 0
à +1 (Magidson, 1981, DeMaris, 1982). On trouvera le détail du calcul du second dans
DeMaris (1982)viii.Toutefois les utilisateurs rencontrent parfois des valeurs d’association
faibles attachées à des variables fortement reliées, et la prudence est donc de mise.
Conclusion partielle
Même si notre présentation s’est limitée au cas des données exprimées sous forme de tableau
de contingence, cette petite exploration ne saurait prétendre envisager tous les cas, ni
considérer tous les aspects de ces modèles, pas plus que nous n’avons cité tous les
compléments, ni tous les problèmes.
Cependant il paraît important et intéressant de revenir de façon plus explicite et plus illustrée
sur deux des notions les plus fondamentales de ces analyses, celle d’interaction, d’une part, et
celle de rapport de chances, d’autre part. C’est l’objet du deuxième texte de ce dyptique,
proposé par le premier des deux co-auteurs.
Bibliographie
Agresti A., 1990, Categorical data analysis. John Wiley and sons, New York.
Ajzen I., Fishbein M., 1980, Understanding attitudes and predicting social behavior.
Prentice-Hall, Englewood Cliffs, New Jersey, 278 p.
Aldrich, J. H., Nelson F. D., 1984, Linear probability, logit, and probit models. Sage
publications, Beverly Hills, Calif.
Birch M. W., 1963, Maximum likelihood in three-way contingency tables. J. Royal Statist.
Soc. B, 25 p 220-233.
DeMaris A., 1992, Logit modeling : practical applications. Sage University Papers series on
Quantitative Applications in the Social Sciences series n° 07-086. Newbury Park, CA. 87 p.
Fishbein M., Ajzen I., 1975, Belief, attitude, intention and behavior : an introduction to
theory and research. Addison-Wesley, Reading, Mass., 518 p.
Gauthier G., Thibault M., 1993, L’analyse coûts-avantages. Economica, 526 p.
Goodman L. A., 1970, The multivariate analysis of qualitative data : interaction among
multiple classifications. J. Amer. Statist. Assoc., 65, p 226-256.
Haberman S. J., 1974, The analysis of frequency data. University of Chicago Press, Chicago.
Howell D. C., 1998, Méthodes statistiques en sciences humaines. De Boeck Université. Paris,
821 p.
Kah E., 2001, Pour un détournement géographique de la méthode d’évaluation contingente
dans une appréciation différentielle de biens environnementaux : illustration par le cas des
déchets. À paraître.
Kah, E., 2000, Un problème de préservation de l’environnement en géographie :
l’élimination des déchets ménagers et le comportement des usagers. L’exemple du
consentement à payer. Thèse de doctorat non publiée. Faculté de géographie, université Louis
Pasteur de Strasbourg.
18
CYBERGEO : Revue européenne de géographie, No. 230, 10 janvier 2003
Kah E., Pruvot M., 2001, L’analyse log-linéaire de tableaux de contingence et le modèle
logit. II : interaction et rapport de chances à propos d’un problème d’évaluation contingente.
(2e partie de cet article)
Lebart L., Morineau A., Piron M., 1995, Statistique exploratoire multidimensionnelle.
Dunod, Paris, 439 p.
Norusis M. J., 1994, SPSS Advanced statistics. SPSS Inc., Chicago. 606 p.
Theil H., 1972, Statistical decomposition analysis with applications in the social and
administrative sciences. North Holland. Amsterdam – London. Studies in mathematical and
managerial economics.
Wrigley N., 1985, Categorical Data Analysis for geographers and Environmental Scientists.
Longman, New York.
Il convient d’ajouter des sites Internet intéressants sur le sujet, parmi lesquels on a retenu par
exemple :
http://www2.chass.ncsu.edu/garson/pa765/logit.htm
http://baserv.uci.kun.nl/-johnh/mcl/
http://userwww.sfsu.edu/-efc/classes/biol710/loglinear/ .htm
http://www.hccg.nl/software/strucoef.htm
http://wizard.ucr.edu/~rhannema/soc271/ologit.html
http://www.math.yorku.ca/SCS/friendly.html
Logiciels :
Les principaux logiciels d’analyse de données comme SPSS, BMDP, SAS, SYSTAT,
STATA, STATISTICA, DATA DESKpro, MINITAB, etc. comprennent des modules plus ou
moins complets. Un logiciel comme STATA, un des plus complets compte quelques 24
fonctions. De nombreux autres logiciels plus spécialisés ou plus confidentiels complètent la
liste.
i
Le détail del’expérience est expliqué dans un deuxième article par E. Kah, qui prolonge celui-ci (E. Kah,
Cybergeo n°231, 2002). Et la justification détaillée dans la thèse de E. Kah (2000).
ii
Suivant en cela la notation de Goodman (1970).
iii
Howell D. C., 1998.
iv
DeMaris, A., 1992, p. 87.
v
Kah, E. (2001). L’analyse log-linéaire de tableaux de contingence et le modèle logit.II :Analyse et
interprétation d’un exemple en évaluation contingente.
vi
Kah, E.(2000). Un problème de préservation de l’environnement en géographie : l’élimination des déchets
ménagers et le comportement des usagers. L’exemple du consentement à payer. Thèse de doctorat non publiée.
Faculté de géographie, université Louis Pasteur de Strasbourg.
vii
Theil (1972), p171.
viii
DeMaris (1982), p27
© CYBERGEO 2003
KAH E., PRUVOST M., CYBERGEO, No. 230, 10 janvier 2003
19