La Relation Texte / Image

Transcription

La Relation Texte / Image
La Relation Texte / Image
Essai de Modélisation dans
un Corpus Géographique
Nicolas Malandain
Groupe de Recherche en Informatique, Image, Instrumentation de Caen
Plan
2
1/ La relation Texte/Image




Complémentarité
Étude sur corpus
Structuration de la relation
Les Besoins de cette structuration
2/ Besoin : Liens Minimaux




Les Unités d’Informations dans le corpus
Entité Géo-référencée : modélisation
Les Unités d’Informations Textuelles minimales
Les Unités d’Informations Graphiques minimales
3/ Conclusion et Perspectives
Plan
3
1/ La relation Texte/Image




Complémentarité
Étude sur corpus
Structuration de la relation
Les Besoins de cette structuration
2/ Besoin : Liens Minimaux




Les Unités d’Informations dans le corpus
Entité Géo-référencée : modélisation
Les Unités d’Informations Textuelles minimales
Les Unités d’Informations Graphiques minimales
3/ Conclusion et Perspectives
4
Image et Texte
Gouet, Pied de veau.
Arum europaeum (Famille des Aracées)
Plante des bois frais, des haies et des vergers qui
développent ses feuilles au printemps. Plante
herbacée à feuilles en forme caractéristique de fer de
lance. Les fleurs sont entourées d'une feuille
engainante en forme de cornet qui a pour effet de
tenir élevée la température autour des fleurs. Les
fruits rouges sont regroupés sur l'axe floral: le
spadice. Les racines sont en fait des tubercules.
Toxicologie
La mastication et l'ingestion d'une feuille ou d'un fruit
entraînent une irritation buccale et des troubles
digestifs. Par contact cutané le suc entraîne une
irritation locale. Des ingestions en quantité
importante peuvent donner lieu à des intoxications
très graves.
5
Complémentarité de la relation
… à feuilles en forme caractéristique de fer de lance …
… d'une feuille engainante en forme de cornet qui …
…Les fruits rouges sont regroupés sur l'axe floral: le spadice…
nervurée
vert pâle
feuille blanche
grappe
rouge et verte
Le texte exprime ce qui est difficile à montrer dans une image
L’image montre ce qui est difficile à exprimer via le texte
[M. Joly 93]
6
La relation Texte/Image
Domaine très vaste :
Restriction à un domaine où la relation est très présente
Les atlas géographiques
Autres aspects de la complémentarité :

L’aspect temporel : texte

Organisation de l’espace : l’image
[D. Michel 89,97]
7
Étude sur Corpus
Même
de de
l'érosion
des des effectifs scolaires au cours du
Mêmesi sil'indicateur
l'indicateur
l'érosion
effectifs
scolaires au cours
du cycleest grossier, il met en évidence avec
cycle d'enseignement
en collège
d'enseignement
en collège
est vont plus souvent à leur terme dans
force que les scolarités
en collège
grossier,
en évidence
avec
le Midi, ilenmet
Bretagne
et en Île-de-France;
et qu'au contraire,dans la
force
quedes
lesdépartements
scolarités ensitués
collège
plupart
au nord d'une ligne Bordeaux-Genève
vont
plus souvent
à leurtourne
termeplus
danssouvent court.
la scolarité
en collège
le Midi, en Bretagne et en Île-deFrance; et qu'au contraire,dans la
plupart des départements situés au
nord d'une ligne Bordeaux-Genève
la scolarité en collège tourne plus
souvent court.
L’érosion des effectifs scolarisés de la sixième
la troisième
L’érosion des effectifs scolarisés de laàsixième
à la en 1985-86
troisième en 1985-86
Constatations sur le corpus
8

Absence de référence explicite Texte/Image

Le texte sans l’image est incomplet et réciproquement

Complémentarité de l’information spatiale Texte/Image


Le texte pointe dans la carte les zones importantes du comportement
du phénomène
La carte donne un aperçu du comportement spatial du phénomène
9
Structuration de la relation
Deux média traitant du même objet
Objet
Objet 1
Objet
Objet 2
Objet 3
Texte
Image
Unité d’Information : Globale Minimale Intermédiaire
10
Liens Multi-Échelles
Structurer la relation Texte/Image

un lien "classique" même typé est insuffisant [Kopak 99]
prendre en compte la granularité de la relation
Lien Global
Lien Minimal
Lien Intermédiaire
11
La relation Texte/Image
dans le cadre d’un Atlas géographique
Étude des informations véhiculées dans des
documents de géographie humaine
Phénomène
Commentaire
Image
12
La relation Texte/Image
dans le cadre d’un Atlas Géographique
Phénomène
Commentaire
Graphique
Organisation du commentaire

Introduction du phénomène

Point de vue général
 Mise en évidence des valeurs importantes
Niveau
élémentaire
Niveau Intermédiaire

Niveau Supérieur
Déductions
Images fortement structurées par l’homme afin de
véhiculer de l’information via un code « connu »
13
Informations véhiculées
Objet d’étude dans la relation Texte/Image
Espace
Quantification
Thématique
(phénomène)
Objet d’étude
Temps
Objectif : améliorer la prise en compte de l’information spatiale
Problème : structurer et automatiser la mise en relation
…, il met en évidence avec force que les scolarités en collège vont plus
La relation Texte/Carte
souvent
à leur terme dans le Midi, en Bretagne et en Île-de-France; et qu'au
14
contraire,dans la plupart des départements situés au nord d'une ligne
Bordeaux-Genève la scolarité en collège tourne plus souvent court.
L’érosion des effectifs scolarisés de la sixième à la troisième en 1985-86
Besoins : Liens Globaux
15
Relier l’image et son commentaire

Références explicites [Goffinet 96]

Mise en Forme Matériel
[Rowe98]
Corpus : références implicites
recherche d’informations + aspect psycho-cognitif
Besoins : Liens Minimaux
16
Relier les UIs référant au même objet
dans le commentaire et l’image

Texte : expressions linguistiques référant à une localisation
GIPSY[Woddruff 94], INFORMEDIA [Christel 99], MUC  entité nommée

Carte : zones de la carte référant à une localisation
2 modes d’expressions différents des entités géo-référencées:
•
•
•
•
repérer
extraire
structurer
comparer
Plan
17
1/ La relation Texte/Image




Complémentarité
Étude sur corpus
Structuration de la relation
Les Besoins de cette structuration
2/ Besoin : Liens Minimaux




Les Unités d’Informations dans le corpus
Entité Géo-référencée : modélisation
Les Unités d’Informations Textuelles minimales
Les Unités d’Informations Graphiques minimales
3/ Conclusion et Perspectives
18
Liens Minimaux
Unités d’Informations textuelles minimales
…offrent moins de possibilités en Bretagne, dans le bassin parisien, …
…Dans le Sud-Ouest pyrénéen et au nord de Paris, trois élèves sur cinq passent
en quatrième…
…Dans les départements les plus ouvriers, de l'école élémentaire à la quatrième …
… dans la plupart des départements situés au nord d'une ligne Bordeaux Genève la scolarité en collège tourne plus souvent court …
19
Liens Minimaux
Unités d’Informations graphiques minimales
20
Lien Minimaux
Unités d’Informations minimales Unités d’Informations minimales
Textuelles
Graphiques
expression linguistique évoquant la
spatialité
zone marquée par des indices visuels
Entité Géo-référencée (EG)
partie (connexe ou non) de l’espace géographique dont les frontières sont
plus ou moins précises
Structuration de l’information spatiale
21
Repérer, Structurer, Interpréter
Les Unités d’Informations complémentaires
Texte
Image
repérer et extraire
repérer et extraire
Unités d’Informations Textuelles
Unités d’Informations Graphiques
Modèle
Structurer et Interpréter
Unités d’Informations Textuelles
modélisées
Unités d’Informations Graphiques
modélisées
Comparer et relier les informations
Liens Minimaux
Étude des EGs
22
Expression des EGs à travers les notions de :

Indirection



Granularité


Orientée : « le nord de Paris, dans le nord-est »
Non orientée : « la banlieue de Paris »
Découpage : administratif (département, ville, …)
« les départements de la grande couronne parisienne »
Connaissances

Localisation à travers l’utilisation de connaissances
« les départements les plus ouvriers »
di
st
a
d( nce
K)
23
Modélisation d’une EG
Représentation graphique
Orientation
Connaissances
(K)
Granularité
Orientation
O(K)
EG
distance
N
localisation
360°
S
novice
expert
O
Métrique
[ plus petit découpagedomaine
; plus grand
N découpage]
ou E
O
E
0°expert
novice
[ ville ; état ]
S
Granularité Niveau d’adjacence
lecture
O
G(K)
S
novice
expert
N
Niveau d’adjacence :
analyse/déduction
-360°
niveau 1novice
= objets adjacents au référentiel expert
pour tout [x,y] x<y et y>0
niveau 2 = niveau 1 et objets adjacents au niveau 1
1. EG directe et précise
…le Massif central, modérée en Bretagne et à Paris…
O(K)
ville
d(
K)
24
7 classes d’EGs
G(K)
2. EG directe et imprécise
…dans le bassin parisien, … / …le littoral de la Manche,…
O(K)
)
ville département région état
d(
K
25
7 classes d’EGs
G(K)
3. EG indirecte et imprécise
…au nord de Paris… / la banlieue de Paris
…les départements au nord de Paris…
O(K)
Nord
ville département région état
d(
K)
26
7 classes d’EGs
G(K)
27
7 classes d’EGs
les autres EGs
4. EG indirecte et imprécise avec référentiel implicite
le nord / le nord-est
5. EG connaissances du domaine
les départements les plus ouvriers / la région parisienne
6. EG géométrique
une ligne Bordeaux-Genève / un triangle Avignon-Nîmes-Toulon
7. EG énumération (Unité d’Information Intermédiaire)
le Midi, en Bretagne et en Île-de-France
Modèle formel
28
EG
Connaissance
Système d’Information Géographique
texte
graphique
Réseau sémantique
Lexique
0..1
EGD
1
Modele
Indirection
2..*
Granularite
nom
type
{ ou exclusif }
référentiel
1..*
Dir
orientation
distance
Indir
distance
Geometrie
type
Plan
29
1/ La relation Texte/Image




Complémentarité
Étude sur corpus
Structuration de la relation
Les Besoins de cette structuration
2/ Besoin : Liens Minimaux




Les Unités d’Informations dans le corpus
Entité Géo-référencée : modélisation
Les Unités d’Informations Textuelles minimales
Les Unités d’Informations Graphiques minimales
3/ Conclusion et Perspectives
30
Extraction des UITs minimales
UITs référant à des EGs
UIT : expression linguistique référant à une EG
Syntagmes Nominaux
Pour chacune des classes définies :

Marqueurs spatiaux

Construction lexico-syntaxiques récurrentes

Analyse locale (patrons)

Représentation dans le modèle
31
EGs indirectes et imprécises
Marqueurs spatiaux
Orientés
nord, sud, est , ouest, …
Non orientés
banlieue, couronne, autour, …
32
EGs indirectes et imprécises
Constructions lexico-syntaxiques récurrentes
[site] [conjonction] [possessif] [marqueurs indirection]
[marqueurs indirection] [prepositions / articles] [site]
Marseille et sa banlieue ouest
le nord
Caen, ainsi
quedesaParis
périphérie
la banlieue de Marseille
la banlieue ouest de Lyon
Deux
Géo-référencées
le nordentités
d’une ligne
Bordeaux-Genève
Le site et La zone définie par l’indirection
33
EGs indirectes et imprécises
Patrons lexico-syntaxiques
nord de Paris
egIndImp
 combiInd, prep_article, eg
 combiIndOri, prep_article, eg
combiInd
 marqNonOri, prep_article, combiIndOri
 marqNonOri, combiIndOri
 marqNonOri
combiIndOri
 marqOri, conjonction, combiIndOri
 marqOri, conjonction, prep_article, combiIndOri
 marqOri, [ ‘-’ ], marqOri
 marqOri
EGs indirectes et imprécises
34
Représentation dans le modèle
(1/2)
<eg>
<texte>
nord de Paris
</texte>
<interp>
<indirection>
<dir orientation = "90"/ >
<egd nom = "Paris" />
</indirection>
</interp>
</eg>
35
EGs indirectes et imprécises
Représentation dans le modèle
(2/2)
<eg>
<texte>
banlieue de Paris
</texte>
<interp>
<indirection>
<indir dist = "2" />
<egd nom = "Paris" />
</indirection>
</interp>
</eg>
36
Validation
Plan
37
1/ La relation Texte/Image




Complémentarité
Étude sur corpus
Structuration de la relation
Les Besoins de cette structuration
2/ Besoin : Liens Minimaux




Les Unités d’Informations dans le corpus
Entité Géo-référencée : modélisation
Les Unités d’Informations Textuelles minimales
Les Unités d’Informations Graphiques minimales
3/ Conclusion et Perspectives
Extraction des UIGs minimales
38
UIGs référant à des EGs
Composantes d’une carte géographique

structuration de l’information : l’espace géographique

information : variable visuelle
Objectif de l’auteur :
Faire ressortir le comportement du phénomène
notamment les extrema
39
Variables visuelles
Taille
Valeur
40
Vision synthétique
du phénomène par généralisation
"Même si l'indicateur de l'érosion des
effectifs scolaires au cours du cycle
d'enseignement en collège est
grossier, il met en évidence avec
force que les scolarités en collège
vont plus souvent à leur terme dans
le Midi, en Bretagne et en Île-deFrance; et au contraire, dans la
plupart des départements situés au
nord d'une ligne Bordeaux-Genève la
scolarité en collège tourne plus
souvent court."
41
Les UIGs dans le modèle
UIG = description graphique
Exprimer les UIGs dans le modèle à travers
 des connaissances communes
 les 7 classes
Si la zone correspond à :
une de ces connaissances
: EG directe et précise
une indirection autour d’une de ces connaissances : EG indirecte et imprécise
42
Exemple
<eg>
<graphique>
description de la zone
</graphique>
<interp>
<indirection>
<dir orientation = "90" />
<dir orientation = "0" />
<egd nom = "Paris" />
</indirection>
</interp>
</eg>
<eg>
<graphique>
description de la zone
</graphique>
<interp>
<indirection>
<dir orientation = "90" />
<dir orientation = "45" />
</indirection>
</interp>
</eg>
Création du lien minimal
…confirme la fréquence des retards
et des difficultés scolaires du Nord et
du Nord-Est du pays, …
43
UIT
repérer
et extrairedes retards
…confirme
la fréquence
et des difficultés scolaires du Nord et
Unitésdu
d’Informations
Textuelles
Nord-Est du
pays, …
<eg>
<graphique>
description de la zone
</graphique>
<interp>
<indirection>
<dir orientation = "90" />
<dir orientation = "45" />
</indirection>
</interp>
</eg>
repérer et extraire
UIG
Unités d’Informations Graphiques
Modèle <eg><graphique>
<eg>
description de
Structurer et Interpréter
<graphique>
Unités d’Informations Textuelles
modélisées
la zone
</graphique>
<interp>description de la zone
</graphique>
<indirection>
<interp>
<dir orientation = "90" />
<dir <indirection>
orientation = "0" />
<egd <dir
nom =orientation
"Paris" /> = "90" />
<dir
orientation
= "45" />
</indirection>
</indirection>
</interp>
</interp>
</eg>
</eg>
Unités d’Informations Graphiques
modélisées
Comparer et relier les informations
44
…confirme la fréquence des retards
et des difficultés scolaires du Nord et
du Nord-Est du pays, …
45
Conclusion
Étude d’une chaîne de traitements complète :
 Liens globaux
: réalisation et validation
 Liens minimaux : réalisation et validation de la partie textuelle
expérimentations de la partie graphique
Exemples d’utilisation
Quels sont les
documents traitant
de cette zone ?
le Midi ?
…les scolarités en collège vont plus
souvent à leur terme dans le
Midi …
Conclusion et Perspectives
46
Faisabilité de la mise en relation Texte/Image
automatique
pour le moment : assistance à la mise en relation
Modélisation de l’information spatiale
dans la relation texte/carte
Perspectives
 Valider la partie traitement des UIGs

Amélioration des différents étapes

Indexation et Recherche de documents sur critère spatial