vers une caractérisation des bases d`images

Transcription

vers une caractérisation des bases d`images
Classification vs recherche d’information :
vers une caractérisation des bases d’images
Alain Boucher1,2, Thanh-Ha Dang1,3, Thi-Lan Le2
1 - Institut de la Francophonie pour l’Informatique, Bât. D, ruelle 42, rue Ta Quang Buu, Hanoi, Vietnam
2 - Centre de recherche MICA, Bât. C10, Institut Polytechnique de Hanoi, 1 Dai Co Viet, Hanoi, Vietnam
3 - Pôle IA, LIP6, Université Pierre et Marie Curie, 8 rue du Capitaine Scott, 75015 Paris, France
RÉSUMÉ. Dans la littérrature en traitement d’images, et plus particulièrement dans le domaine de la recherche
d’images par le contenu, nous retrouvons fréquemment des travaux présentant des idées intéressantes mais difficiles
à comparer parce que testées sur des bases d’images non-disponibles ou à accès restreint. Cet article présente
quelques réflexions et idées afin de caractériser les bases d’images à des fins de comparaisons de résultats
scientifiques. Pour cela, nous caractérisons les bases d’images à l’aide d’un protocole défini et reproductible, à base
d’arbres de décision et de descripteurs simples comme la couleur RGB et la texture par matrices de co-occurrence.
Enfin, la dernière partie de cet article compare les domaines de la classification et de l’indexation et recherche
d’images par le contenu, en établissant certains parallèles entre les deux domaines.
MOTS-CLÉS : Classification, Indexation et recherche d’images par le contenu, Arbres de décision, Bases d’images
1
Introduction
La dernière décennie a vu une explosion du nombre d’articles publiés dans le domaine de l’indexation et
de la recherche d’images par le contenu. Mais comme dans beaucoup de domaines, le problème de la
validation et de la comparaison des résultats publiés par les différentes équipes de recherche demeure
crucial [JER 02]. Alors que plusieurs voix s’élèvent pour demander l’introduction de bases d’images de
référence pour comparer les approches, on voit plutôt l’effet inverse, c’est-à-dire que chaque équipe utilise
souvent sa propre base d’images, soit par intérêt particulier, ou tout simplement parce que les travaux ont
une finalité vers une application spécifique, donc une base d’images spécifique. Les résultats d’une
approche de manipulation (classification, recherche d’information,…) d’une base d’images dépendent
forcément de ses propriétés. Il est évident que si une base est « facile » alors on obtiendra de bons résultats
et inversement. Cela cause des problèmes de comparaison des différentes approches proposées. Dans cet
article, nous souhaitons aborder le problème sous un autre angle. Plutôt que de contraindre les chercheurs
à utiliser les mêmes bases d’images, est-ce qu’il serait possible de leur donner des outils permettant de
comparer les différentes bases d’images entre elles ? C’est ce que nous tentons de faire en utilisant un
outil classique dans le domaine de la classification que sont les arbres de décision. Nous suggérons une
méthode pour caractériser les bases d’images et ainsi permettre la comparaison des travaux de recherche.
Cela permet d’estimer la difficulté des bases d’images pour donner une base de comparaison des méthodes
de recherche d’images par le contenu. Bien que certains problèmes restent à résoudre, cette approche
permet néanmoins de poser le problème de la validation sous un nouvel angle. Nous poussons notre
réflexion un peu plus loin en établissant quelques parallèles entre les domaines de la classification et de la
recherche d’information.
2
2.1
Protocole d’étude
Bases d’images
Les quatre bases d’images qui ont servi pour cette étude sont disponibles sur Internet librement sauf une et
possèdent déjà des classes définies où chaque image n’appartient qu’à une seule classe :
• la base de 1000 images naturelles en couleurs (10 classes x 100 images/classe) de J.Z. Wang de
l’Université de Pennsylvanie : http://wang.ist.psu.edu/docs/related/ ;
• la base de 7200 images d’objets en couleurs (100 objets x 72 images/objet) de l’Université
Columbia (COIL-100) : http://www1.cs.columbia.edu/CAVE/research/softlib/coil-100.html ;
• la base de plus de 14000 images de textures (70 textures x ~200 images/texture) des Universités
Columbia et d’Utrecht (CUReT) : http://www1.cs.columbia.edu/CAVE/curet ;
• la base de 347 images de grains de pollen (31 classes au total) de l’INRIA Sophia-Antipolis et
provenant du projet Européen ASTHMA1 [BON 02].
Sur toutes les images, nous avons calculé les principales caractéristiques utilisées en recherche d’images
par le contenu, soit la couleur et la texture. Nous avons calculé pour la couleur l’histogramme RGB de
l’image discrétisé en 24 bins et pour la texture un vecteur contenant les quatre caractéristiques les plus
appropriés extraites des matrices de co-occurrences : énergie, entropie, contraste et moment inverse de
différence. Un ensemble de 28 valeurs par image a servi de base pour les expérimentations de cet article.
2.2
Méthode de classification par arbres de décision
L’arbre de décision est une méthode très utilisée pour des raisons d’efficacité, de simplicité et
d’interprétabilité par rapport aux autres méthodes existantes. Il existe plusieurs approches de construction
des arbres de décision qui se distinguent principalement par le choix de la mesure de discrimination [DAN
04]. Pour cette étude, nous utilisons une version étendue de l’algorithme ID3 classique qui tient compte
des attributs numériques en ajoutant une étape supplémentaire de discrétisation [MAR 98] et la coupure
entre les intervalles est déterminée en utilisant l’entropie de Shannon. Les expérimentations ont été
effectuées en utilisant le système DTGen (Decision Tree Generation) de l’équipe LOFTI du LIP6 et une
variante de la validation croisée. La base des exemples est décomposée aléatoirement en deux parties : une
partie de 80% d’exemples de chaque classe pour la base d’apprentissage et le reste forme la base de test.
Cette validation est répétée un certain nombre de fois. En utilisation normale, le système donne en sortie la
classe d’appartenance pour une image requête, mais nous utilisons aussi un certain nombre d’informations
de la phase d’apprentissage et de test pour caractériser les différentes bases d’images (voir section 3).
2.3
Méthode de recherche d’images par le contenu
Un système d’indexation et recherche d’images par le contenu est un système qui permet de rechercher
des images similaires à une requête dans une base d’images en se basant sur les caractéristiques propres
aux images comme les couleurs, les textures, les formes, etc. Nous utilisons pour cette expérimentation un
système classique basé sur les caractéristiques les plus importantes pour ce domaine, soient la couleur et la
texture. Ce système est un sous-ensemble d’un système plus avancé [LE 04] que nous avons choisi pour
établir les premières comparaisons de cet article. La méthode d’intersection d’histogrammes est utilisée
pour la couleur et la distance des vecteurs de caractéristiques est calculée pour la texture. Les distances en
couleurs et en textures sont normalisées indépendamment pour rétablir les ordres de grandeur des
grandeurs calculées. Enfin, les distances normalisées permettent de calculer la distance entre deux images,
image requête et image de la base d’images. Le système donne en sortie non pas une classe
d’appartenance, mais un certain nombre d’images jugées pertinentes et similaires à l’image requête
proposée. Ce nombre d’images voulues dans la réponse finale est un paramètre permettant de calculer des
mesures d’évaluation de l’algorithme comme le rappel et la précision.
1
Les auteurs remercient le projet Orion de l’INRIA pour avoir permis l’utilisation ici de cette base d’images.
3
Caractérisation des bases d’images
Nous proposons de calculer un index caractéristique pour une base d’images donnée comme suit :
Index = f(Base d’images, Attributs image, Méthode de composition)
Pour une base d’images, nous devons calculer des attributs sur chaque image et utiliser une méthode de
composition de ces attributs pour produire un index valable. Ensuite, si nous utilisons la même procédure
pour une nouvelle base d’images, nous espérons obtenir un nouvel index qui permettra de comparer les
deux bases d’images, et aussi ensuite les résultats d’algorithmes travaillant sur ces deux bases d’images.
Pour cela, les attributs utilisés et la méthode de composition doivent être fixés et ne pas changer, car
autrement la comparaison des index devient impossible. Comme nous nous intéressons au domaine de la
recherche d’images similaires, nous avons choisi les attributs les plus fréquents pour ce domaine que sont
la couleur et la texture [SME 00]. Nous avons ensuite choisi comme méthode de composition de l’index le
calcul par arbres de décision, qui constitue une méthode simple, reproductible, indépendante, mais
présentant des similarités avec le domaine ciblé. Nous avons expérimenté la méthode à base d’arbres de
décision décrite à la section 2.2 sur les bases d’images de la section 2.1 et calculé différents index
possibles (tableau 1). Parmi ces mesures, l’entropie est une mesure d’incertitude, qu’on peut aussi décrire
comme la quantité d’information de la base de test. La mesure du gain exprime la quantité d’information
que l’arbre a acquise sur la base de test après la base d’apprentissage, tandis que le taux de gain
d’information exprime le gain corrigé par l’entropie. Toutes ces mesures permettent de caractériser une
base d’images, principalement le taux de bonne classification (en %) et le taux de gain d’information
(en %). Ces deux mesures sont des index adéquats pour caractériser les différentes bases d’images. Plus le
taux est élevé pour une base d’images et plus cette base est considérée facile (uniquement pour le
problème de la recherche d’images) et inversement.
Mesure
Taux de bonne
classification (%)
Calcul
Nombre d’exemples bien classifiés
Nombre d’exemples
Entropie (bit)
Entropie de la base de test
Gain (bit)
Taux
de
gain
d’information (%)
Entropie de la base de test –
Entropie cond. par l’arbre de la base de test
Gain x 100%
Entropie
Wang
Coil-100
CUReT
INRIA
64.5
93.46
52.25
67.07
3.32
6.64
6.13
4.89
1.61
6.19
3.14
3.22
48.45
93.24
51.30
65.81
Tableau 1. Différentes mesures caractéristiques sur les quatre bases d’images différentes.
Mesure
Taux de bonne classification
des exemples de classe i (%)
Entropie (bit)
Gain (bit)
Taux de gain d’information (%)
Cl 0
Cl 1
Cl 2
Cl 3
Cl 4
Cl 5
Cl 6
Cl 7
Cl 8
Cl 9
50.63
43.75
33.75
53.75
100.0
60.00
91.88
80.63
36.25
56.88
0.469
0.100
21.42
0.469
0.064
13.62
0.469
0.029
6.16
0.469
0.118
25.09
0.469
0.469
100.0
0.469
0.143
30.55
0.469
0.345
73.59
0.469
0.253
54.04
0.469
0.044
9.49
0.469
0.122
26.03
Tableau 2. Différentes mesures caractéristiques sur les classes d’images de la base d’images de Wang.
Dans la même veine, alors qu’on ne s’intéresse très souvent qu’au résultat d’un algorithme sur une base
d’images, la structure, ou l’équilibre, de cette base d’images, et de ses classes, est intéressante à analyser
parce qu’elle peut nous renseigner sur les résultats que l’on peut en tirer (tableau 2). Dans l’exemple
donné dans le tableau 2, les classes 4 et 6 (contenant des dessins de dinosaures et des fleurs en gros plans
– visuellement très proches) sont de toute évidence plus faciles, tandis que les classes 2 et 8 (contenant des
monuments urbains et des paysages de montagnes – visuellement très différents) posent plus de
difficultés. Cependant, l’interprétation de ces observations n’est pas universelle et dépend des images, de
la structure définie ou non dans les classes, de l’application et des objectifs visés.
La figure 1 montre les résultats de rappel vs précision de l’algorithme en recherche d’images par le
contenu (section 2.3) sur les bases d’images. Plus la courbe est élevée et plus le résultat est bon. L’ordre
des courbes est à comparer avec les résultats de la méthode de classification pour déterminer l’ordre des
bases d’images, de la plus « facile » (courbe élevée) à la plus « difficile ». La figure 1a comparée au
tableau 1 permet de juger de la qualité des index proposées, tandis que la figure 1b comparée au tableau 2
permet de faire de même pour les classes individuelles d’une même base d’images.
(a)
(b)
Figure 1. Résultats de rappel vs précision en recherche d’images par le contenu. (a) Courbes globales pour les
quatre bases d’images (Note : pour la base INRIA, les valeurs erronées pour des hautes valeurs de rappel sont
dues à la faible taille de certaines classes). (b) Courbes pour chaque classe de la base d’images de Wang.
4
Conclusion
Nous avons présenté dans cet article une nouvelle approche pour aider l’évaluation et la comparaison des
systèmes d’indexation et recherche d’images par le contenu, en utilisant une technique de classification à
base d’arbres de décision pour classifier les bases d’images existantes et les ordonner. En publiant les
résultats de leurs travaux sur une base d’images particulière, les auteurs pourraient ainsi donner en même
temps les différents index associés à leur base afin de permettre une meilleure comparaison des résultats.
Cette approche est selon nous possible dans le domaine de la recherche d’images par le contenu parce que
les travaux dans ce domaine se font très souvent sur des applications générales et des bases d’images nonspécifiques, ce qui justifie le choix d’attributs d’images généraux comme la couleur et la texture. Il reste à
étudier le cas où plusieurs classes (ou mots-clés) sont associées à chaque image.
5
Bibliographie
[BON 02] BONTON P., BOUCHER A., THONNAT M., TOMCZAK R., HIDALGO P.J., BELMONTE
J., GALAN C., « Colour image in 2D and 3D microscopy for the automation of pollen rate
measurement », Image Analysis and Stereology, vol. 21, no 1, march 2002, pp. 25-30.
[DAN 04] DANG T.H., BOUCHON-MEUNIER B., MARSALA C., « Measures of information for
inductive learning », Information Processing and Management of Uncertainty in Knownledge-Based
Systems (IPMU), july 2004, pp. 1495-1502, Perugia (Italia).
[JER 02] JERMYN I.H., SHAFFREY C.W., KINGSBURY N.G., « Evaluation Methodologies for Image
Retrieval Results », Proc. of Advanced Concepts for Intelligent Vision Systems (ACIVS), 2002.
[LE 04] LE T.L., BOUCHER A., « An interactive image retrieval system: from symbolic to semantic »,
Int. Conf. on Electronics, Informations and Communications (ICEIC), august 2004, Hanoi (Vietnam).
[MAR 98] MARSALA C., « Apprentissage inductif en présence de données imprécises : Construction et
utilisation d'arbres de décision flous », Thèse de doctorat de l’Université Paris VI, 1998.
[SME 00] SMEULDERS A.W.M., WORRING M., SANTINI S., GUPTA A., JAIN R., « Content-Based
Image Retrieval at the End of the Early Years », IEEE Trans. on Patt. Anal. and Machine Intell., vol.
22, no 12, 2000, pp. 1349-1380.