vers une caractérisation des bases d`images
Transcription
vers une caractérisation des bases d`images
Classification vs recherche d’information : vers une caractérisation des bases d’images Alain Boucher1,2, Thanh-Ha Dang1,3, Thi-Lan Le2 1 - Institut de la Francophonie pour l’Informatique, Bât. D, ruelle 42, rue Ta Quang Buu, Hanoi, Vietnam 2 - Centre de recherche MICA, Bât. C10, Institut Polytechnique de Hanoi, 1 Dai Co Viet, Hanoi, Vietnam 3 - Pôle IA, LIP6, Université Pierre et Marie Curie, 8 rue du Capitaine Scott, 75015 Paris, France RÉSUMÉ. Dans la littérrature en traitement d’images, et plus particulièrement dans le domaine de la recherche d’images par le contenu, nous retrouvons fréquemment des travaux présentant des idées intéressantes mais difficiles à comparer parce que testées sur des bases d’images non-disponibles ou à accès restreint. Cet article présente quelques réflexions et idées afin de caractériser les bases d’images à des fins de comparaisons de résultats scientifiques. Pour cela, nous caractérisons les bases d’images à l’aide d’un protocole défini et reproductible, à base d’arbres de décision et de descripteurs simples comme la couleur RGB et la texture par matrices de co-occurrence. Enfin, la dernière partie de cet article compare les domaines de la classification et de l’indexation et recherche d’images par le contenu, en établissant certains parallèles entre les deux domaines. MOTS-CLÉS : Classification, Indexation et recherche d’images par le contenu, Arbres de décision, Bases d’images 1 Introduction La dernière décennie a vu une explosion du nombre d’articles publiés dans le domaine de l’indexation et de la recherche d’images par le contenu. Mais comme dans beaucoup de domaines, le problème de la validation et de la comparaison des résultats publiés par les différentes équipes de recherche demeure crucial [JER 02]. Alors que plusieurs voix s’élèvent pour demander l’introduction de bases d’images de référence pour comparer les approches, on voit plutôt l’effet inverse, c’est-à-dire que chaque équipe utilise souvent sa propre base d’images, soit par intérêt particulier, ou tout simplement parce que les travaux ont une finalité vers une application spécifique, donc une base d’images spécifique. Les résultats d’une approche de manipulation (classification, recherche d’information,…) d’une base d’images dépendent forcément de ses propriétés. Il est évident que si une base est « facile » alors on obtiendra de bons résultats et inversement. Cela cause des problèmes de comparaison des différentes approches proposées. Dans cet article, nous souhaitons aborder le problème sous un autre angle. Plutôt que de contraindre les chercheurs à utiliser les mêmes bases d’images, est-ce qu’il serait possible de leur donner des outils permettant de comparer les différentes bases d’images entre elles ? C’est ce que nous tentons de faire en utilisant un outil classique dans le domaine de la classification que sont les arbres de décision. Nous suggérons une méthode pour caractériser les bases d’images et ainsi permettre la comparaison des travaux de recherche. Cela permet d’estimer la difficulté des bases d’images pour donner une base de comparaison des méthodes de recherche d’images par le contenu. Bien que certains problèmes restent à résoudre, cette approche permet néanmoins de poser le problème de la validation sous un nouvel angle. Nous poussons notre réflexion un peu plus loin en établissant quelques parallèles entre les domaines de la classification et de la recherche d’information. 2 2.1 Protocole d’étude Bases d’images Les quatre bases d’images qui ont servi pour cette étude sont disponibles sur Internet librement sauf une et possèdent déjà des classes définies où chaque image n’appartient qu’à une seule classe : • la base de 1000 images naturelles en couleurs (10 classes x 100 images/classe) de J.Z. Wang de l’Université de Pennsylvanie : http://wang.ist.psu.edu/docs/related/ ; • la base de 7200 images d’objets en couleurs (100 objets x 72 images/objet) de l’Université Columbia (COIL-100) : http://www1.cs.columbia.edu/CAVE/research/softlib/coil-100.html ; • la base de plus de 14000 images de textures (70 textures x ~200 images/texture) des Universités Columbia et d’Utrecht (CUReT) : http://www1.cs.columbia.edu/CAVE/curet ; • la base de 347 images de grains de pollen (31 classes au total) de l’INRIA Sophia-Antipolis et provenant du projet Européen ASTHMA1 [BON 02]. Sur toutes les images, nous avons calculé les principales caractéristiques utilisées en recherche d’images par le contenu, soit la couleur et la texture. Nous avons calculé pour la couleur l’histogramme RGB de l’image discrétisé en 24 bins et pour la texture un vecteur contenant les quatre caractéristiques les plus appropriés extraites des matrices de co-occurrences : énergie, entropie, contraste et moment inverse de différence. Un ensemble de 28 valeurs par image a servi de base pour les expérimentations de cet article. 2.2 Méthode de classification par arbres de décision L’arbre de décision est une méthode très utilisée pour des raisons d’efficacité, de simplicité et d’interprétabilité par rapport aux autres méthodes existantes. Il existe plusieurs approches de construction des arbres de décision qui se distinguent principalement par le choix de la mesure de discrimination [DAN 04]. Pour cette étude, nous utilisons une version étendue de l’algorithme ID3 classique qui tient compte des attributs numériques en ajoutant une étape supplémentaire de discrétisation [MAR 98] et la coupure entre les intervalles est déterminée en utilisant l’entropie de Shannon. Les expérimentations ont été effectuées en utilisant le système DTGen (Decision Tree Generation) de l’équipe LOFTI du LIP6 et une variante de la validation croisée. La base des exemples est décomposée aléatoirement en deux parties : une partie de 80% d’exemples de chaque classe pour la base d’apprentissage et le reste forme la base de test. Cette validation est répétée un certain nombre de fois. En utilisation normale, le système donne en sortie la classe d’appartenance pour une image requête, mais nous utilisons aussi un certain nombre d’informations de la phase d’apprentissage et de test pour caractériser les différentes bases d’images (voir section 3). 2.3 Méthode de recherche d’images par le contenu Un système d’indexation et recherche d’images par le contenu est un système qui permet de rechercher des images similaires à une requête dans une base d’images en se basant sur les caractéristiques propres aux images comme les couleurs, les textures, les formes, etc. Nous utilisons pour cette expérimentation un système classique basé sur les caractéristiques les plus importantes pour ce domaine, soient la couleur et la texture. Ce système est un sous-ensemble d’un système plus avancé [LE 04] que nous avons choisi pour établir les premières comparaisons de cet article. La méthode d’intersection d’histogrammes est utilisée pour la couleur et la distance des vecteurs de caractéristiques est calculée pour la texture. Les distances en couleurs et en textures sont normalisées indépendamment pour rétablir les ordres de grandeur des grandeurs calculées. Enfin, les distances normalisées permettent de calculer la distance entre deux images, image requête et image de la base d’images. Le système donne en sortie non pas une classe d’appartenance, mais un certain nombre d’images jugées pertinentes et similaires à l’image requête proposée. Ce nombre d’images voulues dans la réponse finale est un paramètre permettant de calculer des mesures d’évaluation de l’algorithme comme le rappel et la précision. 1 Les auteurs remercient le projet Orion de l’INRIA pour avoir permis l’utilisation ici de cette base d’images. 3 Caractérisation des bases d’images Nous proposons de calculer un index caractéristique pour une base d’images donnée comme suit : Index = f(Base d’images, Attributs image, Méthode de composition) Pour une base d’images, nous devons calculer des attributs sur chaque image et utiliser une méthode de composition de ces attributs pour produire un index valable. Ensuite, si nous utilisons la même procédure pour une nouvelle base d’images, nous espérons obtenir un nouvel index qui permettra de comparer les deux bases d’images, et aussi ensuite les résultats d’algorithmes travaillant sur ces deux bases d’images. Pour cela, les attributs utilisés et la méthode de composition doivent être fixés et ne pas changer, car autrement la comparaison des index devient impossible. Comme nous nous intéressons au domaine de la recherche d’images similaires, nous avons choisi les attributs les plus fréquents pour ce domaine que sont la couleur et la texture [SME 00]. Nous avons ensuite choisi comme méthode de composition de l’index le calcul par arbres de décision, qui constitue une méthode simple, reproductible, indépendante, mais présentant des similarités avec le domaine ciblé. Nous avons expérimenté la méthode à base d’arbres de décision décrite à la section 2.2 sur les bases d’images de la section 2.1 et calculé différents index possibles (tableau 1). Parmi ces mesures, l’entropie est une mesure d’incertitude, qu’on peut aussi décrire comme la quantité d’information de la base de test. La mesure du gain exprime la quantité d’information que l’arbre a acquise sur la base de test après la base d’apprentissage, tandis que le taux de gain d’information exprime le gain corrigé par l’entropie. Toutes ces mesures permettent de caractériser une base d’images, principalement le taux de bonne classification (en %) et le taux de gain d’information (en %). Ces deux mesures sont des index adéquats pour caractériser les différentes bases d’images. Plus le taux est élevé pour une base d’images et plus cette base est considérée facile (uniquement pour le problème de la recherche d’images) et inversement. Mesure Taux de bonne classification (%) Calcul Nombre d’exemples bien classifiés Nombre d’exemples Entropie (bit) Entropie de la base de test Gain (bit) Taux de gain d’information (%) Entropie de la base de test – Entropie cond. par l’arbre de la base de test Gain x 100% Entropie Wang Coil-100 CUReT INRIA 64.5 93.46 52.25 67.07 3.32 6.64 6.13 4.89 1.61 6.19 3.14 3.22 48.45 93.24 51.30 65.81 Tableau 1. Différentes mesures caractéristiques sur les quatre bases d’images différentes. Mesure Taux de bonne classification des exemples de classe i (%) Entropie (bit) Gain (bit) Taux de gain d’information (%) Cl 0 Cl 1 Cl 2 Cl 3 Cl 4 Cl 5 Cl 6 Cl 7 Cl 8 Cl 9 50.63 43.75 33.75 53.75 100.0 60.00 91.88 80.63 36.25 56.88 0.469 0.100 21.42 0.469 0.064 13.62 0.469 0.029 6.16 0.469 0.118 25.09 0.469 0.469 100.0 0.469 0.143 30.55 0.469 0.345 73.59 0.469 0.253 54.04 0.469 0.044 9.49 0.469 0.122 26.03 Tableau 2. Différentes mesures caractéristiques sur les classes d’images de la base d’images de Wang. Dans la même veine, alors qu’on ne s’intéresse très souvent qu’au résultat d’un algorithme sur une base d’images, la structure, ou l’équilibre, de cette base d’images, et de ses classes, est intéressante à analyser parce qu’elle peut nous renseigner sur les résultats que l’on peut en tirer (tableau 2). Dans l’exemple donné dans le tableau 2, les classes 4 et 6 (contenant des dessins de dinosaures et des fleurs en gros plans – visuellement très proches) sont de toute évidence plus faciles, tandis que les classes 2 et 8 (contenant des monuments urbains et des paysages de montagnes – visuellement très différents) posent plus de difficultés. Cependant, l’interprétation de ces observations n’est pas universelle et dépend des images, de la structure définie ou non dans les classes, de l’application et des objectifs visés. La figure 1 montre les résultats de rappel vs précision de l’algorithme en recherche d’images par le contenu (section 2.3) sur les bases d’images. Plus la courbe est élevée et plus le résultat est bon. L’ordre des courbes est à comparer avec les résultats de la méthode de classification pour déterminer l’ordre des bases d’images, de la plus « facile » (courbe élevée) à la plus « difficile ». La figure 1a comparée au tableau 1 permet de juger de la qualité des index proposées, tandis que la figure 1b comparée au tableau 2 permet de faire de même pour les classes individuelles d’une même base d’images. (a) (b) Figure 1. Résultats de rappel vs précision en recherche d’images par le contenu. (a) Courbes globales pour les quatre bases d’images (Note : pour la base INRIA, les valeurs erronées pour des hautes valeurs de rappel sont dues à la faible taille de certaines classes). (b) Courbes pour chaque classe de la base d’images de Wang. 4 Conclusion Nous avons présenté dans cet article une nouvelle approche pour aider l’évaluation et la comparaison des systèmes d’indexation et recherche d’images par le contenu, en utilisant une technique de classification à base d’arbres de décision pour classifier les bases d’images existantes et les ordonner. En publiant les résultats de leurs travaux sur une base d’images particulière, les auteurs pourraient ainsi donner en même temps les différents index associés à leur base afin de permettre une meilleure comparaison des résultats. Cette approche est selon nous possible dans le domaine de la recherche d’images par le contenu parce que les travaux dans ce domaine se font très souvent sur des applications générales et des bases d’images nonspécifiques, ce qui justifie le choix d’attributs d’images généraux comme la couleur et la texture. Il reste à étudier le cas où plusieurs classes (ou mots-clés) sont associées à chaque image. 5 Bibliographie [BON 02] BONTON P., BOUCHER A., THONNAT M., TOMCZAK R., HIDALGO P.J., BELMONTE J., GALAN C., « Colour image in 2D and 3D microscopy for the automation of pollen rate measurement », Image Analysis and Stereology, vol. 21, no 1, march 2002, pp. 25-30. [DAN 04] DANG T.H., BOUCHON-MEUNIER B., MARSALA C., « Measures of information for inductive learning », Information Processing and Management of Uncertainty in Knownledge-Based Systems (IPMU), july 2004, pp. 1495-1502, Perugia (Italia). [JER 02] JERMYN I.H., SHAFFREY C.W., KINGSBURY N.G., « Evaluation Methodologies for Image Retrieval Results », Proc. of Advanced Concepts for Intelligent Vision Systems (ACIVS), 2002. [LE 04] LE T.L., BOUCHER A., « An interactive image retrieval system: from symbolic to semantic », Int. Conf. on Electronics, Informations and Communications (ICEIC), august 2004, Hanoi (Vietnam). [MAR 98] MARSALA C., « Apprentissage inductif en présence de données imprécises : Construction et utilisation d'arbres de décision flous », Thèse de doctorat de l’Université Paris VI, 1998. [SME 00] SMEULDERS A.W.M., WORRING M., SANTINI S., GUPTA A., JAIN R., « Content-Based Image Retrieval at the End of the Early Years », IEEE Trans. on Patt. Anal. and Machine Intell., vol. 22, no 12, 2000, pp. 1349-1380.