Recherche multi-descripteurs dans les fonds - Cedric

Transcription

Recherche multi-descripteurs dans les fonds - Cedric
 Sujet de thèse 2012 CNAM Paris – Nicéphore Cite – Musée Nicéphore Niepce « Recherche multi-­‐descripteurs dans les fonds photographiques numérisés » Contexte Dans le cadre d’une convention de recherche, l’équipe Vertigo du laboratoire CEDRIC (CNAM, Paris), le Pôle de développement Nicéphore Cité et le Musée Nicéphore Niépce (Chalon-­‐sur-­‐Saône), proposent une thèse de doctorat sur le thème de l’indexation et la recherche d’images par contenu visuel. Vertigo1 est une équipe de recherche du CEDRIC (Centre d’Etude et de Recherche en Informatique et Communications du CNAM -­‐ classé A par l’AERES et membre du Labex CAP). Elle est en particulier spécialisée dans les méthodes d’indexation par contenu visuel des grandes collections d’images et de vidéos, et collabore avec plusieurs universités françaises et internationales, notamment avec les Universités de São Paulo et UNICAMP (Brésil), le New Jersey Institute of Technology (Etats-­‐Unis) et le National Institute of Informatics (Japon). Nicéphore Cité2 est un pôle de développement, de soutien et d’accompagnement de la filière image et son en Bourgogne. S’appuyant sur un large réseau de partenaires, la SEM Nicéphore Cité travaille sur l’élaboration et la conduite de projets d’entreprises innovantes, de recherche et de formations. Dans ce cadre, la SEM développe plusieurs niches stratégiques dont la Valorisation de contenu multimédia en étroite collaboration avec le Musée Nicéphore Niépce. Le Musée Nicéphore Niépce3, Musée de la photographie, a constitué en près de trente cinq ans d’existence l’une des collections photographiques les plus originales en Europe. Des premières héliographies de Nicéphore Niépce aux technologies numériques, cette collection de plus de trois millions d’images raconte les multiples histoires de la photographie dans son aventure esthétique et documentaire, mais aussi dans ses usages populaires et commerciaux. Présentation du sujet L’indexation et la recherche d’images par contenu visuel (CBIR pour « Content-­‐Based Image Retrieval ») est une discipline de l’informatique qui a pour objectif la structuration automatique des collections d’images à partir de critères visuels choisis [GB06] [DJLW08]. Les fonctionnalités offertes couvrent l’accès efficace à une ou plusieurs images dans une collection de grande taille ou encore l’identification de leur contenu par le biais de la détection ou reconnaissance d’objets. Elles impactent de nombreux secteurs manipulant ce type de données, comme l’audiovisuel, la culture, la sécurité, la santé, la recherche scientifique, etc. Indexer une image à partir de son contenu visuel nécessite d’abord de produire un résumé visuel de ce contenu pour un usage donné, qui sera l’index de cette image dans la collection. En matière de descripteurs d’images, la littérature est désormais très riche : plusieurs familles de descripteurs existent, et dans chaque famille de nombreuses approches cohabitent [DJLW08] [TM08] [DKN08] [SGS10] 1 Vertigo : http://cedric.cnam.fr/vertigo/ 2 Nicéphore Cité : http://www.nicephorecite.com/ 3 Musée Nicéphore Niépce : http://www.museeniepce.com/ [ADP12]. Bon nombre de descripteurs ne décrivant pas la même information et n’ayant pas les mêmes propriétés d’invariance, il est pertinent de les combiner de manière à mieux décrire le contenu de l’image. Cette combinaison peut être mise en œuvre de différentes manières, selon les descripteurs considérés et la stratégie de combinaison. Par exemple, certaines fusionnent les réponses retournées par chaque descripteur choisi a priori en présupposant de la complémentarité de ces derniers [FSNA95] [SZ03] [LTGBBB09], d’autres combinent les descripteurs en séquence [GBL08]. Parmi les plus récentes, on trouve les approches dédiées à la catégorisation d’images qui apprennent une combinaison optimale de descripteurs [TFG08] [GN09], ce qui revient souvent à sélectionner les caractéristiques les plus discriminantes pour une base d’images donnée [FEHF09] [WYTZ10]. Dans cette thèse, nous nous focaliserons sur la famille des descripteurs locaux [TM08], avec pour application la recherche d’images ou d’objets par l’exemple dans une collection d’images. Les descripteurs locaux sont bien connus pour leur généricité et leur robustesse aux transformations de l’image, et sont donc souvent utilisés pour la recherche, la reconnaissance ou la catégorisation d’objets et de scènes. Trois pistes d’investigation seront privilégiées : o Complémentarité des descripteurs. Notre premier objectif traite de l’évaluation de la complémentarité des descripteurs locaux existant, en proposant des critères statistiques d’analyse de leur distribution, comme dans [DKN08] [DAP11] ou encore leur complémentarité dans l’image [ADP12]. Ce travail devrait permettre de mettre en lumière une synergie entre certaines de ces techniques, lorsque jugées suffisamment complémentaires. La pertinence de relations plus fines sera aussi explorée, une piste novatrice étant l’étude des relations spatiales inter-­‐descripteurs, qui décrivent les structures de niveau intermédiaire de l’image. Un point de départ sera les travaux relatifs à la modélisation des relations spatiales au sein d’un même descripteur [HGBRM10] [ZJC11]. o Combinaison pour la recherche d’images par l’exemple. Le cœur de la thèse reposera sur la proposition d’un modèle permettant la combinaison, précoce ou tardive, de descripteurs de bas niveau et génériques pour l’obtention d’un descripteur de plus haut niveau sémantique répondant à un scénario d’usage donné, tout en gardant un niveau suffisant de généricité afin de permettre l’indexation de différents types de contenus visuels. L’application considérée étant la recherche par l’exemple, une autre difficulté majeure concernera la complexité de la solution proposée, qui devra être à même de répondre au problème en des temps de recherche réduits, même pour un grand volume d’images. Il faut noter ici que la majorité des approches récentes de la littérature précitées sont dédiées à la catégorisation d’images et tiennent donc peu compte de ce critère. La pertinence du modèle proposé dépendra donc aussi de l’efficacité de la méthode d’accès rapide qui lui sera associée [S06]. o Réorganisation des réponses. Dans les systèmes de recherche d’images par l’exemple, les images retournées sont généralement triées par similarité décroissante, de manière à visualiser en premier les réponses les plus proches de la requête exemple. Dans le cas de la recherche multi-­‐descripteurs, le tri peut être fait de même – selon une mesure de similarité globale – mais les réponses peuvent aussi être organisées plus finement en exploitant la multiplicité des caractéristiques visuelles recherchées. Cette piste de recherche est encore peu explorée, elle pourra être étudiée avec comme point de départ les travaux récents sur les solutions alternatives de la recherche par l’exemple, comme [GBBS09] [SFD11]. Le doctorant s’appuiera sur le savoir-­‐faire des chercheurs de Vertigo en matière d’analyse d’images [GBL08] [LTGBBB09] [HGBRM10] et de méthodes d’accès rapides [GBBS09] [BGR11], ainsi que sur la plateforme de descripteurs d’images déjà développée dans le cadre de la convention de recherche. La principale application de ce travail sera l’indexation par contenu visuel du fonds photographique du Musée Nicéphore Niépce. Doté de plusieurs millions de documents photographiques en cours de numérisation, leur indexation devra permettre une meilleure structuration de la collection numérisée et donc une manipulation plus facile et plus poussée pour les experts, mais elle contribuera aussi à offrir de nouveaux scénarios d’interrogation au service de sa mise en valeur auprès du grand public. En plus des évaluations réalisées sur les bases standards de la littérature de l’indexation d’images, le modèle proposé pourra ainsi être évalué in situ dans les locaux du Musée. 2 Organisation Début de la thèse : dernier trimestre 2012 Salaire : 1650 euros/mois (net) pendant 3 ans Lieu : thèse bi-­‐localisée à Paris et Chalon-­‐sur-­‐Saône (conditions de logement facilitées sur les deux sites) Ecole doctorale : EDITE4 Profil du candidat De bonnes connaissances et une pratique en indexation d’images par contenu visuel, analyse d’images ou vision par ordinateur sont requises, ainsi que la maîtrise de la programmation C/C++ ou Java. Des connaissances élémentaires en bases de données (méthodes d’accès, index) renforceront le dossier de candidature. Modalités de candidature Avant le 15 juillet 2012, envoyer par email et en PDF aux deux encadrants : o
o
o
o
CV Lettre de motivation ciblée sur le sujet Au moins deux lettres de recommandation Relevés des notes + liste des enseignements suivis en M2 et en M1 Encadrement et contacts Encadrants o Valérie Gouet-­‐Brunet5, Maître de Conférences HDR CNAM – [email protected] o Gabriel Bloch, Directeur adjoint de Nicéphore Cité – [email protected] Contact Musée Nicéphore Niépce Sylvain Besson, Responsable du service inventaire documentation au musée Nicéphore Niépce – [email protected] Bibliographie [ADP12] Aanæs Henrik, Dahl Anders Lindbjerg and Pedersen Kim Steenstrup. Interesting Interest Points: A Comparative Study of Interest Point Performance on a Unique Data Set, International Journal of Computer Vision, 97(1), pages 18-­‐35, 2012. [BGR11] S. Barton, V. Gouet-­‐Brunet and M. Rukoz, Large scale disk-­‐based metric indexing structure for approximate information retrieval by content, 1st Workshop on New Trends in Similarity Search (NTSS’11), in conjunction with the EDBT 2011 Conference, pages 1 – 6, 2011. [DAP11] A. Lindbjerg Dahl, H. Aanæs, K. Steenstrup Pedersen, Finding the best feature detector-­‐descriptor combination, The First Joint Conference of 3D Imaging, Modeling, Processing, Visualization and Transmission, pages 318-­‐325, may 2011. [DJLW08] R. Datta, D. Joshi, J. Li and J. Z. Wang, Image Retrieval: Ideas, Influences and Trends of the New Age, ACM Computing Surveys, 40(2): 1-­‐60, 2008. 4 Site de l’EDITE : http://edite-­‐de-­‐paris.fr 5 Site web de V. Gouet-­‐Brunet : http://cedric.cnam.fr/~gouet/ 3 [DKN08] Deselaers Thomas, Keysers Daniel and Ney Hermann, Features for image retrieval: an experimental comparison, Information Retrieval Journal, 11(2), pages 77-­‐107, 2008. [FEHF09] A. Farhadi, I. Endres, D. Hoiem, and D.A. Forsyth , Describing Objects by their Attributes, IEEE Conference on Computer Vision and Pattern Recognition (CVPR’09), pages 1778-­‐1785, 2009. [FSNA95] Flickner M., Sawhney H., Niblack W., Ashley J., Huang Q., Dom B., Gorkani M., Hafner J., Lee D., Petkovic D., Steele D. and Yanker P., Query by Image and Video Content: The QBIC System, IEEE Computer, 28(9), pages 23-­‐32, 1995. [GN09] Peter Gehler and Sebastian Nowozin, On Feature Combination for Multiclass Object Classification, Proceedings of the Twelfth IEEE International Conference on Computer Vision (ICCV’09), pages 221-­‐228, 2009. [GB06] V. Gouet-­‐Brunet, Chapitre de livre « Recherche par contenu visuel dans les grandes collections d’images », Encyclopédie de l’Informatique et des systèmes d’information, pages 564–576, J. Akoka and I. Commyn-­‐Wattiau (eds.), Vuibert, 2006. [GBBS09] V. Gouet-­‐Brunet, N. Bouteldja and M. Scholl, HiPeR : a hierarchical model for exact, approximate and progressive retrieval in multi-­‐dimensional spaces, International Journal on Data Engineering and Management, 1(1) :14–33, 2009. [GBL08] V. Gouet-­‐Brunet and B. Lameyre, Object recognition and segmentation in videos by connecting heterogeneous visual features, Computer Vision and Image Understanding Journal, 111(1) :86–109, February 2008. [HGBRM10] N. Vu Hoang, V. Gouet-­‐Brunet, M. Rukoz and M. Manouvrier, Embedding spatial information into image content description for scene retrieval, Pattern Recognition Journal, 43(9) :3013–3024, 2010. [LTGBBB09] J. Law-­‐To, V. Gouet-­‐Brunet, O. Buisson and N. Boujemaa, ViCopT : a robust system for content based video copy detection in large databases, ACM Multimedia Systems Journal, 15(6) :337–353, December 2009. [S06] H. Samet. Foundations of Multidimensional and Metric Data Structures. The Morgan Kaufmann Series in Computer Graphics, 2006 -­‐ ISBN 978-­‐0123694461. [SZ03] Sivic, J. and Zisserman, A. (2003). Video Google : A text retrieval approach to object matching in videos. In IEEE International Conference on Computer Vision, pages 1470–1477. [SGS10] van de Sande, K.E.A. Gevers, T. Snoek, C.G.M., Evaluating Color Descriptors for Object and Scene Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, Issue 9, pages 1582 – 1596, Sept. 2010. [SFD11] Behjat Siddiquie, Rogerio S. Feris and Larry S. Davis, Image Ranking and Retrieval based on Multi-­‐Attribute Queries, IEEE Conference on Computer Vision and Pattern Recognition (CVPR’11), pages 801-­‐808, 2011. [TFG08] da S. Torres, R., Falcão, A. X., Goncalves, M. A., Papa, J. P., Zhang, B., Fan, W. and Fox, E. A. A genetic programming framework for content-­‐based image retrieval. Pattern Recognition, 42(2) :283–292, 2008. [TM08] T. Tuytelaars and K. Mikolajczyk, Local invariant feature detectors: a Survey, Foundations and Trends in Computer Graphics and Vision, 3(3):177–280, 2008. [WYTZ10] Wu Fei, Han Yahong, Tian Qi and Zhuang Yueting, Multi-­‐label boosting for image annotation by structural grouping sparsity, Proceedings of the international conference on Multimedia (MM’10), pages 15-­‐24, Firenze, 2010. [ZJC11] Yimeng Zhang, Zhaoyin Jia and Tsuhan Chen. Image Retrieval with Geometry Preserving Visual Phrases, IEEE Conference on Computer Vision and Pattern Recognition (CVPR’11), pages 809-­‐816 , 2011. 4