Reconnaissance d`objets dans les vidéos

Transcription

Reconnaissance d`objets dans les vidéos
Proposition de mémoire d’ingénieur CNAM 2007
Reconnaissance d’objets dans les vidéos
à partir de descripteurs locaux et semi-locaux
Mots clés Reconnaissance d’objets, Analyse de séquences vidéo, Descripteurs locaux, Contours actifs.
Sujet du stage
La problématique du stage est la reconnaissance d’objets dans les vidéos. L’apparence visuelle des objets
est décrite de manière locale par un ensemble de points d’intérêt extraits automatiquement et représentant
des sites de l’image caractérisés par des hautes fréquences, comme l’illustre l’image de gauche ci-dessous (les
points extraits sont en bleu).
Cette approche de description est très pertinente pour la reconnaissance d’objets [6, 14, 7, 11, 15, 1, 8, 13].
Elle est en effet robuste aux principales transformations que les vues de l’objet peuvent subir d’une image
à l’autre (comme la translation, la rotation, le changement d’échelle, etc) ; elle est également robuste aux
occultations et aux changements d’arrière-plan, tels que ceux de l’image de droite.
Pour améliorer encore la reconnaissance, les techniques actuelles proposent d’enrichir cette description
locale, notamment en associant au point une information plus globale, généralement appelée contexte [12],
ou encore en décrivant des relations spatiales entre primitives locales [2], ou encore en associant aux points
d’intérêt une description globale de l’objet [10].
L’objectif du stage est d’étudier et de développer une technique de reconnaissance d’objet exploitant les
points d’intérêt, pour leur robustesse, tout en leur associant une description semi-locale de l’objet, pour sa
richesse. Cette description sera basée sur la méthode d’extraction de contours nommée Serpent [3, 4]. C’est
une méthode globale de contours actifs. Nous la développerons ici dans sa version la plus complète dite du
Serpent à sonnettes [5]. Cela consiste à faire évoluer le contour actif autant par son corps que par ses deux
extrémités à l’aide d’une information obtenue à l’aide d’un opérateur de lissage.
Ce travail sera réalisé dans la continuité des travaux déjà menés par l’équipe encadrante [3, 4, 5, 9, 10],
notamment pour la vidéo-surveillance, à partir de la plateforme de reconnaissance d’objets déjà existante.
Profil recherché
Le candidat doit avoir un intérêt manifeste pour la recherche par le contenu visuel dans les collections
d’images et de vidéos, ainsi que des connaissances en traitement et en analyse d’images. Des connaissances sur
la méthode des éléments finis seront également très utiles. Il devra aussi être familier avec la programmation.
Organisation
Le stage peut débuter à partir d’avril 2007 et durera 1 an. Il aura lieu au CNAM Paris.
1
Encadrement
– Valérie Gouet-Brunet, bureau 37.1.40, Valerie.Gouet(a)cnam.fr, http ://cedric.cnam.fr/∼gouet/
CNAM / CEDRIC / Groupe Vertigo - 2 rue Conté - 75003 Paris
– Philippe Destuynder, bureau 17.0.15, destuynd(a)cnam.fr,
http ://www.cnam.fr/maths/LeDepartement.php3id article=72
– Olivier Wilk, bureau 17.0.17, wilk(a)cnam.fr, http ://www.cnam.fr/maths/Membres/wilk/
CNAM / Mathématiques / Calcul Scientique - 292 rue Saint Martin - 75141 Paris
Références
[1] S. Agarwal, A. Awan, and D. Roth. Learning to detect objects in images via a sparse, part-based
representation. ieee Transaction on Pattern Analysis and Machine Intelligence, 26(11) :1475–1490,
November 2004.
[2] J. Amores, N. Sebe, and P. Radeva. Fast spatial pattern discovery integrating boosting with constellations of contextual descriptors. In IEEE International Conference on Computer Vision and Pattern
Recognition, 2005.
[3] Ph. Destuynder. Analyse et traitement des images numériques. Hermès, 2006.
[4] Ph. Destuynder and O. wilk. Optimisation de formes appliquée à la méthode du Serpent. In Colloque
Optimisation de formes et images, Paris-Dauphine, June 2006.
[5] Ph. Destuynder and O. wilk. Shape optmization applied to the ”Serpent” method in image processing.
In RIMA’06, Tunis, May 2006.
[6] G. Dorkó and C. Schmid. Selection of scale-invariant parts for object class recognition. In IEEE
International Conference on Computer Vision, 2003.
[7] R. Fergus, P. Perona, and A. Zisserman. Object class recognition by unsupervised scale-invariant
learning. In IEEE International Conference on Computer Vision and Pattern Recognition, 2003.
[8] V. Ferrari, T. Tuytelaars, and L. Van Gool. Simultaneous object recognition and segmentation from
single or multiple model views. International Journal of Computer Vision, 67(2) :159–188, April 2006.
[9] Bruno Lameyre. Une librairie de détection et de poursuite d’objets dans des séquences vidéo. Mémoire
d’ingénieur CNAM, médaille du meilleur mémoire d’ingénieur CNAM, 2005.
[10] Bruno Lameyre and Valérie Gouet. Connecting local and global descriptors for generic object recognition
in videos. In 6th IEEE International Workshop on Visual Surveillance (VS’06, in conjunction with
ECCV’06), pages 57–64, Graz, Austria, May 2006.
[11] David G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of
Computer Vision, 60(2) :91–110, 2004.
[12] E.N. Mortensen, H. Deng, and L. Shapiro. A SIFT descriptor with global context. In IEEE International
Conference on Computer Vision and Pattern Recognition, pages 184–190, 2005.
[13] A. Opelt, A. Pinz, M. Fussenegger, and P. Auer. Generic object recognition with boosting. ieee
Transaction on Pattern Analysis and Machine Intelligence, 28(3) :416–431, March 2006.
[14] J. Sivic and A. Zisserman. Video Google : A text retrieval approach to object matching in videos. In
IEEE International Conference on Computer Vision, October 2003.
[15] J. Willamowski, D. Arregui, G. Csurka, C. Dance, and L. Fan. Categorizing nine visual classes using
local appearance descriptors. In ICPR Workshop Learning for Adaptable Visual Systems, Cambridge,
United Kingdom, August 2004.
2