Compendium des comptes-rendus de conférences de l
Transcription
Compendium des comptes-rendus de conférences de l
550, rue Sherbrooke Ouest, bureau 100 Montréal (Québec) H3A 1B9 Téléphone : (514) 840-1234 Télécopieur : (514) 840-1244 http://www.crim.ca CRIM - Documentation/Communications Compendium des comptes-rendus de conférences de l’équipe Vision et Imagerie pour l’année fiscale 2001-2002 CRIM-02/03-02 Mario Beaulieu Langis Gagnon Valérie Gouaillier France Laliberté Marc Lalonde Équipe VISI Date 6 mars 2002 Collection scientifique et technique ISBN 2-89522-020-4 2 Pour tout renseignement, communiquer avec: CRIM Centre de documentation 550, rue Sherbrooke Ouest, bureau 100 Montréal (Québec) H3A 1B9 Téléphone : (514) 840-1234 Télécopieur : (514) 840-1244 Tous droits réservés © 2002 CRIM Bibliothèque nationale du Québec Bibliothèque nationale du Canada ISBN 2-89522-020-4 3 TABLE DES MATIÈRES PRÉSENTATION 5 COMPTES-RENDUS 5 Vision Interface 2001 (VI2001) On Multi-scale differential features for face recognition Omnidirectional Vision and Catadioptric Geometry Boundary Signature Matching for Object Recognition Wide-Angle Image Acquisition, Analysis and Visualisation Dynamic Node Distribution in Adaptive Snakes for Road Extraction Modeling of 2D Parts Applied to Database Query Controlled Shape Deformations via Medial Profiles 5 5 5 6 6 6 7 7 International Conference on Computer Vision (ICCV2001) 7 Gradient Vector Flow Fast Geodesic Active Contours 8 Region Segmentation via Deformable Model-Guided Split and Merge 8 Flux Maximizing Geometric Flows 8 Matching Shapes 9 Sequential Monte Carlo Fusion of Sound and Vision for Speaker Tracking 9 Constrained Active Appearance Models 10 Learning the Semantics of Words and Pictures 10 A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics 10 JetStream: Probabilistic Contour Extraction with Particles 10 A simple and efficient template matching algorithm 11 Workshop Event 2001 "Detection and Recognition of Events in Video" 11 Workshop "Recognition, Analysis and Tracking of Faces and Gestures in Realtime Systems" 11 International Conference on Information Fusion (Fusion 2001) Global challenges : data fusion at a grand scale Information fusion in soccer-playing robots and service robotics A prototype system for 3D color fusion and mining of multisensor/spectral imagery Multifrequency and multiresolution fusion of SAR images for remote sensing applications Gradient descent techniques for multitemporal and multisensor image registration of remotely sensed imagery Fusion of visible, infrared and 3D LADAR imagery Neurophysiologically-motivated sensor fusion for visualization and characterization of medical imagery 12 12 12 13 13 14 14 14 Forum de transfert du Fonds FCAR-Action concertée RADARSAT 15 Intégration de l'imagerie RADARSAT pour le suivi hydrique des terres agricoles 15 Détection et classification des milieux humides à partir des imagesRADARSAT-1 15 Application géomatique de RADARSAT à l'observation des risques d'inondation et d'érosion dans le sud du Québec 15 Système prototype pour le suivi des changements de l'occupation du sol par fusion de l'imagerie RADARSAT et d'autres données d'observation de la Terre 16 Intégration de RADARSAT et du GPS pour les changements dynamiques du relief 16 Détection des cibles en milieu forestier: fusions d'informations multisources 16 4 L'utilisation des bases de données multisources pour l'identification automatisée des points de contrôle sur les images RADARSAT 16 Séance pléniaire 16 Symposium Canadien de Télédétection 17 Radarsat-2 - Mission Update 17 A Lifetime Radiometric Calibration Record for the Landsat Thematic Mapper 17 Forest Classification by Multiple-Forward-Mode 5-Scale Modeling 18 Utilisation of contour criteria in micro-segmentation of SAR images 18 Satellite image fusion with multi-scale wavelet analysis : preserving spatial information and minimizing artefacts (PSIMA) 18 Conclusion 18 Advances in Synthetic Aperture Radar 2001 (ASAR2001) Spaceborne Earth Observation: A Business-oriented Perspective The Radarsat-2 Program Update ENVISAT Algorithms for processing RADARSAT-2 Data Unsupervised classification of polarimetric SAR images Polarimetric techniques for change detection 19 19 19 19 20 20 20 Computer Vision and Pattern Recognition 2001 (CVPR2001) Commentaires en vrac Cours sur la reconnaissance de visage Cours sur les Image Search Engines Quelques articles particulièrement intéressants 20 20 21 22 22 Photonics West 2002 Internet Imaging III Storage and Retrieval for Media Databases 2002 Multimedia Security : Crytography and Watermarking Color Imaging on the Internet 22 22 23 26 26 5 Présentation Ce rapport regroupe tous les comptes-rendus de conférence qui ont été rédigés par les membres de l’équipe Vision et Imagerie durant l’année fiscale 2001-2002. Les conférences en question sont : - Vision Interface 2001 (VI2001) - International Conference on Computer Vision (ICCV2001) - International Conference on Information Fusion (Fusion 2001) - Forum de transfert du Fonds FCAR-Action concertée RADARSAT - Symposium Canadien de Télédétection - Advances in Synthetic Aperture Radar 2001 (ASAR2001) - Computer Vision and Pattern Recognition 2001 (CVPR2001) - Photonics West 2002 Comptes-rendus Vision Interface 2001 (VI2001) Ottawa, 7-9 juin 2001 Rapport de Marc Lalonde, agent de recherche sénior. On Multi-scale differential features for face recognition S. Ravela, Allen R. Hanson, Center for Intelligent Information Retrieval Vision, Laboratory Dept. of Computer Science, University of Massachusetts at Amherst This paper describes an algorithm that uses multi-scale Gaussian differential features (MGDFs) for face recognition. Results on standard sets indicate at least 96% recognition accuracy, and a comparable or better performance with other well known techniques. The MGDF based technique is very general; its original application included similarity retrieval in textures, trademarks, binary shapes and heterogeneous gray-level collections. Même si l'application en est une de reconnaissance de visages, la technique proposée est générique et s'utilise en recherche d'images par contenu. En gros, une signature est obtenue pour chaque image à partir d'histogrammes de certaines caractéristiques locales comme la courbure et l'orientation locale du gradient. Comparer des images revient à comparer leurs histogrammes. Omnidirectional Vision and Catadioptric Geometry Christopher Geyer and Kostas Daniilidis, University of Pennsylvania, GRASP Laboratory In this paper we formulate a novel unifying geometry of catadioptric imaging. We prove that all single viewpoint mirror-lens devices are equivalent to a composite mapping from space to sphere and then from sphere to plane. The second mapping is equivalent to stereographic projection in case of parabolic mirrors. Using this equivalence we observe that images of lines in space are mapped to great circles on the sphere and to conic sections on the catadiop-tric image plane. The composite mappings are paired with a duality principle which relates points to line projections. Un modèle géométrique est présenté pour les systèmes d'acquisition d'image omnidirectionnels (qui permettent de générer une image 360 degrés), avec des idées sur comment calibrer le système optique. Papier plutôt mathématique mais important si on se lance dans l'analyse de ce genre d'image. 6 Boundary Signature Matching for Object Recognition Adnan A. Y. Mustafa, Kuwait University, Department of Mechanical and Industrial Engineering Any object recognition system must address cases when parts of the object are not visible due to occlusion, shadows, ... etc. In this paper we introduce a simple matching method that is based on matching boundary signatures. Boundary signatures are surface feature vectors that reflect the probability of occurrence of a feature of a surface (or an object) boundary. Boundary signatures are an extension to our surface signature formulation which we have presented with good success in our earlier work. We introduce four types of surface boundary signatures; The Curvature Boundary Signature, the Direction Boundary Signature, the Distance Boundary Signature and the Parameter Boundary Signature. These four signatures are constructed based on local and global geometric shape attributes of the boundary. Tests conducted on objects of different shapes have produced excellent results in the absence of occlusion and good results when objects retain at least 70% of their original shapes. Papier relativement intéressant avec une approche originale, mais je suis pas sûr que ça marche (les résultats sont pas spectaculaires). Imaginez qu'on prenne un pt le long de la frontière d'un objet; si on part dans une direction et qu'on suit la frontière, on peut ramasser des statistiques sur p. ex. la variation d'angle ou de distance entre chaque pt 'instantané' et le pt de référence. C'est l'idée de base qui est proposée. À noter l'invariance en rotation, translation et en échelle. Wide-Angle Image Acquisition, Analysis and Visualisation R. Klette et al., CITR Tamaki, The University of Auckland Tamaki Campus Recent camera technology provides new solutions for wide-angle image acquisition. Multi- or single-line cameras have been designed for spaceborne and airborne scanners to provide high resolution imagery. Line cameras may also work as panorama scanners, and models of these have already been studied in computer vision for a few years. These cameras or models require studies in calibration, registration and epipolar geometry to ensure accurate imaging and stereo analysis. The resulting images or depth maps also allow new approaches in 3D scene visualisation. The paper informs about line camera models and camera hardware, calibration of line cameras, registration of captured images, epipolar geometry for along-track and panoramic stereo, stereo matching with a focus on dynamic programming, and visualisation. C'est une présentation keynote: ils utilisent des caméras line-scan (1D) haute résolution (p. ex. 10 000 pixels) pour faire des images panoramiques, faire de la stéréo ou de la photo aérienne avec, etc. Dynamic Node Distribution in Adaptive Snakes for Road Extraction P. Agouris et al., Dept. of Spatial Information Engineering and National Center for Geographic Information and Analysis, University of Maine In this paper we address the issue of road extraction from digital imagery using deformable contour models (snakes). We present a novel variation of the traditional snakes solution, where additional nodes are inserted, and redundant nodes are deleted, to better describe the complexity of the extracted line. Node insertion and deletion are based on an analysis of the energy terms of the snake solution. This allows us to use more, closely spaced nodes along the high curvature areas of a road, compared to the linear segments of the same road outline. This dynamic manipulation of the number and spacing of nodes within a single snake allows us to better capture the geometry of the road, and to better accommodate its radiometric behavior. Thus it produces more accurate results than the traditional snake solution. Here we present our approach and experimental results to demonstrate its performance for road extraction in geospatial applications. Présentation intéressante mais qui a soulevé beaucoup de questions au niveau des résultats (pas très concluants). L'idée principale, c'est que pour faire de l'extraction de routes (imagerie aérienne), un opérateur doit grosso modo initialiser le snake en donnant des points de contrôle, et le snake doit s'ajuster à la géométrie de la route. Probablement que les auteurs voient l'update du 7 snake de manière discrète (aux pts de contrôle) parce qu'ils suggèrent d'ajouter ou d'éliminer des pts selon la courbure locale du snake (petit rayon de courbure -> nb de pts augmente). Modeling of 2D Parts Applied to Database Query G.-A. Bilodeau and Robert Bergevin, Laboratoire de vision et systèmes numériques This paper presents recent developments in a project aimed at the design of an image database query engine, where the images are searched using 3D part-based object models. This is a novelty since most existing image database query engines search images by comparing colors, textures and 2D shape of regions in the images. In our project, 3D part-based models are built from qualitative volumetric primitives. This paper proposes a method to hypothesize such volumetric primitives from projected object parts. It combines concepts from two existing approaches, a modelfitting and a rule-based approach. Using fuzzy logic, this new method can produce multiple hypotheses to attain the robustness necessary for processing 2D parts originating from 2D images of real scenes. A detailed description of the method is presented along with promising preliminary results. Un papier qui ressemble pas mal à ce qu'un de nos anciens étudiants avait tenté de faire avec des géons: retrouver un objet 3D dans une image 2D à partir de primitives géométriques et de règles de combinaisons. Pendant la période de questions, Kasvand (Concordia) lui a souhaité bonne chance :-). Après, je lui ai dit que son sujet c'était du suicide :-). Mais il semblait quand même confiant... Controlled Shape Deformations via Medial Profiles G. Hamarneh and T. McInerney, Department of Signals and Systems, Chalmers University of Technology, School of Computer Science, Ryerson Polytechnic University (Toronto) Robust, automatic segmentation and analysis of medical images requires powerful and flexible models of anatomical structures. We present a multiscale, medial-based approach to shape representation and controlled deformation in an effort to meet these requirements. We use medial-based profiles for shape representation, which follow the geometry of the structure and describe general, intuitive, and independent shape measures (length, orientation, and thickness). Controlled shape deformations (stretch, bend, and bulge) are obtained either as a result of applying deformation operators at certain locations and scales on the medial profiles, or by varying the weights of the main variation modes obtained from a hierarchical (multiscale) and regional (multi-location) principal component analysis of the medial profiles. We demonstrate the ability to produce controlled shape deformations on a medialbased representation of the corpus callosum. Furthermore, we present results of segmenting the corpus callosum in 2D mid-sagittal MRI slices of the brain. Une approche plutôt particulière du problème de templates déformables. Un template n'a pas qu'une bordure, il a aussi un axe central, et on peut aussi appliquer au template des opérateurs de déformation locale (p. ex. faire varier l'épaisseur de la forme par rapport à l'axe central). La recherche dans l'image est très simple: c'est l'opérateur qui s'en charge! En plus clair: l'opérateur doit trouver la combinaison d'opérateurs locaux et de fonctions globales à appliquer de façon à positionner la forme dans l'image, et cette combinaison est stockée sous la forme d'un script qui peut être réexécuté pour une autre image. Y a une partie automatique qui permet à la forme de rechercher les contours dans l'image, mais c'est vraiment le script manuel qui "drive" son évolution. International Conference on Computer Vision (ICCV2001) Vancouver, 9-12 juillet 2001 Rapport de Marc Lalonde, agent de recherche sénior. 8 - - - - Conférence très relevée, où même les posters sont de qualité et en bonne partie théoriques. Le taux d'acceptation des articles est d'environ 33% mais seulement 8% sont acceptés pour présentation orale. Très peu de gens du Québec, même comme participants. À part les gens de McGill, je n'ai reconnu que Robert Bergevin (U. Laval). Beaucoup de monde du MIT, de la Californie, de l'Asie (Japon/Chine). Présence importante des laboratoires de recherche de grosses compagnies (Microsoft, Compaq, HP, Siemens, etc.). Microsoft Research doit avoir au moins une quinzaine de publications. Les séances de démos étaient intéressantes. J'ai pu voir une démo du groupe de l'U. de Calgary (Parker) qui fait de la reconnaissance de symboles avec Hausdorff (!). Celle de Microsoft Research sur le tourisme virtuel (où on peut naviguer dans des scènes reconstruites) avait l'air pas mal avancée. Buzz words ou techniques en progression: Support Vector Machines (SVM), particle filters, CONDENSATION (qui serait une sorte de particle filter), etc. D'autres techniques établies (RANSAC, Bundle Adjustment [que Mario connaît peut-être], etc.), ont aussi été évoquées. Gradient Vector Flow Fast Geodesic Active Contours Nikos Paragios, Olivier Mellina-Gottardo, Visvanathan Ramesh This paper proposes a new front propagation flow for boundary extraction. The proposed framework is inspired by the geodesic active contour model and leads to a paradigm that is relatively free from the initial curve position. Towards this end, it makes use of a recently in-troduced external boundary force, the gradient vector field that refers to a spatial diffusion of the boundary informa-tion. According to the proposed flow, the traditional bound-ary attraction term is replaced with a new force that guides the propagation to the object boundaries from both sides. This new geometric flow is implemented using a level set approach, thereby allowing dealing naturally with topological changes and important shape deformations. Moreover, the level set motion equations are implemented using a recently introduced numerical approximation scheme, the Additive Operator Splitting Schema (AOS) which has a fast convergence rate and stable behavior. Encouraging experimental results are provided using real images. Une combinaison de GVF et des contours actifs géométriques. J'ai sur papier les réfs. [9] et [28] Region Segmentation via Deformable Model-Guided Split and Merge Lifeng Liu, Stan Sclaroff An improved method for deformable shape-based image segmentation is described. Image regions are merged together and/or split apart, based on their agreement with an a priori distribution on the global deformation parameters for a shape template. Perceptually-motivated criteria are used to determine where/how to split regions, based on the local shape properties of the region group’s bounding contour. A globally consistent interpretation is determined in part by the minimum description length principle. Ex-periments show that model-guided split and merge yields a significant improvement in segmention over a method that uses merging alone. Une autre variante de 'templates' déformables: plutôt que de faire de l'optimisation en cherchant un minimum/maximum dans un espace de paramètres, ils adoptent une approche plus traditionnelle en extrayant des features de l'image (contours, régions) et en faisant du grouping. Intéressant. Flux Maximizing Geometric Flows Alexander Vasilevskiy, Kaleem Siddiqi 9 Several geometric active contour models have been proposed for segmentation in computer vision. The essential idea is to evolve a curve (in 2D) or a surface (in 3D) un-der constraints from image forces so that it clings to features of interest in an intensity image. Recent variations on this theme take into account properties of enclosed regions and allow for multiple curves or surfaces to be simultaneously represented. However, it is not clear how to apply these techniques to images of low contrast elongated structures, such as those of blood vessels. To address this problem we derive the gradient flow which maximizes the rate of increase of flux of an auxiliary vector field through a curve or surface. The calculation leads to a simple and elegant interpretation which is essentially parameter free. We illustrate its advantages with level-set based segmentations of 2D and 3D MRA images of blood vessels. J'ai pas lu le papier et je l'ai même pas vu en poster. Souligné ici pour le suivi de ce que les gens de McGill font. Robust Principal Component Analysis for Computer Vision Fernando De la Torre, Michael J. Black Principal Component Analysis (PCA) has been widely used for the representation of shape, appearance, and motion. One drawback of typical PCA methods is that they are least squares estimation techniques and hence fail to account for « outliers » which are common in realistic training sets. In computer vision applications, outliers typically occur within a sample (image) due to pixels that are corrupted by noise, alignment errors, or occlusion. We review previous approaches for making PCA robust to outliers and present a new method that uses an intra-sample outlier process to account for pixel outliers. We develop the theory of Robust Prin-cipal Component Analysis (RPCA) and describe a robust M-estimation algorithm for learning linear multi-variate representations of high dimensional data such as images. Quantitative comparisons with traditional PCA and previous robust algorithms illustrate the benefits of RPCA when outliers are present. Details of the algorithm are described and a software implementation is being made publically available. Y a beaucoup d'articles qui proposent des alternatives à PCA. Celle-ci rend la méthode plus robuste aux « outliers » par l'utilisation de statistiques robustes. Matching Shapes Serge Belongie, Jitendra Malik, Jan Puzicha We present a novel approach to measuring similarity between shapes and exploit it for object recognition. In our framework, the measurement of similarity is preceded by (1) solving for correspondences between points on the two shapes, (2) using the correspondences to estimate an aligning transform. In order to solve the correspondence problem, we attach a descriptor, the shape context, to each point. The shape context at a reference point captures the distribution of the remaining points relative to it, thus offering a globally discriminative characterization. Corresponding points on two similar shapes will have similar shape contexts, enabling us to solve for correspondences as an optimal assignment problem. Given the point correspondences, we estimate the transformation that best aligns the two shapes; regularized thin-plate splines provide a flexible class of transformation maps for this purpose. Dissimilarity between two shapes is computed as a sum of matching errors between corresponding points, together with a term measuring the magnitude of the aligning transform. We treat recognition in a nearest-neighbor classification framework. Results are presented for silhouettes, trademarks, handwritten digits and the COIL dataset. Papier pas mal intéressant et résultats assez impressionnants. C'est tout con comme approche et pourtant ça semble fonctionner assez bien. Ça vaudrait la peine de coder l'algo pour complémenter Hausdorff. Sequential Monte Carlo Fusion of Sound and Vision for Speaker Tracking J. Vermaak, M. Gangnet, A. Blake, P. Perez Video telephony could be considerably enhanced by provision of a tracking system that allows freedom of movement to the speaker, while maintaining a well-framed image, for transmission over limited bandwidth. Already 10 commercial multi-microphone systems exist which track speaker direction in order to reject background noise. Stereo sound and vision are complementary modalities in that sound is good for initialisation (where vision is expensive) whereas vision is good for localisation (where sound is less precise). Using generative probabilistic models and particle filtering, we show that stereo sound and vision can indeed be fused effectively, to make a system more capable than with either modality on its own. L'article est intéressant pour deux raisons: le sujet comme tel (on propose de faire du tracking de locuteur en combinant les signaux audio et vidéo) et la méthode employée (filtres à particules, qui serviraient, je pense, à faire de l'estimation de densité de probabilité). Constrained Active Appearance Models T. F. Cootes, C. J. Taylor Active Appearance Models (AAMs) have been shown to be useful for interpreting images of deformable objects. Here we place the AAM matching algorithm in a statistical framework, allowing extra constraints to be applied. This enables the models to be combined with other methods of object location. We demonstrate how user interaction can be used to guide the search and give results of experiments showing the effect of constraints on the performance of model matching. Article un petit peu décevant parce que je m'attendais à plus. C'est le modèle de base reformulé dans un contexte probabiliste. Le bénéfice le plus concret est la possibilité pour l'usager de contraindre le modèle interactivement pour un meilleur match (je pense que les contraintes s'expriment mieux dans le cadre probabiliste) Learning the Semantics of Words and Pictures Kobus Barnard, David Forsyth We present a statistical model for organizing image collections which integrates semantic information provided by associated text and visual information provided by image features.The model is very promising for information retrieval tasks such as database browsing and searching for images based on text and/or image features. Furthermore,since the model learns relationships between text and image features,it can be used for novel applications such as associating words with pictures,and unsupervised learning for object recognition. L'article attaque le problème de l'apprentissage du lien qui existe entre le contenu d'une image (des blobs) et des mots-clés associés à l'image. Le modèle proposé facilite la recherche d'images similaires ('browsing') dans des bases d'images. Peut-être intéressant pour le projet de paysages. A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics David Martin, Charless Fowlkes, Doron Tal, Jitendra Malik This paper presents a database containing « ground truth» segmentations produced by humans for images of a wide variety of natural scenes. We define an error measure which quantifies the consistency between segmentations of differing granularities and find that different human segmentations of the same image are highly consistent. Use of this dataset is demonstrated in two applications: (1) evaluating the performance of segmentation algorithms and (2) measuring probability distributions associated with Gestalt grouping factors as well as statistics of image region properties. L'intérêt de l'article (pour nous) est qu'il fait mention de travaux passés sur les images naturelles (peut-être pertinent pour le projet de paysages) JetStream: Probabilistic Contour Extraction with Particles Patrick Perez, Andrew Blake, Michel Gangnet 11 The problem of extracting continuous structures from noisy or cluttered images is a difficult one. Successful extraction depends critically on the ability to balance prior constraints on continuity and smoothness against evidence garnered from image analysis. Exact, deterministic optimisation algorithms, based on discretized functionals, suffer from severe limitations on the form of prior constraint that can be imposed tractably. This paper proposes a sequential Monte-Carlo technique, termed JetStream, that enables constraints on curvature, corners, and contour parallelism to be mobilized, all of which are infeasible under exact optimization. The power of JetStream is demonstrated in two contexts: (1) interactive cutout in photo-editing applications, and (2) the recovery of roads in aerial photographs. Un poster très intéressant, autant par les applications montrées (détection de routes dans des images aériennes, détection de vaisseaux sanguins) que par la technique utilisée (les 'particules' et les 'particle filters' sont une technique de plus en plus populaire). A simple and efficient template matching algorithm Frederic Jurie, Michel Dhome We propose a general framework for object tracking in video images. It consists in low-order parametric models for the image motion of a target region. These models are used to predict the movement and to track the target. The difference of intensity between the pixels belonging to the current region and the pixels of the selected target (learnt during an off-line stage) allows a straightforward predic-tion of the region position in the current image. The proposed algorithm allows to track in real time (less than 10ms) any planar textured target under homographic motions. This algorithm is very simple (a few lines of code) and very efficient (less than 10 ms on a 150Mhz hardware). Un autre poster intéressant parce qu'il présentait également une démo où on pouvait voir du tracking en temps réel. Un objet placé sous la caméra pouvait être tourné, déplacé, incliné avec une vitesse assez grande et le tracking se poursuivait quand même. Assez impressionnant. Pas robuste aux occlusions cependant. Workshop Event 2001 "Detection and Recognition of Events in Video" Ce workshop est beaucoup plus abordable techniquement que la conférence principale. Il permet aux auteurs de présenter des résultats de recherche partiels, des idées, etc. et d'échanger avec les participants. Trois thèmes ont été abordés: - Détection et tracking d'événements Reconnaissance de gestes et d'actions humaines Événements multi-modaux Rien de vraiment intéressant pour nous à première vue. À revoir plus tard si on fait des choses en vidéo ou avec l'équipe parole. Workshop "Recognition, Analysis and Tracking of Faces and Gestures in Realtime Systems" Ce workshop, lui aussi techniquement abordable de par sa nature plus applicative, semble avoir la cote puisque les présentations étaient de qualité, il y avait des posters, et deux gros noms (R. Chellappa, M.Turk) ont donné des présentations 'keynote' intéressantes. - Surtout de la reconnaissance du visage (~invariant en pose), du tracking de tête. Le tracking de tête est avancé -> démos Des choses peut-êtres intéressantes pour un éventuel projet avec Audisoft (à signaler, un papier de Neti (IBM) sur la détection de 'prise de parole': une caméra observe un 12 locuteur placé devant un micro pour faciliter la détection de temps morts dans le signal audio) - Deux adresses de sites web qui ont été données pendant le workshop: - www.choisser.com/faceblind : un document sur la prosopagnosie ("Forme isolée d'agnosie visuelle caractérisée par l'impossibilité de reconnaître des personnes connues par le seul biais de la perception visuelle de leurs visages. Les différences d'un visage à l'autre sont reconnues, mais l'identification du visage est impossible.") - www.vir2elle.org : pour envoyer un email visuel (un personnage synthétique fabriqué à partir d'une image articule le texte). International Conference on Information Fusion (Fusion 2001) Montréal, 7-10 août 2001 Rapport de France Laliberté, étudiante PhD Global challenges : data fusion at a grand scale Bjarni V. Tryggvason, Canadian Space Agency, Canada Those who have had the privilege to view the Earth from space have typically spoken of the breathtaking beauty of our planet. The deep blue of the oceans, the pure white of the clouds standing in three dimensions over the surface and the spectacular sunsets and sunrises. Natural processes such as erosion and volcanic activity are clearly seen. The impact of mankind is also clearly visible. Borders between countries stand out from differences in land use. Siltation resulting from deforestation colours shorelines. The conflict between satisfying energy needs and the pressures from high population densities literally blanket much of the world in a brown haze. A more thorough understanding of the Earth’s systems : the oceans, the atmosphere, the biosphere, its changing landmasses, and the impact that mankind has on these; will enhance our ability to better resolve the conflicting demands. Space technologies provided by Earth observation satellites and manned platforms offer a unique viewing point with many advantages when integrated with traditional monitoring methods. Earth observation satellites provide a unique platform for synoptic coverage of the Earth over large areas and extended time periods. The technical challenge is to develop the tools to assimilate the huge quantity of data that the satellites generate and to merge several types of observation to create a better systems understanding. The political challenge is to do this in time to resolve the great conflicts before they become disasters at scales not yet imagined. Conférence invitée d'une heure d'intérêt general. Présentation de différents satellites et de leur utilité : météorologie, agriculture, ... Information fusion in soccer-playing robots and service robotics Gunther Palm, University of Ulm, Germany, ulm.de/SPARROWS/index.html http://smart.informatik.uni- The challenging problems of robot soccer are briefly described. They ask for improved methods and approaches from artificial neural networks and information fusion. Two concrete examples of information fusion in neural network architectures are presented : one for the problem of self-localization, one for the problem of audio-visual word recognition. Conférence invitée d'une heure. Présentation du projet RoboCup, lancé pour raviver la recherche en intelligence artificielle, qui a pour but de développer, d'ici 2050, une équipe de robots humanoides complètement autonomes pouvant battre les champions mondiaux de soccer. Six pays participent à ce projet : Allemagne, Etats-Unis, France, Italie, Japon et Portugal. 13 A prototype system for 3D color fusion and mining of multisensor/spectral imagery Allen Waxman, Jacques Verly, David Fay, Fang Liu, Michael Braun, Benjamin Pugliese, William Ross, and William Streilein, MIT Lincoln Laboratory, USA We have developed a prototype system in which a user can fuse up to 4 modalities (or 4 spectral bands) of imagery previously registered to one another with respect to a 3D terrain model. The color fused imagery can be draped onto the terrain to support interactive 3D fly-through. The fused imagery, and its opponent-sensor contrasts, can be further processed to yield extended boundary contours and texture measures. Together, these layers of registered imagery and image features can be interactively mined for objects of interest. Data mining for infrastructure and compact targets is achieved using a point-and-click user interface in conjunction with a Fuzzy ARTMAP neural network for on-line pattern learning and recognition. Graphical user interfaces enable the user to control each stage of processing: image enhancement, image fusion, contour and texture extraction, 3D terrain characterization, 3D graphics model building, preparation for exploitation, and interactive data mining. The system is configured as a client-server architecture, enabling remote collaborative exploitation of multisensor imagery. Throughout, the processing of imagery and patterns relies on neural network models of spatial and color opponency, and the adaptive resonance theory of pattern processing. This system has been used to process imagery of a variety of geographic sites, in order to extract roads, rivers, forests and orchards, and performance has been assessed against manually determined ground truth. The data mining approach has been extended for the case of hyperspectral imagery of hundreds of bands. This prototype system has now been installed at multiple US government sites for evaluation by image analysts. We plan to extend this approach to include various non-imaging sensor modalities that can be localized to geographic coordinates (e.g., GMTI and SIGINT). We also plan to embed these image fusion and mining capabilities in commercial open software environments for image processing and GIS. L'idée de leur méthode de fusion vient d'exemples biologiques : fusion visible/IR chez les serpents et traitement de la couleur dans le système visuel humain. Intéressant. Présentation d'une interface graphique, construite en partie à partir d'outils commerciaux (ERDAS Imagine, RSI ENVI), qui passe du rehaussement d'images au "data mining". Multifrequency and multiresolution fusion of SAR images for remote sensing applications G. Simone, F. C. Morabito, A. Farina, University Mediterranea of Reggio Calabria, Italy Alenia Marconi Systems, Italy, http://www.ing.unirc.it/index2.htm In this paper we propose an integrated system to fuse images acquired by Synthetic Aperture Radars (SAR) at various frequencies and resolutions. After a preprocessing step, that corrects the topography effects on the input images, the fusion operation is carried out at two different levels: multifrequency and multiresolution. Each SAR sensor acquires data about the inspected region by using more than one frequency; therefore, a processor that exploits the information carried by multiple frequencies is needed: a technique based on the discrete wavelet transform has been implemented and tested. The data are collected by sensors that scan the surface from multiple heights, from different platforms, flying at different heights. After a co-registration step, by which all the images, produced by the multifrequency fusing step, are referred to the same regular grid, the Multiscale Kalman Filter method is used to fuse these multiresolution data. The performances are estimated by testing the proposed technique on SAR data acquired on the San Francisco area (California, USA). The results are evaluated by estimating the information flow from the input data to the output image, in terms of automatic recognition and detection of features present in the acquired images. Aucun des auteurs n'était à la conference, ils ont envoyé quelqu'un qui ne connaissait pas du tout le sujet (il a même refusé de répondre aux questions) pour présenter l'article ... Les images acquises par le même senseur à différentes fréquences ou polarisations sont fusionnées avec la méthode de Burt (Burt, P. J., Kolczynski, R. J., "Enhanced image capture through fusion", Proc. of Computer Vision, pp. 173-182, 1993). Les images résultantes sont recalées en choisissant manuellement 3 points. Ensuite la méthode "Multiscale Kalman Filter" est utilisee pour fusionner ces images multirésolutions. 14 Gradient descent techniques for multitemporal and multisensor image registration of remotely sensed imagery Roger D. Eastman, Jacqueline Le Moigne, Loyola College in Maryland, USA, NASA/Goddard Space Flight Center, USA, http://penduick.gsfc.nasa.gov/~lemoigne/ Gradient-descent algorithms have been successfully applied to many applications of computer vision, such as stereo matching, object recognition and medical image registration. Our work focuses on applying these techniques to remote sensing image data with a particular emphasis on data acquired under different conditions, such as multitemporal or multi-sensor data. While most previous work has focused on the geometric component of image registration, our research also deals with the radiometric component associated with different viewing conditions; e.g., different seasons or different atmospheric conditions for multi-temporal data, or different wavelengths for multi-sensor data. In this paper, we will show how preprocessing can detect these variations, and we will highlight the algorithms implications when taking into account this radiometric component. Test data include images from the AVHRR, GOES, SeaWIFS, Landsat-7 ETM and IKONOS sensors. Le but général de ce projet de recherche est d'implémenter et d'évaluer différents algorithmes de recalage pour en faire un "toolbox" utilisable par les chercheurs en télédetection de la NASA. Eastman et son equipe teste l'algorithme de "gradient descent" alors que d'autres equipes (Johnson, Stone) testent des algorithmes d'information mutuelle et d'ondelettes. Le principal avantage de la méthode de "gradient descent" est le potentiel d'aller chercher une précision subpixel de 1/32 pixel pour des données idéales. Cependant, elle ne s'applique que dans le cas ou les transformations géometrique et radiométrique sont petites. Fusion of visible, infrared and 3D LADAR imagery David A. Fay, Allen M. Waxman, Jacques G. Verly, Michael I. Braun, Joseph P. Racamato, and Carl Frost, MIT Lincoln Laboratory, USA We have extended our previous capabilities for fusion of multiple passive imaging sensors to now include 3D imagery obtained from a prototype flash ladar. Real-time fusion of SWIR + uncooled LWIR and low-light visible + LWIR + 3D LADAR is demonstrated. Fused visualization is achieved by opponent-color neural networks for passive image fusion, which is then textured upon segmented object surfaces derived from the 3D data. An interactive viewer, coded in Java3D, is used to examine the 3D fused scene in stereo. Interactive designation, learning, recognition and search for targets, based on fused passive + 3D signatures, is achieved using Fuzzy ARTMAP neural networks with a Java-coded GUI. A client-server, web-based communication architecture, enables remote users to interact with fused 3D imagery via a wireless palmtop computer. Même groupe de recherche que celui de l'article #3. Dans deux articles précédents ils ont montré qu'un opérateur trouve les cibles plus facilement si l'image fusionnée est présentée en couleur plutôt qu'en niveaux de gris. Dans cet article ils présentent une méthode de fusion inspirée du rehaussement de contraste effectué par les cellules bipolaires de la rétine à partir des données fournies par les cones L, M et S. Neurophysiologically-motivated sensor fusion for visualization and characterization of medical imagery Mario Aguilar, Aaron L. Garrett, Jacksonville State University, USA, http://ksl.jsu.edu/projects/medical/fusion.html We describe an architecture for the fusion of multiple medical image modalities based on the organization of the color vision system in humans and primates. Specifically, the preprocessing of individual images and the fusion across modalities are based on the neural connectivity of retina and visual cortex. The resulting system enhances the original imagery, improves information contrast, and combines the complementary information of the various modalities. The system has the ability to both enhance and preserve important information. In addition, the fused imagery preserves the high spatial resolution of modalities such as MRI even when combining them with poor resolution images such as SPECT scans. Results of fusing various modalities are presented, including: a) fusion of 15 functional MRI images, b) fusion of SPECT and MRI, c) fusion of visible and infra-red endoscopic images. We conclude by discussing our recent results on utilizing multi-modality fused signatures for segmentation and pattern recognition. Application médicale de la même méthode de fusion que les articles #3 et #6; la méthode est mieux décrite dans cet article. Forum de transfert du Fonds FCAR-Action concertée RADARSAT Québec, 21août 2001 Rapport de Langis Gagnon, chercheur sénior Ai assisté, avec Mario et Steve, au Forum de transfert du Fonds FCAR - Action concertée RADARSAT, qui s'est tenu à l'Université Laval le 21 août 2001, en marge du congrès annuel de l'Association Québécoise de Télédétection. L'action concertée RADARSAT a été mise en oeuvre en 1998 dans le cadre de l'Entente Canada-Québec sur le développement et l'utilisation des données RADARSAT. Le programme, qui est maintenant terminé, a permis de soutenir les projets de 7 équipes de recherche regroupant environ 34 chercheurs et 6 collaborateurs des milieux de pratiques. Le budget moyen alloué aux équipes était d'environ 90 K$ sur 2 ans. La journée avait pour but de faire connaître les résultats des recherches réalisées dans le cadre de cette Action concertée. Titres et commentaires des communications présentées: Intégration de l'imagerie RADARSAT pour le suivi hydrique des terres agricoles Alain Viau, U. Laval Très orienté agroalimentaire. Peu de contenu d'intérêt pour l'équipe. Détection et classification des milieux humides à partir des imagesRADARSAT-1 Monique Bernier, INRS-Eau Une partie de ce travail a consisté à mettre au point un classificateur à réseau de neurones basé sur des attributs de 18 textures. Ce classificateur semble performer de façon équivalente à un classificateur par maximum de vraisemblance, avec l'avantage cependant d'utiliser que 2 images RADARSAT (mode S1 et S7) au lieu de 3. Les détails du classificateur devaient être présenté au congrès de l'AQT. Application géomatique de RADARSAT à l'observation des risques d'inondation et d'érosion dans le sud du Québec Ferdinand Bonn, U. de Sherbrooke Très orienté géophysique. Peu de traitement d'images.Beaucoup de mesure sur le terrain dont une mesure de rugosité assez ingénieuse: un série de tiges métalliques parallèles d'égales longueurs déposées perpendiculairement à la surface du terrain. La position de l'extrémité des tiges donne un signal 1D dont le spectre fournit l'information de rugosité. On a aussi appris que 16 le CRIM était aussi un acronyme pour un indice de taux de recouvrement du sol par la végétation! Système prototype pour le suivi des changements de l'occupation du sol par fusion de l'imagerie RADARSAT et d'autres données d'observation de la Terre François Cavayas, U. de Montréal Projet très intéressant et très pratico-pratique. Orienté utilisateur. Application à la mise-à-jour des rôle d'évaluation municipaux. François a aussi donné un très bon résumé des forces et faiblesses du contenu radiométrique des images RADARSAT. Intégration de RADARSAT et du GPS pour les changements dynamiques du relief Geoffrey Edwards, U. Laval Excellent présentation donnée par Frédéric Vincent (étudiant au PhD). Le projet implique surtout de l'interférométrie radar pour la surveillance de certains mouvements du sol, p. ex. glissement de terrain et mouvement de glaces. C'est dans ce dernier cas que les résultats ont été les plus prometteurs. Un condition importante pour appliquer les principes d'interferométrie avec des données radar est que les propriétés physique (p. ex. humidité) du terrain soient les même entre les 2 acquisition d'images. Ce qui est particulièrement difficile pour un satellite radar car l'apparence de l'image dépend de l'humidité du sol. Détection des cibles en milieu forestier: fusions d'informations multisources Gose Bertin Bénié Superbe travail d'analyse de scènes, impliquant l'extraction de caractéristiques de bas niveau (contour, textures, etc.), les systèmes multiagents et la fusion d'information par la théorie de Dempster-Shafer. Le principal élément de l'équipe de Goze Bertin est Samuel Foucher qui travaille maintenant pour le partenaire industriel du projet: Technologies SEPIA (St-Jean-sur-leRichelieu). J'aurai l'occasion de rencontrer Samuel dans qq semaines à Sherbrooke lors de la soutenance de sa thèse de PhD. L'utilisation des bases de données multisources pour l'identification automatisée des points de contrôle sur les images RADARSAT Keith P. B. Thomson, U. Laval La présentation a été faite par Isabelle Couloigner, maintenant prof. Au département de Geomatics Engineering de Calgary. La sélection de points de contrôle est nécessaire pour les applications de recalage d'images et d'orthorectification. Le travail tente de démontrer que l'information (ou plutôt l'absence d'information) radiométrique des cours et plans d'eau dans les images radar pouvait être exploitée pour la sélection automatique de points de contrôle. Les résultats sont encourageant mais l'utilisation des plans d'eau ne garanti pas une bonne uniformité dans la distribution des points de contrôle. L'utilisation de ce concept en région urbaine est aussi douteux. Comme le reconnaissait Isabelle, il y a beaucoup de travail à faire encore. Séance pléniaire Les discussions ont tourné autour des points suivants: 17 - Pertinence de relancer un programme semblable pour RADARSAT-2. Semble assez certain d'après le représentant de l'Agence spatiale canadienne. Durée des projets. En général, les chercheurs auraient préférés des projets à plus long terme. Beaucoup de retard causé par l'attente de l'obtention des images. Niveau de financement des projets. Sur ce point, la discussion a rapidement dévié sur la rétention des étudiants au niveau gradué. Le financement doit assurer un salaire adéquat au étudiant si non ceux vont en industrie. Symposium Canadien de Télédétection Québec, 21-24 août 2001 Rapport de Mario Beaulieu, agent de recherche Le symposium canadien sur la télédétection est organisé à chaque année par l'Institut Aéronautique et Spatial Canadien (IASC/CASI, http://www.casi.ca/). Il regroupe les différents intervenants oeuvrant dans le domaine de la télédétection au Canada : universités, industries, centres de recherche et l'agence spatiale canadienne. Cette année le symposium se tenait à Québec et a été organisé en conjonction avec l'AQT (Association Québecoise de Télédétection, http://callisto.si.usherb.ca/~aqt/). Le compte rendu présente certaines des présentations les plus intéresantes de cette conférence. Radarsat-2 - Mission Update Hans Baeggli (MDA), Luc Brûlé (ASC) Cette conférence donnait des informations sur la construction du futur satellite Radarsat-2. Ce satellite est un capteur radar actif qui permettra de continuer le travail commencer avec les données de RSAT1, mais en augmentant les capacités du satellite. RSAT2 pourra acquérir des images en mode ultrafin (3m x 3m) sur un swath de 20 km (mais limité sur des angles d'incidences de 30 à 40 degré pour ce mode). Le mode ultrafin sera utile dans l'identification des objets, la surveillance des bateaux, l'agriculture de précision, etc? RSAT2 pourra transmettre alternativement et simultanément en polarisation (linéaire) verticale et horizontale offrant la possibilité d'acquérir des images en mode multi-polarisation (HH, VV, HV et VH). Ce qui devrait permettre une meilleure classification des surfaces grâce aux signatures polarimétiques et d'améliorer les mesures des propriétés bio-géophysiques de la surface terrestre. Notons aussi la possibilité d'acquérir des images sur les deux côtés du satellite. Le présentateur a annoncé certains délais dans le lancement du satellite à cause de changements majeurs au niveau des fournisseurs d'équipements. Le lancement est prévue pour l'an 2003. Pour plus de détail : (http://radarsat.mda.ca/) A Lifetime Radiometric Calibration Record for the Landsat Thematic Mapper P.M. Teillet, CCRS Cette conférence portait sur la calibration des images Landsat-5 en fonction du nouveau Landsat7. LSAT5 a été lancé en 1984 et la mise en concordance radiométrique avec LSAT7 permettrait d'avoir un ensemble de données satellitales couvrant près de 20 ans. Ce qui offrirait la possibilité 18 de faire des études sur les changements de la surface terrestre sur une longue période de temps et à une résolution intéressante de 30 mètres. La difficulté de la cross-calibration provient de la différence entre les bandes TM de LSAT5 et ETM de LSAT7 qui ne sont pas exactement les mêmes. Une acquisition en mode tandem a été effectuée permettant de mettre au point une équation de recalibration des données de LSAT5 en fonction de LSAT7. Des études sont en cours afin de valider la qualité de la méthodologie. Forest Classification by Multiple-Forward-Mode 5-Scale Modeling D.R. Peddle Cette conférence présentait les résultats d'une méthode de classification semi-automatique permettant de lier au processus de classification, des modèles de structures des espèces forestières et de réflectances. Cette méthode a été comparée avec les résultats obtenus par la méthode ECM utilisée pour la construction d'une mosaïque LSAT d'une région forestières dans l'ouest Canadien (projet BOREAS). La méthode ECM est assez précise mais demande beaucoup de temps et d'interventions externes. La comparaison des deux méthodes (91% ECM et 85% MFM) montre que MFM est moins précise mais donne de bon résultat. Mais elle offre la possibilité de semiautomatisée le travail de classificaton des mosaïques d'images. Utilisation of contour criteria in micro-segmentation of SAR images J.M. Beaulieu, U. Laval Ce chercheur a présenté une méthode automatisée de segmentation des images radar qui utilisait une approche hiérarchique d'agrégation des micro-segments. À la base cette méthode est très sensible au speckle. À fin de réduire cette sensibilité des critères géométriques supervisent la phase d'agrégation des micro-segments. Le périmètres et la surface des micro-segments ainsi que la longueur des frontières communes entre le micro-segments permettent d'identifier quels microsegments doivent être agrégés ensemble. La méthode a été appliquée sur des images ERS de champs agricoles. Les résultats obtenus étaient intéressants car elle semblait permettre de bien segmenter les parcelles agricoles sans filtrage préalable des images satellites. Satellite image fusion with multi-scale wavelet analysis : preserving spatial information and minimizing artefacts (PSIMA) Yong Du, CCRS Cette méthode de fusion s'inspire étrangement de la méthode ARSIS de Ranchin mais appliquée à la fusion des images scansar et noaa. Ce qui était étonnant c'est que le présentateur ne connaissait pas les travaux de Ranchin (1993)! L'intérêt de cette conférence était dans la démonstration de l'application de la méthode avec l'imagerie radar et optique. Conclusion La plupart des conférences du symposiums portaient sur l'utilisation des images comme mesure bio-géophysique des objets sur la surface terrestre, et sur le traitement du signal : par exemples l'agriculture de haute précision, la calibration etc.... Très peu de conférences portaient sur la reconnaissance de forme. Certaines présentations sur les nouveaux capteurs à haute résolution ont été annulées. Comme par exemple sur le satellite Israélien EROS (panchromatique 1m). Les données auraient été, semble-t-il, disponibles gratuitement! 19 Le 24ième symposium se tiendra au mois de juin 2002 à Toronto. Ce symposium sera sûrement plus gros et plus intéressant, car il se tiendra en même tant que IGARSS2002. (http://www.igarss02.ca/) Advances in Synthetic Aperture Radar 2001 (ASAR2001) St-Hubert, 1-3 octobre 2001 Rapport de Langis Gagnon, chercheur sénior L'atelier ASAR est organisé depuis 1997 par l'Agence Spatiale Canadienne afin d'évaluer l'avancement de la technologie SAR. Le Canada est particulièrement actif dans ce domaine à travers le programme RADARSAT et en tant que membre participant de l'ESA. Les experts internationaux on fait le point sur les plus récentes missions (SRTM, ENVISAT) ainsi que les missions à venir ou en prépartion (Radarsat-2, TerraSAR, COSMOS, etc). L'atelier a porté aussi sur le développement de la technologie RSO polarimétrique et de ses applications possibles. Une emphase particulière a été donnée sur l'utilisation des données polarimétiques du futur satellite RADARSAT-2 . Spaceborne Earth Observation: A Business-oriented Perspective John MacDonald, fondateur de MDA, Le modèle d'affaire purement commercial en imagerie satellite n'est pas encore viable parce que les coûts de fabrication et de lancement d'un satellite imageur sont encore trop élevés. C'est une industrie qui sera toujours tributaire des gouvernements comme clients majeurs. Les avantages compétitfs de l'imagerie satellite sur l'imagerie aéroportée sont: 1) le monitoring de la planète entière, 2) le monitoring de routine, 3) le monitoring de régions à accès restreint et 4) le monitoring à des endroits non-prévisibles. Ces avantages sont particulièrement importants pour les secteurs de l'ENVIRONNEMENT et de la SÉCURITÉ. The Radarsat-2 Program Update Luc Brulé, directeur scientifique du programme Radarsat-2 Le programme a pris un retard important à cause de problématique de sécurité nationale soulevé par les États-Unis. Le lancement est maintenant prévu pour 2003. MDA est responsable de la construction et du lancement du satellite. RSI, une filiale de MDA, est sera responsable de la distribution des données. EMS Technologies est le principale sous-contracteur pour la développement de la charge utile (payload) du satellite. L'innovation majeure de Radarsat-2 sera la prise d'images polarisées qui permettra entres autres, de classifier plus précisément les cultures et les glaces. ENVISAT M. Zink, ESA Le lancement d'ENVISAT est retardé jusqu'au début 2002. Possibilité de soumettre des projets de R-D (http://projets.esa-ao.orf) 20 Algorithms for processing RADARSAT-2 Data A. Thompson, MDA, Canada Cette conférence discutait dans un premier temps des différences entre le satellite Radarsat-1 et Radarsat-2 du point de vue de la fréquence radar (5.3 GHz vs 5.4 Ghz ), des modes polarimétriques d'aquisition (HH vs HH,VV,HV,VH), des modes angulaires et de la résolution du faisceau (8m à 100m vs 3m à 100m). La seconde partie portait sur les implications techniques des nouvelles possibilités de RSAT2 et des changements qu'il a fallu faire au niveau des composantes du satellite et de la manière que l'antenne doit gérer l'émission et la réception du signal en tenant compte des polarisations croisées (HV, VH). Pour plus de rensignements : http://radarsat.mda.ca/ Unsupervised classification of polarimetric SAR images J.S. Lee, USA L'auteur a présenté une méthode de classification non-supervisée appliquée sur des images SIR-C polarimétrique du AIRSAR du JPL. Cette méthode itérative se décompose en deux parties : 1) Classification non-supervisée des images polarimétriques décomposées par la méthode de Cloude et Potter. Cette étape permet de créer une classification initiale comme site d'entraînement pour la seconde étape. Les classes sont au nombre de quatre : les doubles retours, les retours volumétriques, les retours de surface, et autres. 2) Classification par le classificateur Wishart complexe. À partir des sites d'entraînement on classe les pixels des images décomposées par le classificateur de Wishart. Cette nouvelle classification est de nouveau utilisée comme site d'entraînement et on classifie de nouveau les images. Un critère de convergence arrête l'itération. L'avantage de cette méthode est dans sa complète automatisation et de son interprétation basée sur les méchanismes de diffusion de chaque classe. Polarimetric techniques for change detection D. Corr, QinetiQ Ltd, UK Le présentateur a montré que l'utilisation de la mesure de cohérence entre différentes images permettaient de détecter les changements entre elles. Trois acquisitions SAR aéroportés prises à trois temps différents ont montré le potentiel pour voir des changements fins en fonction du temps, par exemple les automobiles dans un parking. Comme on si attendait, plus le temps entre deux acquistions sera grand, plus de changements seront détectés car la cohérence entre les images a tendance à diminuer avec le temps, à moins que les objets demeurent identiques sur les images. Computer Vision and Pattern Recognition 2001 (CVPR2001) Kauia, Hawaii, 9-14 décembre 2001 Rapport de Langis Gagnon, chercheur sénior Commentaires en vrac 21 - - - - 33% des articles soumis ont été acceptés pour présentation Ai assisté à 2 cours, 1 workshop et une vingtaine de présentations "Buzz words": Relevance Feedback (feedback de l'usager dans un système de recherche d'images par contenu), Intelligent Scissors (edge tracker; le tracking dual de Marc tombe dans cette classe), Support Vector Machine (classificateur bi-classes introduit par Vapnik en 98; beaucoup utilisé en cascade); Shape Context (un nouveau descripteur de forme qui encode un contour dans un histogramme 2D) Discussion avec V. Gouet et N. Boujemaa (INRIA): Descripteurs globaux avec orientations (textures, histogrammes, etc.) semblent appropriés pour classer les différentes scènes naturelles Une seule présentation pléniaire!: Rick Rashid (Head, Microsoft Research); présentation plutôt "flash" avec beaucoup de démos: artificial singing, AskMSR (robot de recherche par question qui analyse le texte avant de donner une réponse; démo avec questions rigolottes comme "what is the meaning of life"), ring Camera pour téléconférence, speech recognition chez MS Asia (la meileure technique selon lui!?), environment sensing (détection de l'action chez une personne...p.ex. personne au téléphone, personne en train de discuter, etc.). Données de croissance: storage 8x supérieur depuis 4 ans, carte graphique 100x plus rapide depuis 3 ans, demande en bande passante: 64x depuis 3 ans, double chaque 6 mois. Toy Story: 10 Mtriangles/frame, XBOX: 150 Mtriangles/frame. Le future: ordinateur qui intègre handwriting, speech, natural language processing et computer vision. Prévoit le TeraByte PC vers 2004. TerraServer (images haute résolution de la Terre). Beaucoup de représentant de Microsoft Research Asia CD disponibles: TOUS les Workshops, TOUS les démos, TOUS les short courses, Proceedings disponibles sur papiers et CD Beaucoup de papiers sur level-set Beaucoup de traitement au niveau des pixels (la puissance des machine permet de le faire maintenant) Présentation spéciale du Prof. Robin Murphy du CRASAR (Center for Robot-Assisted Search and Rescue) à USC sur le S&R assisté par robot dans les tours du WTC. Vidéo montrant tout! 75 heures de tape disponible (www.crasar.org) pour la recherche. Beaucoup de problémes très difficile de vision à résoudre (navigation, object recognition; les objets sont déformés..., visualisation des structures, localisation 3D, fusion de senseurs, etc) Cours sur la reconnaissance de visage B. Moghaddam, Mitsubishi Electric Research Beaucoup de participants. Évolution des techniques: figures features (largeur du nez, couleur des yeux, etc), réseau de neurones, représentation sur des sous-espaces (p. ex. PCA (première composantes plus sensibles à l'illumination), Linear Discriminant Analysis (plus robuste au changement d'illumination), Independant Componants Analysis (plus robuste que PCA au bruit)), (local) template matching, modèles 3D. Les problèmes ouverts: pose, illumination, environnements non-contrôlés. Programme FERET de DoD permis d'identifier les 2 ou 3 meilleures méthodes actuelles; c'est le protocole référence pour les mesures de performances. 22 Cours sur les Image Search Engines Theo Govers, ISIS Peu de participants (10) malgré un important nombre d'inscription (50)! Revue des principaux descripteurs. Accent sur les descripteurs de couleurs; espace de couleurs le plus approprié pour un tâche spécifique; classification des contours (changement de matériel, réflexions spéculaires, ombres); rapport de couleurs pour les scènes externes. Utilise la technique du Split and Merge pour la localisation des objects. Survol très court de qq systèmes (QBIC, IMAGEROVERS, PICTURE FINDERS, PARISS, EXCALIBUR). Benchmarking sous peu (voir conférence de SPIE - Internet Imaging) Quelques articles particulièrement intéressants - Spatial Information in Multiresolution Histograms (Poster Session 1), Shape Contexts Enable Efficient Retrieval of Similar Shapes (Poster Session 1), On the Individuality of Fingerprints (Poster Session 1), Houghing the Hough: Peak Collection for Detection of Corners (Poster Session 4), Eliminating Ghosting and Exposure Artifacts in Image Mosaics (Poster Session 4), Instant Dehahazing of Images Using Polarization (Oral Session 5A), Separation of Diffuse and Specular Reflection from Color Images (Oral Session 5A), Navier-Stokes Fluid Dynamics and Image and Video Inpainting (Oral Session 5A), Extraction of Illusory Linear Clues in Perspectively Skewed Documents (Oral Session 5A), Detection and Tracking of Shopping Groups (Oral Session 6A), Segmentation and Boundary Detection Using Mulriscale Intensity Measurements (Oral Session 6B), A Confidence Measure for Boundary Detection and Object Selection (Oral Session 6B), Rapid Object Detection using a Boosted Cascade of Simple Features (Oral Session 7A), A Fast Image Segmentation Algorithm for Interactive Video Hotspot Retrieval (Workshop on CBIR) Object-based Queries using Color Points of Interest (Workshop on CBIR) Photonics West 2002 San Jose, 19-25 janvier 2002 Rapport de Valérie Gouaillier, agente de recherche Internet Imaging III - - Beaucoup de collections d’images sont rendues disponibles sur Internet (ex. : collections d’images diffusées par les musées). C’est pourquoi, beaucoup de présentations touchaient des problèmes de recherche d’image par contenu (RIC). Images couleur par Internet (aucune connaissance du système d'affichage de l'usager). Encodage et constance des couleurs. 4672-01 : Natural image database and illuminant classification research (Invited Paper) S. Tominaga, Osaka Electro-Communication Univ. (Japan.) A développé 23 - - - une banque d’images couleur disponible sur Internet (www.osakac.ac.jp/labs/shoji) spécifiant les conditions d’acquisition et la gamme d’illumination de la scène. Permet la classification de l’illumination d’images couleurs par correlation entre la gamme calculée de celles-ci (convex hull des pixels dans le plan (R,B)) et les gammes mesurées des images de référence. 4672-33 : Color encoding for image databases. S. E. Süsstrunk, École Polytechnique Fédérale de Lausanne (Suisse). Étude des questions reliées à l’encodage des couleurs pour la capture, la maintenance et le déploiement d’images numériques dans une base de données. Applications en temps réel impliquant la transmission d'images. Voici un exemple qui a été présenté : 4672-02 : Two approaches for applet-based visible human slice extraction. S. Gerlach, R. D. Hersch, École Polytechnique Fédérale de Lausanne. Système permettant la navigation interactive, en temps réel, dans une représentation 3D d’un corps humain, en affichant la vue anatomique (slice) correspondante (disponible sur http://visiblehuman.epfl.ch). Deux architectures client-serveur proposées pour la transmission des images : 1) les vues anatomiques sont extraites sur le serveur et transmises (compressées) au client (fat server), 2) des volumes 3D à différentes résolutions sont transmises par le serveur et l’extraction de la vue anatomique est faite par le client (fat client). Nouveaux périphériques sans fil. o Ex. : Téléphones cellulaires à affichage (i-mode) impliquent nouvelles règles de conception et diffusion du contenu. Animation Pseudo 3-D (visites virtuelles) : 4672-08 : Extensive Pseudo 3-D spaces with Superposed Photographs, H. Tanaka, M. Arikawa, R. Shibasaki. Outil permettant de naviguer dans des espaces 3-D recréés par un collage de photos. Effet assez intéressant malgré la simplicité de la technique. Pour des applications amateures. Storage and Retrieval for Media Databases 2002 - - - Comme le contenu multimedia augmente et les coûts de stockage et de traitement diminuent, les banques d’information, et notamment d’images, sont de plus en plus volumineuses. Plusieurs participants disaient travailler avec des terabytes d’information. Un conférencier affirmait que les applications devraient être testées sur des banques d’images d’au moins 5 terabytes. La recherche se penche donc sur l’architecture de banques d’images : stockage et récupération (retrieval). Deux approches pour l’indexation : o Annotation o Caractéristiques visuelles. N.B. Pour le moment, l’indexation basée entièrement ou partiellement sur les annotations permet des recherches plus complexes que la recherche d’images par contenu (RIC). Description d’une image : o Syntaxique : caractéristiques visuelles, segmentation. o Sémantique : relation entre les objets, signification. 24 - - - Le niveau sémantique est évidemment le plus complexe et le plus difficile à automatiser. Rien de très concluant ne semble fait à ce niveau. Annotation : o Déterminer un lexique et une structure d’annotation efficaces et faciles à utiliser (les annotateurs doivent souvent être formés). 4672-24 : Testing a vocabulary for image indexing and ground truthing. C. Jorgensen, P. Jorgensen, Univ. at Buffalo (4672-24). Élaboration d’un lexique visuel composé des termes les plus pertinents à partir d’une étude des descriptions d’images faites par les humains (description libre, description pour récupération, description de mémoire). Fait intéressant : l’annotation manuelle des caractéristiques visuelles de bas niveau (couleurs, régions, etc.) est ce qui prend le plus de temps, alors que ce sont les plus faciles à encoder automatiquement. o Annotation automatique (outils d’aide à l’annotation, interfaces la facilitant) o Propagation des annotations (les premières images sont annotées à la main et le système propage les annotations aux nouvelles images présentant des similarités). Pour le moment, c’est ce qui pourrait avoir le plus d’applications pratiques pour les usagers. Certaines caractéristiques visuelles utilisées : o Couleur : histogramme de couleurs, vecteur de cohérence de couleurs, couleur dominante. o Forme : détection d’arêtes. o Texture : approches statistiques, matrice de co-occurence, approches structurales, BDIP et BVLC (voir 4676-07). 4676-09 : Compressed domain indexing of losslessly compressed images. G. Shaefer, Nottingham Trent Univ. (UK). Contrairement à la majorité des techniques qui indexent les images avant compression, la méthode présentée utilise la différence de prédiction sur les pixels dans JPEG-LS-7 comme descripteur de texture et la longueur des codes de Huffman pour un premier triage des images. Permet d’éviter l’étape de décompression de l’image lors de recherche. Probablement une bonne avenue pour les applications web. o Mouvement Requête : 3 modes : o Mode libre : recherche par spécification (mots-clé ou caractéristiques visuelles). o Mode guidé : recherche par exemple (le système extrait à partir d’un exemple d’image les caractéristiques à rechercher). Tendance : l’usager ne devrait pas avoir à fournir un exemple d’images; le système devrait suggérer un sousensemble de la banque d’images à partir duquel l’usager peut indiquer les plus similaires à sa requête. o Mode de navigation : l’usager explore la banque d’images. 4676-35 (Très intéressant) : Three-dimensional browsing environment for MPEG-7 image databases. T. Meiers, T. Sikora, I. Keller, Heinrich-HertzInstitute for Communication Technology, Berlin. Les images sont affichées dans un espace 3-D à travers lequel l’usager navigue (semble permettre une navigation assez intuitive). La distance euclidienne dans l’espace 3D correspond à la distance en similarité des images. La similarité est mesurée par une version modifiée de la distance de Mahalanobis qui est ajustée en fonction des images 25 - - jugées pertinentes par l’usager (relevance feedback). Une structure hierarchique (arbre de représentants) permet une récupération des images à partir d’une vue globale de la banque d’images jusqu’à une vue plus raffinée. Similarité : o Comment retrouver les images similaires à la requête d’un usager? La similarité entre deux images est très subjective et varie d’une personne à l’autre. Définir les critères de similarité Établir une mesure de similarité (ex. : distance de Minkowski, Mahalanobis) Permettre une rétroaction de l’usager pour valider la pertinence des images retrouvées (relevance feedback) : permet d’orienter la recherche en s’approchant des images pertinentes et s’éloignant des images non pertinentes. Nouvelle tendance : l’usager spécifie sa préférence sur l’image globale plutôt que d’accorder des poids à chaque caractéristique visuelle; le système déduit les caractéristiques prépondérantes. Comment déterminer, à partir de sa rétroaction ce que l’usager recherche? 4676-06 : Logistic Regression Models for Relevance Feedback in Content-Based Image Retrieval. G. Caenen, Katholieke Univ. Leuven, E. J. Pauwels, Ctr. Voor Wiskunde en Informatica. Le système propose des images tirées de la banque. À chaque itération, l’usager départage les images qu’il juge similaires à sa requête des images contre-exemples. La relation implicite entre la pertinence (1 ou 0) des images et chaque caractéristique d’une image est modélisée par régression logistique (modèle quadratique) et est généralisée à toutes les images de la banque. Les prochains exemples d’images sont sélectionnés en fonction de ce modèle. Seules les caractéristiques offrant le meilleur « fit » sont retenues, car elles présentent un meilleur pouvoir descripteur de la requête de l’usager. 4672-26 : Supporting subjective image queries without seeding requirements : proposing test queries for benchathlon. E.Y. Chang, K.T. Cheng, Univ of California. Les caractéristiques permettant de mieux décrire la requête de l’usager sont déduites par le système. La démo semblait donner des résultats intéressants, mais l’algorithme de relevance feedback n’a pas été présenté, car il fait l’objet d’un article présentement sous révision. À surveiller. Les applications + systèmes existants : o 4676-04 (intéressant) : Automatic classification of images on the Web, A. Hartmann, R.W. Lienhart, Intel Corp. Discrimination photos vs graphiques, photos réelles vs images de synthèse et présentation (slides) vs bandes dessinées. o Applications en biologie : voir 4676-12, 4676-44 o 4676-46 : World’s largest visual intelligence platform (Presentation Only). R. Seeber, Cobion AG (Germany). Reconnaissance/détection de visages, OCR (jusqu’à 90° de rotation), détection de logos (watermarks), filtrage de contenu (ex. : nudité). Selon le présentateur, l’avenir commercial de la RIC est dans la recherche d’objets concrets (ex. logos, visages, etc.) et non couleurs, mouvement, etc. (www.cobion.com). o Applications vidéo : 26 - Analyse : détection de changement de plan, de scène, classification, etc. Synthèse (« video summarization ») : extraction automatique des sections importantes dans un vidéo (ex. : les buts dans un match sportif). Indexation et recherche. Benchmarking : o 4676-43 (Présentation très intéressante) : Benchmarks for storage and retrieval in multimedia databases. D. A. Forsyth, Univ. of California/Berkley. Qu’est-ce qu’un système performant ? Un système qui fait correctement ce pour quoi il a été conçu ou qui fait ce que les usagers désirent? Il existe un fossé entre ce que nous pouvons faire en RIC et ce que les gens veulent faire. Axes de recherche à développer : organisation de collections d’images, navigation, utilisation des techniques de data mining pour dégager les composantes significatives de l’information. Il faudrait s’intéresser un peu plus aux études faites sur les usagers (ref. P. Enser). o Groupe de benchmarking : The Benchathlon Network (http://www.benchathlon.net/) Regroupement international pour développer une plateforme de benchmarking pour les systèmes de RIC. Buts : Structurer et encadrer la recherche et l’évaluation objective de la RIC, fournir une banque d’images gratuite et des outils de test. Multimedia Security : Crytography and Watermarking Edward J. Delp Un contenu numérique : 1) est facile d’accès (Internet et intranets), 2) facile à copier et la copie produite est identique à l’original, 3) facile à modifier/falsifier. Ce cours présentait et comparait les différents outils de sécurité de contenu multimédia : cryptage, authentification, hachage (« hashing »), datage (« time-stamping »), marquage numérique (« watermarking »). - Partie I : Cryptographie Survol des notions de cryptographie : code, message/cryptogramme, cryptanalyse (décryptage), algorithmes de cryptage à clé privée (Data Encryption Standard (DES), Advanced Encryption Standard (AES), IDEA, Twofish, TEA, etc.), algorithmes de cryptage à clé publique (Knapsack, Discrete Log, RSA, Elliptic Curve methods), block ciphers, stream ciphers, protocole (protection et certification des clés, attaques au protocole), contrôle légal pour l’exportation de logiciels et matériel de cryptage, signatures électroniques, datage, « hash function ». - Partie II : Watermarking Stéganographie, watermarking, fingerprinting, buts, principes directeurs (transparence, robustesse, capacité), techniques (spatiale, sub-band (wavelet), modulation des coefficients DCT, watermarks visibles), watermark fragile (permet de détecter l’altération d’un contenu), types d’attaques, watermarking vs time-stamping, problèmes soulevés par le watermarking de vidéo, standards, produits commerciaux. Applications pour l’avenir : watermarking fragile? Color Imaging on the Internet Giordano Beretta Ce cours aborde tous les aspects de la transmission d’images couleur dans des réseaux : 27 - - Représentation des couleurs : encodage, visualisation (intégrité des couleurs), espaces de représentation, ICC profiles, Compression : codage, palette de couleurs, JBIG, JBIG2, LZ, JPEG, JPEG-2000, MRC. Formats de fichiers : images (GIF, PNG, VRML, TIFF-FX, JPEG 2000, PDF, QuickTime), séquence d’images (animated GIF, FlashPix, QuickTime), images multipage (TIFF-FX, PDF), images mixtes (TIFF-FX Profile M, PDF), documents mixtes (XML, HTML, SVG, PDF, SMIL). Protocoles : FTP, HTTP, IIP, IPP, Internet Fax. Applications : recherche d’images par contenu.