Compendium des comptes-rendus de conférences de l

Transcription

Compendium des comptes-rendus de conférences de l
550, rue Sherbrooke Ouest, bureau 100
Montréal (Québec) H3A 1B9
Téléphone : (514) 840-1234
Télécopieur : (514) 840-1244
http://www.crim.ca
CRIM - Documentation/Communications
Compendium des comptes-rendus de conférences
de l’équipe Vision et Imagerie pour l’année fiscale 2001-2002
CRIM-02/03-02
Mario Beaulieu
Langis Gagnon
Valérie Gouaillier
France Laliberté
Marc Lalonde
Équipe VISI
Date 6 mars 2002
Collection scientifique et technique
ISBN 2-89522-020-4
2
Pour tout renseignement, communiquer avec:
CRIM Centre de documentation
550, rue Sherbrooke Ouest, bureau 100
Montréal (Québec) H3A 1B9
Téléphone : (514) 840-1234
Télécopieur : (514) 840-1244
Tous droits réservés © 2002 CRIM
Bibliothèque nationale du Québec
Bibliothèque nationale du Canada
ISBN 2-89522-020-4
3
TABLE DES MATIÈRES
PRÉSENTATION
5
COMPTES-RENDUS
5
Vision Interface 2001 (VI2001)
On Multi-scale differential features for face recognition
Omnidirectional Vision and Catadioptric Geometry
Boundary Signature Matching for Object Recognition
Wide-Angle Image Acquisition, Analysis and Visualisation
Dynamic Node Distribution in Adaptive Snakes for Road Extraction
Modeling of 2D Parts Applied to Database Query
Controlled Shape Deformations via Medial Profiles
5
5
5
6
6
6
7
7
International Conference on Computer Vision (ICCV2001)
7
Gradient Vector Flow Fast Geodesic Active Contours
8
Region Segmentation via Deformable Model-Guided Split and Merge
8
Flux Maximizing Geometric Flows
8
Matching Shapes
9
Sequential Monte Carlo Fusion of Sound and Vision for Speaker Tracking
9
Constrained Active Appearance Models
10
Learning the Semantics of Words and Pictures
10
A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and
Measuring Ecological Statistics
10
JetStream: Probabilistic Contour Extraction with Particles
10
A simple and efficient template matching algorithm
11
Workshop Event 2001 "Detection and Recognition of Events in Video"
11
Workshop "Recognition, Analysis and Tracking of Faces and Gestures in Realtime Systems"
11
International Conference on Information Fusion (Fusion 2001)
Global challenges : data fusion at a grand scale
Information fusion in soccer-playing robots and service robotics
A prototype system for 3D color fusion and mining of multisensor/spectral imagery
Multifrequency and multiresolution fusion of SAR images for remote sensing applications
Gradient descent techniques for multitemporal and multisensor image registration of remotely sensed imagery
Fusion of visible, infrared and 3D LADAR imagery
Neurophysiologically-motivated sensor fusion for visualization and characterization of medical imagery
12
12
12
13
13
14
14
14
Forum de transfert du Fonds FCAR-Action concertée RADARSAT
15
Intégration de l'imagerie RADARSAT pour le suivi hydrique des terres agricoles
15
Détection et classification des milieux humides à partir des imagesRADARSAT-1
15
Application géomatique de RADARSAT à l'observation des risques d'inondation et d'érosion dans le sud du
Québec
15
Système prototype pour le suivi des changements de l'occupation du sol par fusion de l'imagerie RADARSAT et
d'autres données d'observation de la Terre
16
Intégration de RADARSAT et du GPS pour les changements dynamiques du relief
16
Détection des cibles en milieu forestier: fusions d'informations multisources
16
4
L'utilisation des bases de données multisources pour l'identification automatisée des points de contrôle sur les
images RADARSAT
16
Séance pléniaire
16
Symposium Canadien de Télédétection
17
Radarsat-2 - Mission Update
17
A Lifetime Radiometric Calibration Record for the Landsat Thematic Mapper
17
Forest Classification by Multiple-Forward-Mode 5-Scale Modeling
18
Utilisation of contour criteria in micro-segmentation of SAR images
18
Satellite image fusion with multi-scale wavelet analysis : preserving spatial information and minimizing artefacts
(PSIMA)
18
Conclusion
18
Advances in Synthetic Aperture Radar 2001 (ASAR2001)
Spaceborne Earth Observation: A Business-oriented Perspective
The Radarsat-2 Program Update
ENVISAT
Algorithms for processing RADARSAT-2 Data
Unsupervised classification of polarimetric SAR images
Polarimetric techniques for change detection
19
19
19
19
20
20
20
Computer Vision and Pattern Recognition 2001 (CVPR2001)
Commentaires en vrac
Cours sur la reconnaissance de visage
Cours sur les Image Search Engines
Quelques articles particulièrement intéressants
20
20
21
22
22
Photonics West 2002
Internet Imaging III
Storage and Retrieval for Media Databases 2002
Multimedia Security : Crytography and Watermarking
Color Imaging on the Internet
22
22
23
26
26
5
Présentation
Ce rapport regroupe tous les comptes-rendus de conférence qui ont été rédigés par les membres
de l’équipe Vision et Imagerie durant l’année fiscale 2001-2002. Les conférences en question
sont :
- Vision Interface 2001 (VI2001)
- International Conference on Computer Vision (ICCV2001)
- International Conference on Information Fusion (Fusion 2001)
- Forum de transfert du Fonds FCAR-Action concertée RADARSAT
- Symposium Canadien de Télédétection
- Advances in Synthetic Aperture Radar 2001 (ASAR2001)
- Computer Vision and Pattern Recognition 2001 (CVPR2001)
- Photonics West 2002
Comptes-rendus
Vision Interface 2001 (VI2001)
Ottawa, 7-9 juin 2001
Rapport de Marc Lalonde, agent de recherche sénior.
On Multi-scale differential features for face recognition
S. Ravela, Allen R. Hanson, Center for Intelligent Information Retrieval Vision, Laboratory
Dept. of Computer Science, University of Massachusetts at Amherst
This paper describes an algorithm that uses multi-scale Gaussian differential features (MGDFs) for face recognition. Results on standard sets indicate at least 96% recognition accuracy, and a comparable or better performance
with other well known techniques. The MGDF based technique is very general; its original application included
similarity retrieval in textures, trademarks, binary shapes and heterogeneous gray-level collections.
Même si l'application en est une de reconnaissance de visages, la technique proposée est
générique et s'utilise en recherche d'images par contenu. En gros, une signature est obtenue pour
chaque image à partir d'histogrammes de certaines caractéristiques locales comme la courbure et
l'orientation locale du gradient. Comparer des images revient à comparer leurs histogrammes.
Omnidirectional Vision and Catadioptric Geometry
Christopher Geyer and Kostas Daniilidis, University of Pennsylvania, GRASP Laboratory
In this paper we formulate a novel unifying geometry of catadioptric imaging. We prove that all single viewpoint
mirror-lens devices are equivalent to a composite mapping from space to sphere and then from sphere to plane. The
second mapping is equivalent to stereographic projection in case of parabolic mirrors. Using this equivalence we
observe that images of lines in space are mapped to great circles on the sphere and to conic sections on the
catadiop-tric image plane. The composite mappings are paired with a duality principle which relates points to line
projections.
Un modèle géométrique est présenté pour les systèmes d'acquisition d'image omnidirectionnels
(qui permettent de générer une image 360 degrés), avec des idées sur comment calibrer le
système optique. Papier plutôt mathématique mais important si on se lance dans l'analyse de ce
genre d'image.
6
Boundary Signature Matching for Object Recognition
Adnan A. Y. Mustafa, Kuwait University, Department of Mechanical and Industrial Engineering
Any object recognition system must address cases when parts of the object are not visible due to occlusion, shadows,
... etc. In this paper we introduce a simple matching method that is based on matching boundary signatures.
Boundary signatures are surface feature vectors that reflect the probability of occurrence of a feature of a surface
(or an object) boundary. Boundary signatures are an extension to our surface signature formulation which we have
presented with good success in our earlier work. We introduce four types of surface boundary signatures; The
Curvature Boundary Signature, the Direction Boundary Signature, the Distance Boundary Signature and the
Parameter Boundary Signature. These four signatures are constructed based on local and global geometric shape
attributes of the boundary. Tests conducted on objects of different shapes have produced excellent results in the
absence of occlusion and good results when objects retain at least 70% of their original shapes.
Papier relativement intéressant avec une approche originale, mais je suis pas sûr que ça marche
(les résultats sont pas spectaculaires). Imaginez qu'on prenne un pt le long de la frontière d'un
objet; si on part dans une direction et qu'on suit la frontière, on peut ramasser des statistiques sur
p. ex. la variation d'angle ou de distance entre chaque pt 'instantané' et le pt de référence. C'est
l'idée de base qui est proposée. À noter l'invariance en rotation, translation et en échelle.
Wide-Angle Image Acquisition, Analysis and Visualisation
R. Klette et al., CITR Tamaki, The University of Auckland Tamaki Campus
Recent camera technology provides new solutions for wide-angle image acquisition. Multi- or single-line cameras
have been designed for spaceborne and airborne scanners to provide high resolution imagery. Line cameras may
also work as panorama scanners, and models of these have already been studied in computer vision for a few years.
These cameras or models require studies in calibration, registration and epipolar geometry to ensure accurate
imaging and stereo analysis. The resulting images or depth maps also allow new approaches in 3D scene
visualisation. The paper informs about line camera models and camera hardware, calibration of line cameras,
registration of captured images, epipolar geometry for along-track and panoramic stereo, stereo matching with a
focus on dynamic programming, and visualisation.
C'est une présentation keynote: ils utilisent des caméras line-scan (1D) haute résolution (p. ex. 10
000 pixels) pour faire des images panoramiques, faire de la stéréo ou de la photo aérienne avec,
etc.
Dynamic Node Distribution in Adaptive Snakes for Road Extraction
P. Agouris et al., Dept. of Spatial Information Engineering and National Center for Geographic
Information and Analysis, University of Maine
In this paper we address the issue of road extraction from digital imagery using deformable contour models
(snakes). We present a novel variation of the traditional snakes solution, where additional nodes are inserted, and
redundant nodes are deleted, to better describe the complexity of the extracted line. Node insertion and deletion are
based on an analysis of the energy terms of the snake solution. This allows us to use more, closely spaced nodes
along the high curvature areas of a road, compared to the linear segments of the same road outline. This dynamic
manipulation of the number and spacing of nodes within a single snake allows us to better capture the geometry of
the road, and to better accommodate its radiometric behavior. Thus it produces more accurate results than the
traditional snake solution. Here we present our approach and experimental results to demonstrate its performance
for road extraction in geospatial applications.
Présentation intéressante mais qui a soulevé beaucoup de questions au niveau des résultats (pas
très concluants). L'idée principale, c'est que pour faire de l'extraction de routes (imagerie
aérienne), un opérateur doit grosso modo initialiser le snake en donnant des points de contrôle, et
le snake doit s'ajuster à la géométrie de la route. Probablement que les auteurs voient l'update du
7
snake de manière discrète (aux pts de contrôle) parce qu'ils suggèrent d'ajouter ou d'éliminer des
pts selon la courbure locale du snake (petit rayon de courbure -> nb de pts augmente).
Modeling of 2D Parts Applied to Database Query
G.-A. Bilodeau and Robert Bergevin, Laboratoire de vision et systèmes numériques
This paper presents recent developments in a project aimed at the design of an image database query engine, where
the images are searched using 3D part-based object models. This is a novelty since most existing image database
query engines search images by comparing colors, textures and 2D shape of regions in the images. In our project,
3D part-based models are built from qualitative volumetric primitives. This paper proposes a method to hypothesize
such volumetric primitives from projected object parts. It combines concepts from two existing approaches, a modelfitting and a rule-based approach. Using fuzzy logic, this new method can produce multiple hypotheses to attain the
robustness necessary for processing 2D parts originating from 2D images of real scenes. A detailed description of
the method is presented along with promising preliminary results.
Un papier qui ressemble pas mal à ce qu'un de nos anciens étudiants avait tenté de faire avec des
géons: retrouver un objet 3D dans une image 2D à partir de primitives géométriques et de règles
de combinaisons. Pendant la période de questions, Kasvand (Concordia) lui a souhaité bonne
chance :-). Après, je lui ai dit que son sujet c'était du suicide :-). Mais il semblait quand même
confiant...
Controlled Shape Deformations via Medial Profiles
G. Hamarneh and T. McInerney, Department of Signals and Systems, Chalmers University of
Technology, School of Computer Science, Ryerson Polytechnic University (Toronto)
Robust, automatic segmentation and analysis of medical images requires powerful and flexible models of anatomical
structures. We present a multiscale, medial-based approach to shape representation and controlled deformation in
an effort to meet these requirements. We use medial-based profiles for shape representation, which follow the
geometry of the structure and describe general, intuitive, and independent shape measures (length, orientation, and
thickness). Controlled shape deformations (stretch, bend, and bulge) are obtained either as a result of applying
deformation operators at certain locations and scales on the medial profiles, or by varying the weights of the main
variation modes obtained from a hierarchical (multiscale) and regional (multi-location) principal component
analysis of the medial profiles. We demonstrate the ability to produce controlled shape deformations on a medialbased representation of the corpus callosum. Furthermore, we present results of segmenting the corpus callosum in
2D mid-sagittal MRI slices of the brain.
Une approche plutôt particulière du problème de templates déformables. Un template n'a pas
qu'une bordure, il a aussi un axe central, et on peut aussi appliquer au template des opérateurs de
déformation locale (p. ex. faire varier l'épaisseur de la forme par rapport à l'axe central). La
recherche dans l'image est très simple: c'est l'opérateur qui s'en charge! En plus clair: l'opérateur
doit trouver la combinaison d'opérateurs locaux et de fonctions globales à appliquer de façon à
positionner la forme dans l'image, et cette combinaison est stockée sous la forme d'un script qui
peut être réexécuté pour une autre image. Y a une partie automatique qui permet à la forme de
rechercher les contours dans l'image, mais c'est vraiment le script manuel qui "drive" son
évolution.
International Conference on Computer Vision (ICCV2001)
Vancouver, 9-12 juillet 2001
Rapport de Marc Lalonde, agent de recherche sénior.
8
-
-
-
-
Conférence très relevée, où même les posters sont de qualité et en bonne partie
théoriques. Le taux d'acceptation des articles est d'environ 33% mais seulement 8% sont
acceptés pour présentation orale.
Très peu de gens du Québec, même comme participants. À part les gens de McGill, je
n'ai reconnu que Robert Bergevin (U. Laval).
Beaucoup de monde du MIT, de la Californie, de l'Asie (Japon/Chine). Présence
importante des laboratoires de recherche de grosses compagnies (Microsoft, Compaq,
HP, Siemens, etc.). Microsoft Research doit avoir au moins une quinzaine de
publications.
Les séances de démos étaient intéressantes. J'ai pu voir une démo du groupe de l'U. de
Calgary (Parker) qui fait de la reconnaissance de symboles avec Hausdorff (!). Celle de
Microsoft Research sur le tourisme virtuel (où on peut naviguer dans des scènes
reconstruites) avait l'air pas mal avancée.
Buzz words ou techniques en progression: Support Vector Machines (SVM), particle
filters, CONDENSATION (qui serait une sorte de particle filter), etc. D'autres
techniques établies (RANSAC, Bundle Adjustment [que Mario connaît peut-être], etc.),
ont aussi été évoquées.
Gradient Vector Flow Fast Geodesic Active Contours
Nikos Paragios, Olivier Mellina-Gottardo, Visvanathan Ramesh
This paper proposes a new front propagation flow for boundary extraction. The proposed framework is inspired by
the geodesic active contour model and leads to a paradigm that is relatively free from the initial curve position.
Towards this end, it makes use of a recently in-troduced external boundary force, the gradient vector field that refers
to a spatial diffusion of the boundary informa-tion. According to the proposed flow, the traditional bound-ary
attraction term is replaced with a new force that guides the propagation to the object boundaries from both sides.
This new geometric flow is implemented using a level set approach, thereby allowing dealing naturally with
topological changes and important shape deformations. Moreover, the level set motion equations are implemented
using a recently introduced numerical approximation scheme, the Additive Operator Splitting Schema (AOS) which
has a fast convergence rate and stable behavior. Encouraging experimental results are provided using real images.
Une combinaison de GVF et des contours actifs géométriques. J'ai sur papier les réfs. [9] et [28]
Region Segmentation via Deformable Model-Guided Split and Merge
Lifeng Liu, Stan Sclaroff
An improved method for deformable shape-based image segmentation is described. Image regions are merged
together and/or split apart, based on their agreement with an a priori distribution on the global deformation
parameters for a shape template. Perceptually-motivated criteria are used to determine where/how to split regions,
based on the local shape properties of the region group’s bounding contour. A globally consistent interpretation is
determined in part by the minimum description length principle. Ex-periments show that model-guided split and
merge yields a significant improvement in segmention over a method that uses merging alone.
Une autre variante de 'templates' déformables: plutôt que de faire de l'optimisation en cherchant
un minimum/maximum dans un espace de paramètres, ils adoptent une approche plus
traditionnelle en extrayant des features de l'image (contours, régions) et en faisant du grouping.
Intéressant.
Flux Maximizing Geometric Flows
Alexander Vasilevskiy, Kaleem Siddiqi
9
Several geometric active contour models have been proposed for segmentation in computer vision. The essential idea
is to evolve a curve (in 2D) or a surface (in 3D) un-der constraints from image forces so that it clings to features of
interest in an intensity image. Recent variations on this theme take into account properties of enclosed regions and
allow for multiple curves or surfaces to be simultaneously represented. However, it is not clear how to apply these
techniques to images of low contrast elongated structures, such as those of blood vessels. To address this problem
we derive the gradient flow which maximizes the rate of increase of flux of an auxiliary vector field through a curve
or surface. The calculation leads to a simple and elegant interpretation which is essentially parameter free. We
illustrate its advantages with level-set based segmentations of 2D and 3D MRA images of blood vessels.
J'ai pas lu le papier et je l'ai même pas vu en poster. Souligné ici pour le suivi de ce que les gens
de McGill font.
Robust Principal Component Analysis for Computer Vision
Fernando De la Torre, Michael J. Black
Principal Component Analysis (PCA) has been widely used for the representation of shape, appearance, and motion.
One drawback of typical PCA methods is that they are least squares estimation techniques and hence fail to account
for « outliers » which are common in realistic training sets. In computer vision applications, outliers typically occur
within a sample (image) due to pixels that are corrupted by noise, alignment errors, or occlusion. We review
previous approaches for making PCA robust to outliers and present a new method that uses an intra-sample outlier
process to account for pixel outliers. We develop the theory of Robust Prin-cipal
Component Analysis (RPCA) and describe a robust M-estimation algorithm for learning linear multi-variate
representations of high dimensional data such as images. Quantitative comparisons with traditional PCA and
previous robust algorithms illustrate the benefits of RPCA when outliers are present. Details of the algorithm are
described and a software implementation
is being made publically available.
Y a beaucoup d'articles qui proposent des alternatives à PCA. Celle-ci rend la méthode plus
robuste aux « outliers » par l'utilisation de statistiques robustes.
Matching Shapes
Serge Belongie, Jitendra Malik, Jan Puzicha
We present a novel approach to measuring similarity between shapes and exploit it for object recognition. In our
framework, the measurement of similarity is preceded by (1) solving for correspondences between points on the two
shapes, (2) using the correspondences to estimate an aligning transform. In order to solve the correspondence
problem, we attach a descriptor, the shape context, to each point. The shape context at a reference point captures the
distribution of the remaining points relative to it, thus offering a globally discriminative characterization.
Corresponding points on two similar shapes will have similar shape contexts, enabling us to solve for
correspondences as an optimal assignment problem. Given the point correspondences, we estimate the
transformation that best aligns the two shapes; regularized thin-plate splines provide a flexible class of
transformation maps for this purpose. Dissimilarity between two shapes is computed as a sum of matching errors
between corresponding points, together with a term measuring the magnitude of the aligning transform. We treat
recognition in a nearest-neighbor classification framework. Results are presented for silhouettes, trademarks,
handwritten digits and the COIL dataset.
Papier pas mal intéressant et résultats assez impressionnants. C'est tout con comme approche et
pourtant ça semble fonctionner assez bien. Ça vaudrait la peine de coder l'algo pour
complémenter Hausdorff.
Sequential Monte Carlo Fusion of Sound and Vision for Speaker Tracking
J. Vermaak, M. Gangnet, A. Blake, P. Perez
Video telephony could be considerably enhanced by provision of a tracking system that allows freedom of movement
to the speaker, while maintaining a well-framed image, for transmission over limited bandwidth. Already
10
commercial multi-microphone systems exist which track speaker direction in order to reject background noise.
Stereo sound and vision are complementary modalities in that sound is good for initialisation (where vision is
expensive) whereas vision is good for localisation (where sound is less precise). Using generative probabilistic
models and particle filtering, we show that stereo sound and vision can indeed be fused effectively, to make a system
more capable than with either modality on its own.
L'article est intéressant pour deux raisons: le sujet comme tel (on propose de faire du tracking de
locuteur en combinant les signaux audio et vidéo) et la méthode employée (filtres à particules,
qui serviraient, je pense, à faire de l'estimation de densité de probabilité).
Constrained Active Appearance Models
T. F. Cootes, C. J. Taylor
Active Appearance Models (AAMs) have been shown to be useful for interpreting images of deformable objects. Here
we place the AAM matching algorithm in a statistical framework, allowing extra constraints to be applied. This
enables the models to be combined with other methods of object location. We demonstrate how user interaction
can be used to guide the search and give results of experiments showing the effect of constraints on the performance
of model matching.
Article un petit peu décevant parce que je m'attendais à plus. C'est le modèle de base reformulé
dans un contexte probabiliste. Le bénéfice le plus concret est la possibilité pour l'usager de
contraindre le modèle interactivement pour un meilleur match (je pense que les contraintes
s'expriment mieux dans le cadre probabiliste)
Learning the Semantics of Words and Pictures
Kobus Barnard, David Forsyth
We present a statistical model for organizing image collections which integrates semantic information provided by
associated text and visual information provided by image features.The model is very promising for information
retrieval tasks such as database browsing and searching for images based on text and/or image features.
Furthermore,since the model learns relationships between text and image features,it can be used for novel
applications such as associating words with pictures,and unsupervised learning for object recognition.
L'article attaque le problème de l'apprentissage du lien qui existe entre le contenu d'une image
(des blobs) et des mots-clés associés à l'image. Le modèle proposé facilite la recherche d'images
similaires ('browsing') dans des bases d'images. Peut-être intéressant pour le projet de paysages.
A Database of Human Segmented Natural Images and its Application to Evaluating
Segmentation Algorithms and Measuring Ecological Statistics
David Martin, Charless Fowlkes, Doron Tal, Jitendra Malik
This paper presents a database containing « ground truth» segmentations produced by humans for images of a wide
variety of natural scenes. We define an error measure which quantifies the consistency between segmentations of
differing granularities and find that different human segmentations of the same image are highly consistent. Use of
this dataset is demonstrated in two applications: (1) evaluating the performance of segmentation algorithms and (2)
measuring probability distributions associated with Gestalt grouping factors as well as statistics of image region
properties.
L'intérêt de l'article (pour nous) est qu'il fait mention de travaux passés sur les images naturelles
(peut-être pertinent pour le projet de paysages)
JetStream: Probabilistic Contour Extraction with Particles
Patrick Perez, Andrew Blake, Michel Gangnet
11
The problem of extracting continuous structures from noisy or cluttered images is a difficult one. Successful
extraction depends critically on the ability to balance prior constraints on continuity and smoothness against
evidence garnered from image analysis. Exact, deterministic optimisation algorithms, based on discretized
functionals, suffer from severe limitations on the form of prior constraint that can be imposed tractably. This paper
proposes a sequential Monte-Carlo technique, termed JetStream, that enables constraints on curvature, corners, and
contour parallelism to be mobilized, all of which are infeasible under exact optimization. The power of JetStream is
demonstrated in two contexts: (1) interactive cutout in photo-editing applications,
and (2) the recovery of roads in aerial photographs.
Un poster très intéressant, autant par les applications montrées (détection de routes dans des
images aériennes, détection de vaisseaux sanguins) que par la technique utilisée (les 'particules' et
les 'particle filters' sont une technique de plus en plus populaire).
A simple and efficient template matching algorithm
Frederic Jurie, Michel Dhome
We propose a general framework for object tracking in video images. It consists in low-order parametric models for
the image motion of a target region. These models are used to predict the movement and to track the target. The
difference of intensity between the pixels belonging to the current region and the pixels of the selected target (learnt
during an off-line stage) allows a straightforward predic-tion of the region position in the current image. The
proposed algorithm allows to track in real time (less than 10ms) any planar textured target under homographic
motions. This algorithm is very simple (a few lines of code) and very efficient (less than 10 ms on a 150Mhz
hardware).
Un autre poster intéressant parce qu'il présentait également une démo où on pouvait voir du
tracking en temps réel. Un objet placé sous la caméra pouvait être tourné, déplacé, incliné avec
une vitesse assez grande et le tracking se poursuivait quand même. Assez impressionnant. Pas
robuste aux occlusions cependant.
Workshop Event 2001 "Detection and Recognition of Events in Video"
Ce workshop est beaucoup plus abordable techniquement que la conférence principale. Il permet
aux auteurs de présenter des résultats de recherche partiels, des idées, etc. et d'échanger avec les
participants. Trois thèmes ont été abordés:
-
Détection et tracking d'événements
Reconnaissance de gestes et d'actions humaines
Événements multi-modaux
Rien de vraiment intéressant pour nous à première vue. À revoir plus tard si on fait des choses en
vidéo ou avec l'équipe parole.
Workshop "Recognition, Analysis and Tracking of Faces and Gestures in Realtime Systems"
Ce workshop, lui aussi techniquement abordable de par sa nature plus applicative, semble avoir la
cote puisque les présentations étaient de qualité, il y avait des posters, et deux gros noms (R.
Chellappa, M.Turk) ont donné des présentations 'keynote' intéressantes.
-
Surtout de la reconnaissance du visage (~invariant en pose), du tracking de tête.
Le tracking de tête est avancé -> démos
Des choses peut-êtres intéressantes pour un éventuel projet avec Audisoft (à signaler, un
papier de Neti (IBM) sur la détection de 'prise de parole': une caméra observe un
12
locuteur placé devant un micro pour faciliter la détection de temps morts dans le signal
audio)
- Deux adresses de sites web qui ont été données pendant le workshop:
- www.choisser.com/faceblind : un document sur la prosopagnosie ("Forme isolée
d'agnosie visuelle caractérisée par l'impossibilité de reconnaître des personnes
connues par le seul biais de la perception visuelle de leurs visages. Les différences
d'un visage à l'autre sont reconnues, mais l'identification du visage est impossible.")
- www.vir2elle.org : pour envoyer un email visuel (un personnage synthétique fabriqué
à partir d'une image articule le texte).
International Conference on Information Fusion (Fusion 2001)
Montréal, 7-10 août 2001
Rapport de France Laliberté, étudiante PhD
Global challenges : data fusion at a grand scale
Bjarni V. Tryggvason, Canadian Space Agency, Canada
Those who have had the privilege to view the Earth from space have typically spoken of the breathtaking beauty of
our planet. The deep blue of the oceans, the pure white of the clouds standing in three dimensions over the surface
and the spectacular sunsets and sunrises. Natural processes such as erosion and volcanic activity are clearly seen.
The impact of mankind is also clearly visible. Borders between countries stand out from differences in land use.
Siltation resulting from deforestation colours shorelines. The conflict between satisfying energy needs and the
pressures from high population densities literally blanket much of the world in a brown haze.
A more thorough understanding of the Earth’s systems : the oceans, the atmosphere, the biosphere, its changing
landmasses, and the impact that mankind has on these; will enhance our ability to better resolve the conflicting
demands. Space technologies provided by Earth observation satellites and manned platforms offer a unique viewing
point with many advantages when integrated with traditional monitoring methods. Earth observation satellites
provide a unique platform for synoptic coverage of the Earth over large areas and extended time periods. The
technical challenge is to develop the tools to assimilate the huge quantity of data that the satellites generate and to
merge several types of observation to create a better systems understanding. The political challenge is to do this in
time to resolve the great conflicts before they become disasters at scales not yet imagined.
Conférence invitée d'une heure d'intérêt general. Présentation de différents satellites et de leur
utilité : météorologie, agriculture, ...
Information fusion in soccer-playing robots and service robotics
Gunther
Palm,
University
of
Ulm,
Germany,
ulm.de/SPARROWS/index.html
http://smart.informatik.uni-
The challenging problems of robot soccer are briefly described. They ask for improved methods and approaches
from artificial neural networks and information fusion. Two concrete examples of information fusion in neural
network architectures are presented : one for the problem of self-localization, one for the problem of audio-visual
word recognition.
Conférence invitée d'une heure. Présentation du projet RoboCup, lancé pour raviver la recherche
en intelligence artificielle, qui a pour but de développer, d'ici 2050, une équipe de robots
humanoides complètement autonomes pouvant battre les champions mondiaux de soccer. Six
pays participent à ce projet : Allemagne, Etats-Unis, France, Italie, Japon et Portugal.
13
A prototype system for 3D color fusion and mining of multisensor/spectral imagery
Allen Waxman, Jacques Verly, David Fay, Fang Liu, Michael Braun, Benjamin Pugliese,
William Ross, and William Streilein, MIT Lincoln Laboratory, USA
We have developed a prototype system in which a user can fuse up to 4 modalities (or 4 spectral bands) of imagery
previously registered to one another with respect to a 3D terrain model. The color fused imagery can be draped onto
the terrain to support interactive 3D fly-through. The fused imagery, and its opponent-sensor contrasts, can be
further processed to yield extended boundary contours and texture measures. Together, these layers of registered
imagery and image features can be interactively mined for objects of interest. Data mining for infrastructure and
compact targets is achieved using a point-and-click user interface in conjunction with a Fuzzy ARTMAP neural
network for on-line pattern learning and recognition. Graphical user interfaces enable the user to control each stage
of processing: image enhancement, image fusion, contour and texture extraction, 3D terrain characterization, 3D
graphics model building, preparation for exploitation, and interactive data mining. The system is configured as a
client-server architecture, enabling remote collaborative exploitation of multisensor imagery. Throughout, the
processing of imagery and patterns relies on neural network models of spatial and color opponency, and the
adaptive resonance theory of pattern processing. This system has been used to process imagery of a variety of
geographic sites, in order to extract roads, rivers, forests and orchards, and performance has been assessed against
manually determined ground truth. The data mining approach has been extended for the case of hyperspectral
imagery of hundreds of bands. This prototype system has now been installed at multiple US government sites for
evaluation by image analysts. We plan to extend this approach to include various non-imaging sensor modalities
that can be localized to geographic coordinates (e.g., GMTI and SIGINT). We also plan to embed these image fusion
and mining capabilities in commercial open software environments for image processing and GIS.
L'idée de leur méthode de fusion vient d'exemples biologiques : fusion visible/IR chez les
serpents et traitement de la couleur dans le système visuel humain. Intéressant. Présentation
d'une interface graphique, construite en partie à partir d'outils commerciaux (ERDAS Imagine,
RSI ENVI), qui passe du rehaussement d'images au "data mining".
Multifrequency and multiresolution fusion of SAR images for remote sensing applications
G. Simone, F. C. Morabito, A. Farina, University Mediterranea of Reggio Calabria, Italy
Alenia Marconi Systems, Italy, http://www.ing.unirc.it/index2.htm
In this paper we propose an integrated system to fuse images acquired by Synthetic Aperture Radars (SAR) at
various frequencies and resolutions. After a preprocessing step, that corrects the topography effects on the input
images, the fusion operation is carried out at two different levels: multifrequency and multiresolution. Each SAR
sensor acquires data about the inspected region by using more than one frequency; therefore, a processor that
exploits the information carried by multiple frequencies is needed: a technique based on the discrete wavelet
transform has been implemented and tested. The data are collected by sensors that scan the surface from multiple
heights, from different platforms, flying at different heights. After a co-registration step, by which all the images,
produced by the multifrequency fusing step, are referred to the same regular grid, the Multiscale Kalman Filter
method is used to fuse these multiresolution data. The performances are estimated by testing the proposed technique
on SAR data acquired on the San Francisco area (California, USA). The results are evaluated by estimating the
information flow from the input data to the output image, in terms of automatic recognition and detection of features
present in the acquired images.
Aucun des auteurs n'était à la conference, ils ont envoyé quelqu'un qui ne connaissait pas du tout
le sujet (il a même refusé de répondre aux questions) pour présenter l'article ... Les images
acquises par le même senseur à différentes fréquences ou polarisations sont fusionnées avec la
méthode de Burt (Burt, P. J., Kolczynski, R. J., "Enhanced image capture through fusion", Proc.
of Computer Vision, pp. 173-182, 1993). Les images résultantes sont recalées en choisissant
manuellement 3 points. Ensuite la méthode "Multiscale Kalman Filter" est utilisee pour fusionner
ces images multirésolutions.
14
Gradient descent techniques for multitemporal and multisensor image registration of remotely
sensed imagery
Roger D. Eastman, Jacqueline Le Moigne, Loyola College in Maryland, USA, NASA/Goddard
Space Flight Center, USA, http://penduick.gsfc.nasa.gov/~lemoigne/
Gradient-descent algorithms have been successfully applied to many applications of computer vision, such as stereo
matching, object recognition and medical image registration. Our work focuses on applying these techniques to
remote sensing image data with a particular emphasis on data acquired under different conditions, such as multitemporal or multi-sensor data. While most previous work has focused on the geometric component of image
registration, our research also deals with the radiometric component associated with different viewing conditions;
e.g., different seasons or different atmospheric conditions for multi-temporal data, or different wavelengths for
multi-sensor data. In this paper, we will show how preprocessing can detect these variations, and we will highlight
the algorithms implications when taking into account this radiometric component. Test data include images from the
AVHRR, GOES, SeaWIFS, Landsat-7 ETM and IKONOS sensors.
Le but général de ce projet de recherche est d'implémenter et d'évaluer différents algorithmes de
recalage pour en faire un "toolbox" utilisable par les chercheurs en télédetection de la NASA.
Eastman et son equipe teste l'algorithme de "gradient descent" alors que d'autres equipes
(Johnson, Stone) testent des algorithmes d'information mutuelle et d'ondelettes. Le principal
avantage de la méthode de "gradient descent" est le potentiel d'aller chercher une précision
subpixel de 1/32 pixel pour des données idéales. Cependant, elle ne s'applique que dans le cas ou
les transformations géometrique et radiométrique sont petites.
Fusion of visible, infrared and 3D LADAR imagery
David A. Fay, Allen M. Waxman, Jacques G. Verly, Michael I. Braun, Joseph P. Racamato, and
Carl Frost, MIT Lincoln Laboratory, USA
We have extended our previous capabilities for fusion of multiple passive imaging sensors to now include 3D
imagery obtained from a prototype flash ladar. Real-time fusion of SWIR + uncooled LWIR and low-light visible +
LWIR + 3D LADAR is demonstrated. Fused visualization is achieved by opponent-color neural networks for passive
image fusion, which is then textured upon segmented object surfaces derived from the 3D data. An interactive
viewer, coded in Java3D, is used to examine the 3D fused scene in stereo. Interactive designation, learning,
recognition and search for targets, based on fused passive + 3D signatures, is achieved using Fuzzy ARTMAP
neural networks with a Java-coded GUI. A client-server, web-based communication architecture, enables remote
users to interact with fused 3D imagery via a wireless palmtop computer.
Même groupe de recherche que celui de l'article #3. Dans deux articles précédents ils ont montré
qu'un opérateur trouve les cibles plus facilement si l'image fusionnée est présentée en couleur
plutôt qu'en niveaux de gris. Dans cet article ils présentent une méthode de fusion inspirée du
rehaussement de contraste effectué par les cellules bipolaires de la rétine à partir des données
fournies par les cones L, M et S.
Neurophysiologically-motivated sensor fusion for visualization and characterization of medical
imagery
Mario
Aguilar,
Aaron
L.
Garrett,
Jacksonville
State
University,
USA,
http://ksl.jsu.edu/projects/medical/fusion.html
We describe an architecture for the fusion of multiple medical image modalities based on the organization of the
color vision system in humans and primates. Specifically, the preprocessing of individual images and the fusion
across modalities are based on the neural connectivity of retina and visual cortex. The resulting system enhances the
original imagery, improves information contrast, and combines the complementary information of the various
modalities. The system has the ability to both enhance and preserve important information. In addition, the fused
imagery preserves the high spatial resolution of modalities such as MRI even when combining them with poor
resolution images such as SPECT scans. Results of fusing various modalities are presented, including: a) fusion of
15
functional MRI images, b) fusion of SPECT and MRI, c) fusion of visible and infra-red endoscopic images. We
conclude by discussing our recent results on utilizing multi-modality fused signatures for segmentation and pattern
recognition.
Application médicale de la même méthode de fusion que les articles #3 et #6; la méthode est
mieux décrite dans cet article.
Forum de transfert du Fonds FCAR-Action concertée RADARSAT
Québec, 21août 2001
Rapport de Langis Gagnon, chercheur sénior
Ai assisté, avec Mario et Steve, au Forum de transfert du Fonds FCAR - Action concertée
RADARSAT, qui s'est tenu à l'Université Laval le 21 août 2001, en marge du congrès annuel de
l'Association Québécoise de Télédétection. L'action concertée RADARSAT a été mise en
oeuvre en 1998 dans le cadre de l'Entente Canada-Québec sur le développement et l'utilisation
des données RADARSAT. Le programme, qui est maintenant terminé, a permis de soutenir les
projets de 7 équipes de recherche regroupant environ 34 chercheurs et 6 collaborateurs des
milieux de pratiques. Le budget moyen alloué aux équipes était d'environ 90 K$ sur 2 ans. La
journée avait pour but de faire connaître les résultats des recherches réalisées dans le cadre de
cette Action concertée.
Titres et commentaires des communications présentées:
Intégration de l'imagerie RADARSAT pour le suivi hydrique des terres agricoles
Alain Viau, U. Laval
Très orienté agroalimentaire. Peu de contenu d'intérêt pour l'équipe.
Détection et classification des milieux humides à partir des imagesRADARSAT-1
Monique Bernier, INRS-Eau
Une partie de ce travail a consisté à mettre au point un classificateur à réseau de neurones basé
sur des attributs de 18 textures. Ce classificateur semble performer de façon équivalente à un
classificateur par maximum de vraisemblance, avec l'avantage cependant d'utiliser que 2 images
RADARSAT (mode S1 et S7) au lieu de 3. Les détails du classificateur devaient être présenté au
congrès de l'AQT.
Application géomatique de RADARSAT à l'observation des risques d'inondation et d'érosion dans
le sud du Québec
Ferdinand Bonn, U. de Sherbrooke
Très orienté géophysique. Peu de traitement d'images.Beaucoup de mesure sur le terrain dont
une mesure de rugosité assez ingénieuse: un série de tiges métalliques parallèles d'égales
longueurs déposées perpendiculairement à la surface du terrain. La position de l'extrémité des
tiges donne un signal 1D dont le spectre fournit l'information de rugosité. On a aussi appris que
16
le CRIM était aussi un acronyme pour un indice de taux de recouvrement du sol par la
végétation!
Système prototype pour le suivi des changements de l'occupation du sol par fusion de l'imagerie
RADARSAT et d'autres données d'observation de la Terre
François Cavayas, U. de Montréal
Projet très intéressant et très pratico-pratique. Orienté utilisateur. Application à la mise-à-jour
des rôle d'évaluation municipaux. François a aussi donné un très bon résumé des forces et
faiblesses du contenu radiométrique des images RADARSAT.
Intégration de RADARSAT et du GPS pour les changements dynamiques du relief
Geoffrey Edwards, U. Laval
Excellent présentation donnée par Frédéric Vincent (étudiant au PhD). Le projet implique surtout
de l'interférométrie radar pour la surveillance de certains mouvements du sol, p. ex. glissement de
terrain et mouvement de glaces. C'est dans ce dernier cas que les résultats ont été les plus
prometteurs. Un condition importante pour appliquer les principes d'interferométrie avec des
données radar est que les propriétés physique (p. ex. humidité) du terrain soient les même entre
les 2 acquisition d'images. Ce qui est particulièrement difficile pour un satellite radar car
l'apparence de l'image dépend de l'humidité du sol.
Détection des cibles en milieu forestier: fusions d'informations multisources
Gose Bertin Bénié
Superbe travail d'analyse de scènes, impliquant l'extraction de caractéristiques de bas niveau
(contour, textures, etc.), les systèmes multiagents et la fusion d'information par la théorie de
Dempster-Shafer. Le principal élément de l'équipe de Goze Bertin est Samuel Foucher qui
travaille maintenant pour le partenaire industriel du projet: Technologies SEPIA (St-Jean-sur-leRichelieu). J'aurai l'occasion de rencontrer Samuel dans qq semaines à Sherbrooke lors de la
soutenance de sa thèse de PhD.
L'utilisation des bases de données multisources pour l'identification automatisée des points de
contrôle sur les images RADARSAT
Keith P. B. Thomson, U. Laval
La présentation a été faite par Isabelle Couloigner, maintenant prof. Au département de
Geomatics Engineering de Calgary. La sélection de points de contrôle est nécessaire pour les
applications de recalage d'images et d'orthorectification. Le travail tente de démontrer que
l'information (ou plutôt l'absence d'information) radiométrique des cours et plans d'eau dans les
images radar pouvait être exploitée pour la sélection automatique de points de contrôle. Les
résultats sont encourageant mais l'utilisation des plans d'eau ne garanti pas une bonne uniformité
dans la distribution des points de contrôle. L'utilisation de ce concept en région urbaine est aussi
douteux. Comme le reconnaissait Isabelle, il y a beaucoup de travail à faire encore.
Séance pléniaire
Les discussions ont tourné autour des points suivants:
17
-
Pertinence de relancer un programme semblable pour RADARSAT-2. Semble assez
certain d'après le représentant de l'Agence spatiale canadienne.
Durée des projets. En général, les chercheurs auraient préférés des projets à plus long
terme. Beaucoup de retard causé par l'attente de l'obtention des images.
Niveau de financement des projets. Sur ce point, la discussion a rapidement dévié sur la
rétention des étudiants au niveau gradué. Le financement doit assurer un salaire adéquat
au étudiant si non ceux vont en industrie.
Symposium Canadien de Télédétection
Québec, 21-24 août 2001
Rapport de Mario Beaulieu, agent de recherche
Le symposium canadien sur la télédétection est organisé à chaque année par l'Institut
Aéronautique et Spatial Canadien (IASC/CASI, http://www.casi.ca/). Il regroupe les différents
intervenants oeuvrant dans le domaine de la télédétection au Canada : universités, industries,
centres de recherche et l'agence spatiale canadienne. Cette année le symposium se tenait à
Québec et a été organisé en conjonction avec l'AQT (Association Québecoise de Télédétection,
http://callisto.si.usherb.ca/~aqt/).
Le compte rendu présente certaines des présentations les plus intéresantes de cette conférence.
Radarsat-2 - Mission Update
Hans Baeggli (MDA), Luc Brûlé (ASC)
Cette conférence donnait des informations sur la construction du futur satellite Radarsat-2. Ce
satellite est un capteur radar actif qui permettra de continuer le travail commencer avec les
données de RSAT1, mais en augmentant les capacités du satellite. RSAT2 pourra acquérir des
images en mode ultrafin (3m x 3m) sur un swath de 20 km (mais limité sur des angles
d'incidences de 30 à 40 degré pour ce mode). Le mode ultrafin sera utile dans l'identification des
objets, la surveillance des bateaux, l'agriculture de précision, etc? RSAT2 pourra transmettre
alternativement et simultanément en polarisation (linéaire) verticale et horizontale offrant la
possibilité d'acquérir des images en mode multi-polarisation (HH, VV, HV et VH). Ce qui devrait
permettre une meilleure classification des surfaces grâce aux signatures polarimétiques et
d'améliorer les mesures des propriétés bio-géophysiques de la surface terrestre. Notons aussi la
possibilité d'acquérir des images sur les deux côtés du satellite. Le présentateur a annoncé
certains délais dans le lancement du satellite à cause de changements majeurs au niveau des
fournisseurs d'équipements. Le lancement est prévue pour l'an 2003. Pour plus de détail :
(http://radarsat.mda.ca/)
A Lifetime Radiometric Calibration Record for the Landsat Thematic Mapper
P.M. Teillet, CCRS
Cette conférence portait sur la calibration des images Landsat-5 en fonction du nouveau Landsat7. LSAT5 a été lancé en 1984 et la mise en concordance radiométrique avec LSAT7 permettrait
d'avoir un ensemble de données satellitales couvrant près de 20 ans. Ce qui offrirait la possibilité
18
de faire des études sur les changements de la surface terrestre sur une longue période de temps et
à une résolution intéressante de 30 mètres. La difficulté de la cross-calibration provient de la
différence entre les bandes TM de LSAT5 et ETM de LSAT7 qui ne sont pas exactement les
mêmes. Une acquisition en mode tandem a été effectuée permettant de mettre au point une
équation de recalibration des données de LSAT5 en fonction de LSAT7. Des études sont en cours
afin de valider la qualité de la méthodologie.
Forest Classification by Multiple-Forward-Mode 5-Scale Modeling
D.R. Peddle
Cette conférence présentait les résultats d'une méthode de classification semi-automatique
permettant de lier au processus de classification, des modèles de structures des espèces forestières
et de réflectances. Cette méthode a été comparée avec les résultats obtenus par la méthode ECM
utilisée pour la construction d'une mosaïque LSAT d'une région forestières dans l'ouest Canadien
(projet BOREAS). La méthode ECM est assez précise mais demande beaucoup de temps et
d'interventions externes. La comparaison des deux méthodes (91% ECM et 85% MFM) montre
que MFM est moins précise mais donne de bon résultat. Mais elle offre la possibilité de semiautomatisée le travail de classificaton des mosaïques d'images.
Utilisation of contour criteria in micro-segmentation of SAR images
J.M. Beaulieu, U. Laval
Ce chercheur a présenté une méthode automatisée de segmentation des images radar qui utilisait
une approche hiérarchique d'agrégation des micro-segments. À la base cette méthode est très
sensible au speckle. À fin de réduire cette sensibilité des critères géométriques supervisent la
phase d'agrégation des micro-segments. Le périmètres et la surface des micro-segments ainsi que
la longueur des frontières communes entre le micro-segments permettent d'identifier quels microsegments doivent être agrégés ensemble. La méthode a été appliquée sur des images ERS de
champs agricoles. Les résultats obtenus étaient intéressants car elle semblait permettre de bien
segmenter les parcelles agricoles sans filtrage préalable des images satellites.
Satellite image fusion with multi-scale wavelet analysis : preserving spatial information and
minimizing artefacts (PSIMA)
Yong Du, CCRS
Cette méthode de fusion s'inspire étrangement de la méthode ARSIS de Ranchin mais appliquée à
la fusion des images scansar et noaa. Ce qui était étonnant c'est que le présentateur ne connaissait
pas les travaux de Ranchin (1993)! L'intérêt de cette conférence était dans la démonstration de
l'application de la méthode avec l'imagerie radar et optique.
Conclusion
La plupart des conférences du symposiums portaient sur l'utilisation des images comme mesure
bio-géophysique des objets sur la surface terrestre, et sur le traitement du signal : par exemples
l'agriculture de haute précision, la calibration etc.... Très peu de conférences portaient sur la
reconnaissance de forme. Certaines présentations sur les nouveaux capteurs à haute résolution ont
été annulées. Comme par exemple sur le satellite Israélien EROS (panchromatique 1m). Les
données auraient été, semble-t-il, disponibles gratuitement!
19
Le 24ième symposium se tiendra au mois de juin 2002 à Toronto. Ce symposium sera sûrement
plus gros et plus intéressant, car il se tiendra en même tant que IGARSS2002.
(http://www.igarss02.ca/)
Advances in Synthetic Aperture Radar 2001 (ASAR2001)
St-Hubert, 1-3 octobre 2001
Rapport de Langis Gagnon, chercheur sénior
L'atelier ASAR est organisé depuis 1997 par l'Agence Spatiale Canadienne afin d'évaluer
l'avancement de la technologie SAR. Le Canada est particulièrement actif dans ce domaine à
travers le programme RADARSAT et en tant que membre participant de l'ESA. Les experts
internationaux on fait le point sur les plus récentes missions (SRTM, ENVISAT) ainsi que les
missions à venir ou en prépartion (Radarsat-2, TerraSAR, COSMOS, etc). L'atelier a porté aussi
sur le développement de la technologie RSO polarimétrique et de ses applications possibles. Une
emphase particulière a été donnée sur l'utilisation des données polarimétiques du futur satellite
RADARSAT-2 .
Spaceborne Earth Observation: A Business-oriented Perspective
John MacDonald, fondateur de MDA,
Le modèle d'affaire purement commercial en imagerie satellite n'est pas encore viable parce que
les coûts de fabrication et de lancement d'un satellite imageur sont encore trop élevés. C'est une
industrie qui sera toujours tributaire des gouvernements comme clients majeurs. Les avantages
compétitfs de l'imagerie satellite sur l'imagerie aéroportée sont: 1) le monitoring de la planète
entière, 2) le monitoring de routine, 3) le monitoring de régions à accès restreint et 4) le
monitoring à des endroits non-prévisibles. Ces avantages sont particulièrement importants pour
les secteurs de l'ENVIRONNEMENT et de la SÉCURITÉ.
The Radarsat-2 Program Update
Luc Brulé, directeur scientifique du programme Radarsat-2
Le programme a pris un retard important à cause de problématique de sécurité nationale soulevé
par les États-Unis. Le lancement est maintenant prévu pour 2003. MDA est responsable de la
construction et du lancement du satellite. RSI, une filiale de MDA, est sera responsable de la
distribution des données. EMS Technologies est le principale sous-contracteur pour la
développement de la charge utile (payload) du satellite. L'innovation majeure de Radarsat-2 sera
la prise d'images polarisées qui permettra entres autres, de classifier plus précisément les cultures
et les glaces.
ENVISAT
M. Zink, ESA
Le lancement d'ENVISAT est retardé jusqu'au début 2002. Possibilité de soumettre des projets de
R-D (http://projets.esa-ao.orf)
20
Algorithms for processing RADARSAT-2 Data
A. Thompson, MDA, Canada
Cette conférence discutait dans un premier temps des différences entre le satellite Radarsat-1 et
Radarsat-2 du point de vue de la fréquence radar (5.3 GHz vs 5.4 Ghz ), des modes
polarimétriques d'aquisition (HH vs HH,VV,HV,VH), des modes angulaires et de la résolution du
faisceau (8m à 100m vs 3m à 100m). La seconde partie portait sur les implications techniques des
nouvelles possibilités de RSAT2 et des changements qu'il a fallu faire au niveau des composantes
du satellite et de la manière que l'antenne doit gérer l'émission et la réception du signal en tenant
compte des polarisations croisées (HV, VH). Pour plus de rensignements : http://radarsat.mda.ca/
Unsupervised classification of polarimetric SAR images
J.S. Lee, USA
L'auteur a présenté une méthode de classification non-supervisée appliquée sur des images SIR-C
polarimétrique du AIRSAR du JPL. Cette méthode itérative se décompose en deux parties : 1)
Classification non-supervisée des images polarimétriques décomposées par la méthode de Cloude
et Potter. Cette étape permet de créer une classification initiale comme site d'entraînement pour
la seconde étape. Les classes sont au nombre de quatre : les doubles retours, les retours
volumétriques, les retours de surface, et autres. 2) Classification par le classificateur Wishart
complexe. À partir des sites d'entraînement on classe les pixels des images décomposées par le
classificateur de Wishart. Cette nouvelle classification est de nouveau utilisée comme site
d'entraînement et on classifie de nouveau les images. Un critère de convergence arrête l'itération.
L'avantage de cette méthode est dans sa complète automatisation et de son interprétation basée
sur les méchanismes de diffusion de chaque classe.
Polarimetric techniques for change detection
D. Corr, QinetiQ Ltd, UK
Le présentateur a montré que l'utilisation de la mesure de cohérence entre différentes images
permettaient de détecter les changements entre elles. Trois acquisitions SAR aéroportés prises à
trois temps différents ont montré le potentiel pour voir des changements fins en fonction du
temps, par exemple les automobiles dans un parking. Comme on si attendait, plus le temps entre
deux acquistions sera grand, plus de changements seront détectés car la cohérence entre les
images a tendance à diminuer avec le temps, à moins que les objets demeurent identiques sur les
images.
Computer Vision and Pattern Recognition 2001 (CVPR2001)
Kauia, Hawaii, 9-14 décembre 2001
Rapport de Langis Gagnon, chercheur sénior
Commentaires en vrac
21
-
-
-
-
33% des articles soumis ont été acceptés pour présentation
Ai assisté à 2 cours, 1 workshop et une vingtaine de présentations
"Buzz words": Relevance Feedback (feedback de l'usager dans un système de recherche
d'images par contenu), Intelligent Scissors (edge tracker; le tracking dual de Marc
tombe dans cette classe), Support Vector Machine (classificateur bi-classes introduit par
Vapnik en 98; beaucoup utilisé en cascade); Shape Context (un nouveau descripteur de
forme qui encode un contour dans un histogramme 2D)
Discussion avec V. Gouet et N. Boujemaa (INRIA): Descripteurs globaux avec
orientations (textures, histogrammes, etc.) semblent appropriés pour classer les
différentes scènes naturelles
Une seule présentation pléniaire!: Rick Rashid (Head, Microsoft Research); présentation
plutôt "flash" avec beaucoup de démos: artificial singing, AskMSR (robot de recherche
par question qui analyse le texte avant de donner une réponse; démo avec questions
rigolottes comme "what is the meaning of life"), ring Camera pour téléconférence,
speech recognition chez MS Asia (la meileure technique selon lui!?), environment
sensing (détection de l'action chez une personne...p.ex. personne au téléphone, personne
en train de discuter, etc.). Données de croissance: storage 8x supérieur depuis 4 ans,
carte graphique 100x plus rapide depuis 3 ans, demande en bande passante: 64x depuis
3 ans, double chaque 6 mois. Toy Story: 10 Mtriangles/frame, XBOX: 150
Mtriangles/frame. Le future: ordinateur qui intègre handwriting, speech, natural
language processing et computer vision. Prévoit le TeraByte PC vers 2004. TerraServer
(images haute résolution de la Terre).
Beaucoup de représentant de Microsoft Research Asia
CD disponibles: TOUS les Workshops, TOUS les démos, TOUS les short courses,
Proceedings disponibles sur papiers et CD
Beaucoup de papiers sur level-set
Beaucoup de traitement au niveau des pixels (la puissance des machine permet de le
faire maintenant)
Présentation spéciale du Prof. Robin Murphy du CRASAR (Center for Robot-Assisted
Search and Rescue) à USC sur le
S&R assisté par robot dans les tours du WTC. Vidéo montrant tout! 75 heures de tape
disponible (www.crasar.org) pour la recherche. Beaucoup de problémes très difficile de
vision à résoudre (navigation, object recognition; les objets sont déformés...,
visualisation des structures, localisation 3D, fusion de senseurs, etc)
Cours sur la reconnaissance de visage
B. Moghaddam, Mitsubishi Electric Research
Beaucoup de participants. Évolution des techniques: figures features (largeur du nez, couleur des
yeux, etc), réseau de neurones, représentation sur des sous-espaces (p. ex. PCA (première
composantes plus sensibles à l'illumination), Linear Discriminant Analysis (plus robuste au
changement d'illumination), Independant Componants Analysis (plus robuste que PCA au bruit)),
(local) template matching, modèles 3D. Les problèmes ouverts: pose, illumination,
environnements non-contrôlés. Programme FERET de DoD permis d'identifier les 2 ou 3
meilleures méthodes actuelles; c'est le protocole référence pour les mesures de performances.
22
Cours sur les Image Search Engines
Theo Govers, ISIS
Peu de participants (10) malgré un important nombre d'inscription (50)! Revue des principaux
descripteurs. Accent sur les descripteurs de couleurs; espace de couleurs le plus approprié pour
un tâche spécifique; classification des contours (changement de matériel, réflexions spéculaires,
ombres); rapport de couleurs pour les scènes externes. Utilise la technique du Split and Merge
pour la localisation des objects. Survol très court de qq systèmes (QBIC, IMAGEROVERS,
PICTURE FINDERS, PARISS, EXCALIBUR). Benchmarking sous peu (voir conférence de
SPIE - Internet Imaging)
Quelques articles particulièrement intéressants
-
Spatial Information in Multiresolution Histograms (Poster Session 1),
Shape Contexts Enable Efficient Retrieval of Similar Shapes (Poster Session 1),
On the Individuality of Fingerprints (Poster Session 1),
Houghing the Hough: Peak Collection for Detection of Corners (Poster Session 4),
Eliminating Ghosting and Exposure Artifacts in Image Mosaics (Poster Session 4),
Instant Dehahazing of Images Using Polarization (Oral Session 5A),
Separation of Diffuse and Specular Reflection from Color Images (Oral Session 5A),
Navier-Stokes Fluid Dynamics and Image and Video Inpainting (Oral Session 5A),
Extraction of Illusory Linear Clues in Perspectively Skewed Documents (Oral Session
5A),
Detection and Tracking of Shopping Groups (Oral Session 6A),
Segmentation and Boundary Detection Using Mulriscale Intensity Measurements (Oral
Session 6B),
A Confidence Measure for Boundary Detection and Object Selection (Oral Session 6B),
Rapid Object Detection using a Boosted Cascade of Simple Features (Oral Session 7A),
A Fast Image Segmentation Algorithm for Interactive Video Hotspot Retrieval
(Workshop on CBIR)
Object-based Queries using Color Points of Interest (Workshop on CBIR)
Photonics West 2002
San Jose, 19-25 janvier 2002
Rapport de Valérie Gouaillier, agente de recherche
Internet Imaging III
-
-
Beaucoup de collections d’images sont rendues disponibles sur Internet (ex. : collections
d’images diffusées par les musées). C’est pourquoi, beaucoup de présentations touchaient
des problèmes de recherche d’image par contenu (RIC).
Images couleur par Internet (aucune connaissance du système d'affichage de l'usager).
Encodage et constance des couleurs.
4672-01 : Natural image database and illuminant classification research (Invited
Paper) S. Tominaga, Osaka Electro-Communication Univ. (Japan.) A développé
23
-
-
-
une banque d’images couleur disponible sur Internet (www.osakac.ac.jp/labs/shoji)
spécifiant les conditions d’acquisition et la gamme d’illumination de la scène. Permet
la classification de l’illumination d’images couleurs par correlation entre la gamme
calculée de celles-ci (convex hull des pixels dans le plan (R,B)) et les gammes
mesurées des images de référence.
4672-33 : Color encoding for image databases. S. E. Süsstrunk, École
Polytechnique Fédérale de Lausanne (Suisse). Étude des questions reliées à
l’encodage des couleurs pour la capture, la maintenance et le déploiement d’images
numériques dans une base de données.
Applications en temps réel impliquant la transmission d'images. Voici un exemple qui a
été présenté :
4672-02 : Two approaches for applet-based visible human slice extraction. S.
Gerlach, R. D. Hersch, École Polytechnique Fédérale de Lausanne. Système
permettant la navigation interactive, en temps réel, dans une représentation 3D d’un
corps humain, en affichant la vue anatomique (slice) correspondante (disponible sur
http://visiblehuman.epfl.ch). Deux architectures client-serveur proposées pour la
transmission des images : 1) les vues anatomiques sont extraites sur le serveur et
transmises (compressées) au client (fat server), 2) des volumes 3D à différentes
résolutions sont transmises par le serveur et l’extraction de la vue anatomique est
faite par le client (fat client).
Nouveaux périphériques sans fil.
o Ex. : Téléphones cellulaires à affichage (i-mode) impliquent nouvelles règles de
conception et diffusion du contenu.
Animation
Pseudo 3-D (visites virtuelles) :
4672-08 : Extensive Pseudo 3-D spaces with Superposed Photographs, H. Tanaka,
M. Arikawa, R. Shibasaki. Outil permettant de naviguer dans des espaces 3-D
recréés par un collage de photos. Effet assez intéressant malgré la simplicité de la
technique. Pour des applications amateures.
Storage and Retrieval for Media Databases 2002
-
-
-
Comme le contenu multimedia augmente et les coûts de stockage et de traitement
diminuent, les banques d’information, et notamment d’images, sont de plus en plus
volumineuses. Plusieurs participants disaient travailler avec des terabytes d’information.
Un conférencier affirmait que les applications devraient être testées sur des banques
d’images d’au moins 5 terabytes.
La recherche se penche donc sur l’architecture de banques d’images : stockage et
récupération (retrieval). Deux approches pour l’indexation :
o Annotation
o Caractéristiques visuelles.
N.B. Pour le moment, l’indexation basée entièrement ou partiellement sur les
annotations permet des recherches plus complexes que la recherche d’images par
contenu (RIC).
Description d’une image :
o Syntaxique : caractéristiques visuelles, segmentation.
o Sémantique : relation entre les objets, signification.
24
-
-
-
Le niveau sémantique est évidemment le plus complexe et le plus difficile à
automatiser. Rien de très concluant ne semble fait à ce niveau.
Annotation :
o Déterminer un lexique et une structure d’annotation efficaces et faciles à utiliser
(les annotateurs doivent souvent être formés).
4672-24 : Testing a vocabulary for image indexing and ground truthing. C.
Jorgensen, P. Jorgensen, Univ. at Buffalo (4672-24).
Élaboration d’un lexique visuel composé des termes les plus pertinents à partir
d’une étude des descriptions d’images faites par les humains (description libre,
description pour récupération, description de mémoire). Fait intéressant :
l’annotation manuelle des caractéristiques visuelles de bas niveau (couleurs,
régions, etc.) est ce qui prend le plus de temps, alors que ce sont les plus faciles à
encoder automatiquement.
o Annotation automatique (outils d’aide à l’annotation, interfaces la facilitant)
o Propagation des annotations (les premières images sont annotées à la main et le
système propage les annotations aux nouvelles images présentant des similarités).
Pour le moment, c’est ce qui pourrait avoir le plus d’applications pratiques pour
les usagers.
Certaines caractéristiques visuelles utilisées :
o Couleur : histogramme de couleurs, vecteur de cohérence de couleurs, couleur
dominante.
o Forme : détection d’arêtes.
o Texture : approches statistiques, matrice de co-occurence, approches structurales,
BDIP et BVLC (voir 4676-07).
4676-09 : Compressed domain indexing of losslessly compressed images. G.
Shaefer, Nottingham Trent Univ. (UK). Contrairement à la majorité des
techniques qui indexent les images avant compression, la méthode présentée
utilise la différence de prédiction sur les pixels dans JPEG-LS-7 comme
descripteur de texture et la longueur des codes de Huffman pour un premier triage
des images. Permet d’éviter l’étape de décompression de l’image lors de
recherche. Probablement une bonne avenue pour les applications web.
o Mouvement
Requête : 3 modes :
o Mode libre : recherche par spécification (mots-clé ou caractéristiques visuelles).
o Mode guidé : recherche par exemple (le système extrait à partir d’un exemple
d’image les caractéristiques à rechercher). Tendance : l’usager ne devrait pas
avoir à fournir un exemple d’images; le système devrait suggérer un sousensemble de la banque d’images à partir duquel l’usager peut indiquer les plus
similaires à sa requête.
o Mode de navigation : l’usager explore la banque d’images.
4676-35 (Très intéressant) : Three-dimensional browsing environment for
MPEG-7 image databases. T. Meiers, T. Sikora, I. Keller, Heinrich-HertzInstitute for Communication Technology, Berlin. Les images sont affichées dans
un espace 3-D à travers lequel l’usager navigue (semble permettre une navigation
assez intuitive). La distance euclidienne dans l’espace 3D correspond à la
distance en similarité des images. La similarité est mesurée par une version
modifiée de la distance de Mahalanobis qui est ajustée en fonction des images
25
-
-
jugées pertinentes par l’usager (relevance feedback). Une structure hierarchique
(arbre de représentants) permet une récupération des images à partir d’une vue
globale de la banque d’images jusqu’à une vue plus raffinée.
Similarité :
o Comment retrouver les images similaires à la requête d’un usager? La similarité
entre deux images est très subjective et varie d’une personne à l’autre.
Œ Définir les critères de similarité
Œ Établir une mesure de similarité (ex. : distance de Minkowski,
Mahalanobis)
Œ Permettre une rétroaction de l’usager pour valider la pertinence des images
retrouvées (relevance feedback) : permet d’orienter la recherche en
s’approchant des images pertinentes et s’éloignant des images non
pertinentes. Nouvelle tendance : l’usager spécifie sa préférence sur l’image
globale plutôt que d’accorder des poids à chaque caractéristique visuelle;
le système déduit les caractéristiques prépondérantes. Comment
déterminer, à partir de sa rétroaction ce que l’usager recherche?
4676-06 : Logistic Regression Models for Relevance Feedback in
Content-Based Image Retrieval. G. Caenen, Katholieke Univ. Leuven, E.
J. Pauwels, Ctr. Voor Wiskunde en Informatica. Le système propose des
images tirées de la banque. À chaque itération, l’usager départage les
images qu’il juge similaires à sa requête des images contre-exemples. La
relation implicite entre la pertinence (1 ou 0) des images et chaque
caractéristique d’une image est modélisée par régression logistique
(modèle quadratique) et est généralisée à toutes les images de la banque.
Les prochains exemples d’images sont sélectionnés en fonction de ce
modèle. Seules les caractéristiques offrant le meilleur « fit » sont retenues,
car elles présentent un meilleur pouvoir descripteur de la requête de
l’usager.
4672-26 : Supporting subjective image queries without seeding
requirements : proposing test queries for benchathlon. E.Y. Chang, K.T.
Cheng, Univ of California. Les caractéristiques permettant de mieux
décrire la requête de l’usager sont déduites par le système. La démo
semblait donner des résultats intéressants, mais l’algorithme de relevance
feedback n’a pas été présenté, car il fait l’objet d’un article présentement
sous révision. À surveiller.
Les applications + systèmes existants :
o 4676-04 (intéressant) : Automatic classification of images on the Web, A.
Hartmann, R.W. Lienhart, Intel Corp. Discrimination photos vs graphiques,
photos réelles vs images de synthèse et présentation (slides) vs bandes dessinées.
o Applications en biologie : voir 4676-12, 4676-44
o 4676-46 : World’s largest visual intelligence platform (Presentation Only). R.
Seeber, Cobion AG (Germany). Reconnaissance/détection de visages, OCR
(jusqu’à 90° de rotation), détection de logos (watermarks), filtrage de contenu
(ex. : nudité). Selon le présentateur, l’avenir commercial de la RIC est dans la
recherche d’objets concrets (ex. logos, visages, etc.) et non couleurs, mouvement,
etc. (www.cobion.com).
o Applications vidéo :
26
Œ
Œ
-
Analyse : détection de changement de plan, de scène, classification, etc.
Synthèse (« video summarization ») : extraction automatique des sections
importantes dans un vidéo (ex. : les buts dans un match sportif).
Œ Indexation et recherche.
Benchmarking :
o 4676-43 (Présentation très intéressante) : Benchmarks for storage and retrieval
in multimedia databases. D. A. Forsyth, Univ. of California/Berkley. Qu’est-ce
qu’un système performant ? Un système qui fait correctement ce pour quoi il a été
conçu ou qui fait ce que les usagers désirent? Il existe un fossé entre ce que nous
pouvons faire en RIC et ce que les gens veulent faire. Axes de recherche à
développer : organisation de collections d’images, navigation, utilisation des
techniques de data mining pour dégager les composantes significatives de
l’information. Il faudrait s’intéresser un peu plus aux études faites sur les usagers
(ref. P. Enser).
o Groupe de benchmarking :
The Benchathlon Network (http://www.benchathlon.net/)
Regroupement international pour développer une plateforme de benchmarking
pour les systèmes de RIC. Buts : Structurer et encadrer la recherche et l’évaluation
objective de la RIC, fournir une banque d’images gratuite et des outils de test.
Multimedia Security : Crytography and Watermarking
Edward J. Delp
Un contenu numérique : 1) est facile d’accès (Internet et intranets), 2) facile à copier et la copie
produite est identique à l’original, 3) facile à modifier/falsifier. Ce cours présentait et comparait
les différents outils de sécurité de contenu multimédia : cryptage, authentification, hachage
(« hashing »), datage (« time-stamping »), marquage numérique (« watermarking »).
- Partie I : Cryptographie
Survol des notions de cryptographie : code, message/cryptogramme, cryptanalyse
(décryptage), algorithmes de cryptage à clé privée (Data Encryption Standard (DES),
Advanced Encryption Standard (AES), IDEA, Twofish, TEA, etc.), algorithmes de
cryptage à clé publique (Knapsack, Discrete Log, RSA, Elliptic Curve methods), block
ciphers, stream ciphers, protocole (protection et certification des clés, attaques au
protocole), contrôle légal pour l’exportation de logiciels et matériel de cryptage,
signatures électroniques, datage, « hash function ».
- Partie II : Watermarking
Stéganographie, watermarking, fingerprinting, buts, principes directeurs (transparence,
robustesse, capacité), techniques (spatiale, sub-band (wavelet), modulation des
coefficients DCT, watermarks visibles), watermark fragile (permet de détecter l’altération
d’un contenu), types d’attaques, watermarking vs time-stamping, problèmes soulevés par
le watermarking de vidéo, standards, produits commerciaux. Applications pour l’avenir :
watermarking fragile?
Color Imaging on the Internet
Giordano Beretta
Ce cours aborde tous les aspects de la transmission d’images couleur dans des réseaux :
27
-
-
Représentation des couleurs : encodage, visualisation (intégrité des couleurs), espaces de
représentation, ICC profiles,
Compression : codage, palette de couleurs, JBIG, JBIG2, LZ, JPEG, JPEG-2000, MRC.
Formats de fichiers : images (GIF, PNG, VRML, TIFF-FX, JPEG 2000, PDF,
QuickTime), séquence d’images (animated GIF, FlashPix, QuickTime), images multipage (TIFF-FX, PDF), images mixtes (TIFF-FX Profile M, PDF), documents
mixtes (XML, HTML, SVG, PDF, SMIL).
Protocoles : FTP, HTTP, IIP, IPP, Internet Fax.
Applications : recherche d’images par contenu.