1. Introduction au modèle BOW - Laboratoire d`Informatique de Paris 6

Transcription

1. Introduction au modèle BOW - Laboratoire d`Informatique de Paris 6
Master mention Informatique
Spécialité imagerie IMA
UE INDIX
Indexation des images (NI613)
Prof. Matthieu Cord (Resp.)
[email protected]
1
Cours 2
Représentation d’images pour
la recherche sémantique et la
classification
1.  Introduction au modèle BOW
2.  Calcul du dictionnaire
3.  Codage des descripteurs locaux
4.  Calcul de la signature de l’image
5.  Bilan de la chaîne de reconnaissance
6.  Extensions du BoW
2
Représentation Bag of Words des
images
•  Modèle (état de l’art) de représentation des images
pour la catégorisation : sac de mots « Bag of Word »
•  Modèle BoW calculé à partir du BoF (Bag of
features) :
•  Remarque : les signatures locales ne passent pas à
l’échelle pour de très grandes bases
Le modèle Bag of Words (BoW) issu
de la recherche textuelle
Of all the sensory impressions proceeding to the
brain, the visual experiences are the dominant
ones. Our perception of the world around us is
based essentially on the messages that reach the
brain from oursensory,
eyes. For abrain,
long time it was thought
that the retinal image was transmitted point by
visual,
perception,
point to visual
centers
in the brain; the cerebral
cortex was a movie screen, so to speak, upon
retinal, cerebral cortex,
which the image in the eye was projected.
Through theeye,
discoveries
of Hubel and Wiesel we
cell, optical
now know that behind the origin of the visual
perception innerve,
the brainimage
there is a considerably
more complicated course of events. By following
Hubel,
Wiesel
the visual impulses
along
their path to the various
cell layers of the optical cortex, Hubel and Wiesel
have been able to demonstrate that the message
about the image falling on the retina undergoes a
step-wise analysis in a system of nerve cells
stored in columns. In this system each cell has its
specific function and is responsible for a specific
detail in the pattern of the retinal image.
China is forecasting a trade surplus of $90bn
(£51bn) to $100bn this year, a threefold increase on
2004's $32bn. The Commerce Ministry said the
surplus would be created by a predicted 30% jump
in exports to $750bn, compared with a 18% rise in
China, trade,
imports to $660bn. The figures are likely to further
annoy the US,
which has
long argued that China's
surplus,
commerce,
exports are unfairly helped by a deliberately
undervaluedexports,
yuan. Beijing
agrees US,
the surplus is too
imports,
high, but says the yuan is only one factor. Bank of
yuan,Zhou
bank,
domestic,
China governor
Xiaochuan
said the country
also needed to do more to boost domestic demand
foreign,
so more goods
stayed increase,
within the country. China
increased the value of the yuan against the dollar by
trade, value
2.1% in July and permitted it to trade within a
narrow band, but the US wants the yuan to be
allowed to trade freely. However, Beijing has made it
clear that it will take its time and tread carefully
before allowing the yuan to rise further in value.
On compare deux documents en comparant leurs
histogrammes d’occurrence de mots
Slide credit L. Fei-Fei
Modèle Bag of Visual Words (BoW)
Modèle Bag of Visual Words (BoW)
•  Quel dictionnaire ?
•  Comment est calculé l’histogramme sur le dico ?
Plan
1.  Introduction au modèle BOW
2.  Calcul du dictionnaire
7
Etape 1 : calcul du dico
1.  Extraction des descripteurs (motifs ou mots visuels) des images
•  Base d’entrainement en classification
•  Base d’images en indexation
2.  Clustering de l’espace des features
Extraction
des
descripteurs
Clustering
Etape 1 : calcul du dico
•  Algorithmes de clustering :
• 
• 
• 
• 
K-Means
Quantification vectorielle
Modélisation par mélange de Gaussiennes (GMM)
…
Clustering en k groupes
Données : un ensemble de n points (xj)n dans Rd
Objectif : trouver k points qui quantifient au mieux les n points de
départ (k<<n), ie. en minimisant l’erreur quadratique
A k fixé, complexité en O(n(kd+1)logn)
Beaucoup de stratégies pour approximer le problème global
Algorithme k-means :
Initialiser les centres cj en tirant (heuristiques) k points wk dans Rd
1.  (Ré)affecter chaque point xi au cluster j de centre wj tel
que dist(xi,wj) est minimale par rapport à celles de xi aux
autres clusters
2.  Déplacer les wj au sein de chaque cluster vers le (nouveau)
barycentre de tous les points affectés au cluster j
3.  Aller à l’étape 2 si des points ont changé d’affectation lors
de la dernière affectation (ou après la première)
Sortie : l’ensemble des k clusters {cj = wj} finaux
10
K-means : pourquoi ca marche
© L. Botou
11
Clustering
•  K-means :
•  Avantages
•  Simplicité
•  Convergence (local min)
•  Inconvénients
• 
• 
• 
• 
• 
• 
Gourmant en mémoire
Dépendant de K
Sensible à l’initialisation
Sensible aux artéfacts
Limité aux clusters “sphériques”
Concentration des clusters sur les zones de fortes densités
de points (Alternatives : méthodes à bases radiales, mais
inconvénients inverses)
•  En pratique le K-Means très utilisé
Clustering
•  Uniforme/ K-means / radius-based :
•  Radius-based clustering assigns all features within a fixed
radius of similarity r to one cluster.
Mots visuels
Extraction
des
descripteurs
Clustering
Formation du dico
Centres des clusters = mots visuels
du dictionnaire
Mots visuels d’un dictionnaire de formes
Plan
1.  Introduction au modèle BOW
2.  Calcul du dictionnaire
3.  Codage des descripteurs locaux
15
Etape 2 : signature BoW des images
•  Pour chaque image :
•  Pour chaque descripteur : recherche du mot visuel le plus
proche
•  Comptage dans l’histogramme
•  Signature (Index global) de l’image :
•  Vecteur (histogramme) dont la dimension est la taille du
dictionnaire : vraisemblance de contenir chaque mot visuel
Projection signature locale =>dictionnaire
§  Stratégie BoW classique : hard assignement/coding
§  On cherche le cluster le plus proche du descripteur
§  On lui assigne un poids fixe (e.g. 1)
Notations :
•  Les données images :
•  Les centres :
•  Coding :
18
19
Projection signature locale =>dictionnaire
§  Plus sophistiqué : soft assignement
§  Kernel codebook : poids absolu
§  Uncertainty : poids relatif
§  Plausibility : poids absolu au 1-nn
Visual Word Ambiguity
J.C. van Gemert, C.J. Veenman, A.W.M.
Smeulders, J.M. Geusebroek
PAMI 2010
Soft Coding :kernel
21
Soft Coding : uncertainty
22
Soft Coding : plausibility
23
Projection signature locale =>dictionnaire
§  Soft vs hard assignement/coding
§  En pratique, le gain du soft / hard n’est pas toujours clair
§  Seule la stratégie basée Uncertainty améliore les
performances de classification
§  Semi-soft : excellent compromis
Projection signature locale =>dictionnaire
§  Autre approche : sparse coding
§  On approxime chaque descripteur local comme une
combinaison linéaire d’un sous-ensemble de mots du
dictionnaire : xi ~ D αi
§  αi vecteurs de poids, D dictionnaire (matrice des
vecteurs de C)
§  On force chaque xi à n’être représenté que par un
petit nombre de mots visuel => parcimonie
Projection signature locale =>dictionnaire
§  Sparse coding vs VQ : hard assignement classique
§  SC : Sparse Coding : la majorité des αi=0
§  LLC : Local Linear Coding : les mots représentants doivent être
proches (localité)
§  Quelle pertinence de ces critères de minimisation de l’erreur de
reconstruction pour la classification ?
Plan
1.  Introduction au modèle BOW
2.  Calcul du dictionnaire
3.  Codage des descripteurs locaux
4.  Calcul de la signature de l’image
27
Agglomération projections => index global image
§  Index global : vraisemblance image de contenir chaque mot visuel
§  Différentes manières de résumer les projections : pooling
29
Projection signature locale =>dictionnaire
§  Sum pooling : approche BoW classique (issue de la
recherche textuelle : compter les occurrences de mots
dans le document)
Stratégie BoW classique : hard coding + sum pooling
§  On cherche le cluster le plus proche du descripteur
§  On lui assigne un poids fixe (e.g. 1)
Agglomération projections => index global image
§  Le sum pooling du BoW :
Agglomération projections => index global image
Autre approche :
§  Max pooling : on garde la valeur max de la projection pour
chaque mot visuel
§  Intéressant pour du sparse / soft coding : limite l’impact du
bruit
§  En lien avec les modèles d’inspiration biologique (cortex)
Agglomération projections => index global image
§  Améliorations/alternatives
§  Eviter le passage par le clustering ?
§  Similarité noyaux sur sacs de descripteurs locaux :
⇒ Pyramid match kernel [GRAUMAN 05]
•  Exploiter l’information spatiale des descripteurs locaux
⇒ Spatial Pyramid Matching [LAZEBNIK 06]
•  Mieux traiter les liens entre coding et pooling : travailler sur la
matrice de dépendance clusters/descripteurs => mixer les
spatial pooling et sparse coding
•  Travailler sur de nouveaux descripteurs (bio inspirés)
•  Apprendre les dictionnaires (supervisé par catégorie)
Travailler sur les
descripteurs locaux
Travailler sur le
dictionnaire
Travailler sur le coding/
pooling
34
Plan
1.  Introduction au modèle BoW
2.  Calcul du dictionnaire
3.  Codage des descripteurs locaux
4.  Calcul de la signature de l’image
5.  Bilan de la chaîne de reconnaissance
35
feature detection
& representation
image representation
…
© Fei-Fei, Fergus, Torralba
5
class densities
3
2
0
0
Discriminative method:
- SVM
p(x|C1)
1
0.2
0.4
0.6
0.8
x
1
p(C |x)
1
posterior probabilities
Generative method:
- graphical models
p(x|C2)
4
p(C2|x)
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
x
1
feature detection
& representation
…
© Fei-Fei, Fergus, Torralba