1. Introduction au modèle BOW - Laboratoire d`Informatique de Paris 6
Transcription
1. Introduction au modèle BOW - Laboratoire d`Informatique de Paris 6
Master mention Informatique Spécialité imagerie IMA UE INDIX Indexation des images (NI613) Prof. Matthieu Cord (Resp.) [email protected] 1 Cours 2 Représentation d’images pour la recherche sémantique et la classification 1. Introduction au modèle BOW 2. Calcul du dictionnaire 3. Codage des descripteurs locaux 4. Calcul de la signature de l’image 5. Bilan de la chaîne de reconnaissance 6. Extensions du BoW 2 Représentation Bag of Words des images • Modèle (état de l’art) de représentation des images pour la catégorisation : sac de mots « Bag of Word » • Modèle BoW calculé à partir du BoF (Bag of features) : • Remarque : les signatures locales ne passent pas à l’échelle pour de très grandes bases Le modèle Bag of Words (BoW) issu de la recherche textuelle Of all the sensory impressions proceeding to the brain, the visual experiences are the dominant ones. Our perception of the world around us is based essentially on the messages that reach the brain from oursensory, eyes. For abrain, long time it was thought that the retinal image was transmitted point by visual, perception, point to visual centers in the brain; the cerebral cortex was a movie screen, so to speak, upon retinal, cerebral cortex, which the image in the eye was projected. Through theeye, discoveries of Hubel and Wiesel we cell, optical now know that behind the origin of the visual perception innerve, the brainimage there is a considerably more complicated course of events. By following Hubel, Wiesel the visual impulses along their path to the various cell layers of the optical cortex, Hubel and Wiesel have been able to demonstrate that the message about the image falling on the retina undergoes a step-wise analysis in a system of nerve cells stored in columns. In this system each cell has its specific function and is responsible for a specific detail in the pattern of the retinal image. China is forecasting a trade surplus of $90bn (£51bn) to $100bn this year, a threefold increase on 2004's $32bn. The Commerce Ministry said the surplus would be created by a predicted 30% jump in exports to $750bn, compared with a 18% rise in China, trade, imports to $660bn. The figures are likely to further annoy the US, which has long argued that China's surplus, commerce, exports are unfairly helped by a deliberately undervaluedexports, yuan. Beijing agrees US, the surplus is too imports, high, but says the yuan is only one factor. Bank of yuan,Zhou bank, domestic, China governor Xiaochuan said the country also needed to do more to boost domestic demand foreign, so more goods stayed increase, within the country. China increased the value of the yuan against the dollar by trade, value 2.1% in July and permitted it to trade within a narrow band, but the US wants the yuan to be allowed to trade freely. However, Beijing has made it clear that it will take its time and tread carefully before allowing the yuan to rise further in value. On compare deux documents en comparant leurs histogrammes d’occurrence de mots Slide credit L. Fei-Fei Modèle Bag of Visual Words (BoW) Modèle Bag of Visual Words (BoW) • Quel dictionnaire ? • Comment est calculé l’histogramme sur le dico ? Plan 1. Introduction au modèle BOW 2. Calcul du dictionnaire 7 Etape 1 : calcul du dico 1. Extraction des descripteurs (motifs ou mots visuels) des images • Base d’entrainement en classification • Base d’images en indexation 2. Clustering de l’espace des features Extraction des descripteurs Clustering Etape 1 : calcul du dico • Algorithmes de clustering : • • • • K-Means Quantification vectorielle Modélisation par mélange de Gaussiennes (GMM) … Clustering en k groupes Données : un ensemble de n points (xj)n dans Rd Objectif : trouver k points qui quantifient au mieux les n points de départ (k<<n), ie. en minimisant l’erreur quadratique A k fixé, complexité en O(n(kd+1)logn) Beaucoup de stratégies pour approximer le problème global Algorithme k-means : Initialiser les centres cj en tirant (heuristiques) k points wk dans Rd 1. (Ré)affecter chaque point xi au cluster j de centre wj tel que dist(xi,wj) est minimale par rapport à celles de xi aux autres clusters 2. Déplacer les wj au sein de chaque cluster vers le (nouveau) barycentre de tous les points affectés au cluster j 3. Aller à l’étape 2 si des points ont changé d’affectation lors de la dernière affectation (ou après la première) Sortie : l’ensemble des k clusters {cj = wj} finaux 10 K-means : pourquoi ca marche © L. Botou 11 Clustering • K-means : • Avantages • Simplicité • Convergence (local min) • Inconvénients • • • • • • Gourmant en mémoire Dépendant de K Sensible à l’initialisation Sensible aux artéfacts Limité aux clusters “sphériques” Concentration des clusters sur les zones de fortes densités de points (Alternatives : méthodes à bases radiales, mais inconvénients inverses) • En pratique le K-Means très utilisé Clustering • Uniforme/ K-means / radius-based : • Radius-based clustering assigns all features within a fixed radius of similarity r to one cluster. Mots visuels Extraction des descripteurs Clustering Formation du dico Centres des clusters = mots visuels du dictionnaire Mots visuels d’un dictionnaire de formes Plan 1. Introduction au modèle BOW 2. Calcul du dictionnaire 3. Codage des descripteurs locaux 15 Etape 2 : signature BoW des images • Pour chaque image : • Pour chaque descripteur : recherche du mot visuel le plus proche • Comptage dans l’histogramme • Signature (Index global) de l’image : • Vecteur (histogramme) dont la dimension est la taille du dictionnaire : vraisemblance de contenir chaque mot visuel Projection signature locale =>dictionnaire § Stratégie BoW classique : hard assignement/coding § On cherche le cluster le plus proche du descripteur § On lui assigne un poids fixe (e.g. 1) Notations : • Les données images : • Les centres : • Coding : 18 19 Projection signature locale =>dictionnaire § Plus sophistiqué : soft assignement § Kernel codebook : poids absolu § Uncertainty : poids relatif § Plausibility : poids absolu au 1-nn Visual Word Ambiguity J.C. van Gemert, C.J. Veenman, A.W.M. Smeulders, J.M. Geusebroek PAMI 2010 Soft Coding :kernel 21 Soft Coding : uncertainty 22 Soft Coding : plausibility 23 Projection signature locale =>dictionnaire § Soft vs hard assignement/coding § En pratique, le gain du soft / hard n’est pas toujours clair § Seule la stratégie basée Uncertainty améliore les performances de classification § Semi-soft : excellent compromis Projection signature locale =>dictionnaire § Autre approche : sparse coding § On approxime chaque descripteur local comme une combinaison linéaire d’un sous-ensemble de mots du dictionnaire : xi ~ D αi § αi vecteurs de poids, D dictionnaire (matrice des vecteurs de C) § On force chaque xi à n’être représenté que par un petit nombre de mots visuel => parcimonie Projection signature locale =>dictionnaire § Sparse coding vs VQ : hard assignement classique § SC : Sparse Coding : la majorité des αi=0 § LLC : Local Linear Coding : les mots représentants doivent être proches (localité) § Quelle pertinence de ces critères de minimisation de l’erreur de reconstruction pour la classification ? Plan 1. Introduction au modèle BOW 2. Calcul du dictionnaire 3. Codage des descripteurs locaux 4. Calcul de la signature de l’image 27 Agglomération projections => index global image § Index global : vraisemblance image de contenir chaque mot visuel § Différentes manières de résumer les projections : pooling 29 Projection signature locale =>dictionnaire § Sum pooling : approche BoW classique (issue de la recherche textuelle : compter les occurrences de mots dans le document) Stratégie BoW classique : hard coding + sum pooling § On cherche le cluster le plus proche du descripteur § On lui assigne un poids fixe (e.g. 1) Agglomération projections => index global image § Le sum pooling du BoW : Agglomération projections => index global image Autre approche : § Max pooling : on garde la valeur max de la projection pour chaque mot visuel § Intéressant pour du sparse / soft coding : limite l’impact du bruit § En lien avec les modèles d’inspiration biologique (cortex) Agglomération projections => index global image § Améliorations/alternatives § Eviter le passage par le clustering ? § Similarité noyaux sur sacs de descripteurs locaux : ⇒ Pyramid match kernel [GRAUMAN 05] • Exploiter l’information spatiale des descripteurs locaux ⇒ Spatial Pyramid Matching [LAZEBNIK 06] • Mieux traiter les liens entre coding et pooling : travailler sur la matrice de dépendance clusters/descripteurs => mixer les spatial pooling et sparse coding • Travailler sur de nouveaux descripteurs (bio inspirés) • Apprendre les dictionnaires (supervisé par catégorie) Travailler sur les descripteurs locaux Travailler sur le dictionnaire Travailler sur le coding/ pooling 34 Plan 1. Introduction au modèle BoW 2. Calcul du dictionnaire 3. Codage des descripteurs locaux 4. Calcul de la signature de l’image 5. Bilan de la chaîne de reconnaissance 35 feature detection & representation image representation … © Fei-Fei, Fergus, Torralba 5 class densities 3 2 0 0 Discriminative method: - SVM p(x|C1) 1 0.2 0.4 0.6 0.8 x 1 p(C |x) 1 posterior probabilities Generative method: - graphical models p(x|C2) 4 p(C2|x) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 x 1 feature detection & representation … © Fei-Fei, Fergus, Torralba