THESE_EL OUAZZANI

Transcription

THESE_EL OUAZZANI

Université Mohammed V - Souissi
THESE
pour obtenir le grade de : Docteur en Sciences Appliquées
Spécialité : Informatique
Préparée au sein de l’UFR : Systèmes d’Information Métiers, Multimédia
et Mobile à l’Ecole Nationale Supérieure d’Informatique et d’Analyse
des Systèmes
Préparée par :
Rajae El Ouazzani
Titre :
La reconnaissance et l’apprentissage des
événements chauds dans la vidéo de
matches de football en utilisant les
Modèles de Markov Cachés
Soutenue le 18/12/2010 devant le jury composé de:
– Pr. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat: Président.
– Pr. Azedine Boulmakoul, PES à la FST de Mohammadia: Rapporteur.
– Pr. Ahmed Tamtaoui, PES à l’INPT: Rapporteur.
– Pr. Mohammed Rziza, PH à la Faculté des Sciences de Rabat: Rapporteur.
– Pr. Bouchaib Bounabat, PES à l’ENSIAS: Examinateur.
– Pr. Rachid Oulad Haj Thami, PES à l’ENSIAS: Directeur de thèse.
Résumé
Dans le cadre de cette thèse, nous proposons des techniques pour reconnaitre les événements importants dans la vidéo de matches de football en utilisant les Modèles de Markov
Cachés (MMC). Un événement important est tout événement qui peut intéresser le public tels que : les buts, les fautes directes, les penalties, les cartons jaunes/rouges, les
changements de joueurs et les tentatives pour marquer un but. Lors de la modélisation
des séquences vidéos correspondantes aux événements importants précédents, nous avons
utilisé les MMCs qui traitent de manière efficace les structures spatiaux temporelles qui
caractérisent les vidéos de football.
Dans la première partie de cette thèse, nous avons présenté les caractéristiques de la
vidéo de matches de football à savoir les descripteurs visuels, audio et textuels. Aussi,
nous avons présenté quelques unités sémantiques qui distinguent la vidéo de matches
de football. Puis et lors d’un survol de la littérature, nous avons exposé quelques techniques de classification des plans (images) de la vidéo de football et quelques techniques
de reconnaissance des événements importants dans la vidéo de matches de football. Finalement, nous avons présenté les MMCs, leurs paramètres et les algorithmes qui les
accompagnent.
Dans la deuxième partie, nous avons présenté quatre contributions pour reconnaitre
les événements importants dans la vidéo de matches de football avec les MMCs. Dans la
première contribution, nous employons un MMC des événements importants. Par la suite
et dans la deuxième contribution, nous employons deux MMCs, un MMC d’événements
importants et un MMC d’événements non importants en conjonction avec le théorème
de Bayes. L’inférence bayesienne calcule la distribution a posteriori sur une séquence
vidéo en utilisant des distributions a priori issues des bases d’apprentissage. Dans la
troisième contribution, nous employons les MMCs et la loi de Gauss et dans la quatrième
contribution, nous exploitons les MMCs et les Modèles de Mélanges de Gaussiennes avec
deux, six et dix gaussiennes pour reconnaitre les événements importants dans la vidéo
de matches de football.
Remerciements
Je tiens à exprimer tout d’abord mes remerciements aux membres du jury, qui ont accepté
d’évaluer mon travail de thèse.
Je remercie le Professeur Driss Aboutajdine de m’avoir fait l’honneur de présider mon
jury. Le Professeur Aboutajdine est le responsable du "Laboratoire de Recherche en
Informatique et Télécommunication" (LRIT) à la Faculté des Sciences de Rabat (FSR)
où j’ai fait mes premiers pas vers le domaine de la recherche. Aussi, il est le responsable
de l’UFR "Informatique et Télécommunication" à la FSR. Ainsi, je remercie le Professeur
Aboutajdine pour son sérieux et son travail continu pour orienter ses étudiants vers la
recherche scientifique en vue de l’évoluer au Maroc.
Je remercie aussi le Professeur Azedine Boulmakoul qui a accepté de rapporter mon travail. Le Professeur Boulmakoul est le responsable de la filière "MST Génie informatique"
à la Faculté des Sciences et Technique de Mohammedia. Il est aussi le responsable de
l’UFR "Systèmes d’Informations Réactifs et Ingénierie des Systèmes Intelligents".
Après, je remercie le Professeur Ahmed Tamtaoui qui a accepté de rapporter mon travail
de thèse. Le Professeur Tamtaoui est un Enseignant chercheur à INPT à Rabat. Il est
aussi le Directeur Adjoint de Recherche dans le même établissement.
Ensuite, je remercie le Professeur Mohammed Rziza, Professeur Habilité à la Faculté des
Sciences de rabat, qui a accepté de rapporter mon travail.
Puis, je remercie le Professeur Bouchaib Bounabat d’avoir examiné mon travail. Le Professeur Bouchaib Bounabat est un Professeur de l’Enseignement Supérieur à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des systèmes.
Après, je remercie le Professeur Rachid Oulad Haj Thami d’avoir accepté de superviser mon travail de thèse. Le Professeur Rachid Oulad Haj Thami est un Professeur de
l’Enseignement Supérieur à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des
systèmes.
Finalement, je tiens à remercier tous mes collègues de l’équipe WiM avec lesquels j’ai eu
le plaisir de travailler durant cette thèse.
iii
Table des matières
Résumé
ii
Remerciements
iii
Liste des Figures
viii
Liste des Tableaux
x
Abréviations
xi
Symboles
xiii
1 Introduction générale
1.1 Contexte de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 La vidéo de football
2.1 Introduction . . . . . . . . . . . . . . . . . . . .
2.2 Analyse de la vidéo de football . . . . . . . . .
2.2.1 Les descripteurs de bas niveau . . . . .
2.2.1.1 Les descripteurs visuels . . . .
2.2.1.2 Les descripteurs audio . . . . .
2.2.1.3 Les descripteurs textuels . . .
2.2.2 Les descripteurs visuels . . . . . . . . .
2.2.2.1 La couleur dominante . . . . .
2.2.2.2 Le logo . . . . . . . . . . . . .
2.2.2.3 Les bords . . . . . . . . . . . .
2.2.2.4 La texture . . . . . . . . . . .
2.2.2.5 La zone de la tête . . . . . . .
2.2.2.6 La taille des objets . . . . . . .
2.2.3 Les unités sémantiques de niveau moyen
2.2.3.1 Unité ralenti . . . . . . . . . .
2.2.3.2 Unité cadre du goal . . . . . .
2.2.3.3 Unité légende . . . . . . . . . .
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
2
4
. 4
. 5
. 5
. 5
. 5
. 6
. 7
. 7
. 7
. 8
. 8
. 8
. 8
. 9
. 9
. 9
. 10
Contenu
2.3
2.4
v
2.2.3.4 Unité plan proche et public . . . . . . . . . . . . . . . .
2.2.3.5 Unité plan proche et légende . . . . . . . . . . . . . . .
2.2.3.6 Décomposition de la vidéo en unités sémantiques . . . .
2.2.4 Les événements importants de haut niveau . . . . . . . . . . . . .
Techniques de classification des plans . . . . . . . . . . . . . . . . . . . .
2.3.1 Classification des plans avec la carte de blocs du terrain . . . . .
2.3.2 Classification des plans avec un arbre de décision . . . . . . . . .
2.3.3 Classification des plans avec les SVMs . . . . . . . . . . . . . . .
2.3.4 Classification des plans avec les SVMs et les histogrammes de projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5 Classification des plans par la détection des lignes du terrain . .
2.3.6 Classification des plans avec la règle du Golden Section Spatial
Composition . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.7 Classification des plans avec la méthode haut-bas . . . . . . . . .
2.3.8 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Modélisation des séquences vidéos de matches de football
3.1 Classes d’approches de modélisation des séquences vidéos . . . . . . . .
3.1.1 Approches basées sur les règles . . . . . . . . . . . . . . . . . . .
3.1.2 Approches statistiques . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2.1 Les Machines à Vecteurs de Supports (SVMs) . . . . . .
3.1.2.2 Les réseaux de neurones (RNs) . . . . . . . . . . . . . .
3.1.2.3 Les Modèles de Markov Cachés (MMCs) . . . . . . . . .
3.1.2.4 Autres algorithmes . . . . . . . . . . . . . . . . . . . . .
3.2 Les Modèles de Markov Cachés . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Les paramètres du MMC . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Les inférences du MMC . . . . . . . . . . . . . . . . . . . . . . .
3.2.2.1 Les inférences en ligne . . . . . . . . . . . . . . . . . . .
3.2.2.2 Les inférences hors ligne . . . . . . . . . . . . . . . . . .
3.2.3 Les algorithmes de manipulation des paramètres du MMC . . . .
3.2.3.1 L’algorithme Forward-Backward . . . . . . . . . . . . .
3.2.3.2 L’algorithme Viterbi . . . . . . . . . . . . . . . . . . . .
3.2.4 L’apprentissage des paramètres du MMC . . . . . . . . . . . . .
3.2.4.1 L’apprentissage avec le critère MV . . . . . . . . . . . .
3.2.4.2 L’apprentissage avec le critère MAP . . . . . . . . . . .
3.2.5 La structure du MMC . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Techniques de reconnaissance des événements importants dans la vidéo de
matches de football . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Reconnaissance des événements importants avec les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques (BNs/DBNs) . . . . . . . .
3.3.2 Reconnaissance des événements importants avec une représentation de niveau intermédiaire : mid − level . . . . . . . . . . . . .
3.3.3 Reconnaissance des événements importants avec l’unité sémantique
de base et les réseaux de Pétri (BSUCPN) . . . . . . . . . . . . .
3.3.4 Reconnaissance des événements importants avec les segments play
et break . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
10
11
11
12
15
15
16
17
. 18
. 19
.
.
.
.
20
21
22
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
26
26
26
27
27
27
27
28
29
29
29
30
30
32
33
34
35
35
. 36
. 37
. 38
. 38
. 38
Contenu
vi
3.3.5
3.4
Reconnaissance des événements importants avec les MMCs et les
positions des joueurs sur le terrain de jeu . . . . . . . . . . . . .
3.3.6 Reconnaissance des événements importants avec les mots clés et
les MMCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.7 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 39
. 40
. 41
. 42
4 Reconnaissance des événements importants dans la vidéo de football
avec les MMCs et le théorème de Bayes
4.1 Contribution 1 : Reconnaissance des événements importants dans la vidéo
de football avec un seul MMC . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Classification visuelle des plans . . . . . . . . . . . . . . . . . . . .
4.1.2 Modélisation et reconnaissance des événements importants avec un
MMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . .
4.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Contribution 2 : Reconnaissance des événements importants avec deux
MMCs et le théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Modélisation des séquences vidéos avec deux MMCs . . . . . . . .
4.2.2 Utilisation du théorème de Bayes dans la reconnaissance des événements importants . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Hypothèses gaussiennes pour reconnaitre les événements importants
dans la vidéo de football
5.1 Contribution 3 : Reconnaissance des événements importants avec les MMCs
et le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Modélisation des événements de football avec deux MMCs . . . . .
5.1.2 Utilisation du modèle gaussien pour la reconnaissance des événements importants dans la vidéo de football . . . . . . . . . . . . .
5.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Contribution 4 : Reconnaissance des événements importants avec les MMCs
et les MMGs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Schéma général de l’étude . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Analyse des propriétés de la vidéo de football . . . . . . . . . . . .
5.2.3 Modélisation des événements de football avec les MMCs . . . . . .
5.2.4 Modélisation des événements de football avec les MMGs . . . . . .
5.2.4.1 Paramètres des MMGs . . . . . . . . . . . . . . . . . . .
5.2.4.2 Apprentissage des paramètres du MMG avec l’algorithme
EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.5 La reconnaissance des événements importants dans la vidéo de
football avec les MMCs et les MMGs . . . . . . . . . . . . . . . . .
5.2.6.1 Résultats de reconnaissance des événements importants
avec un mélange de deux gaussiennes . . . . . . . . . . .
44
45
45
47
50
52
53
53
55
56
58
59
60
60
61
62
63
65
66
66
67
67
67
68
68
72
74
75
Contenu
vii
5.2.6.2
Résultats de reconnaissance des événements importants
avec un mélange de six gaussiennes . . . . . . . . . . . . .
5.2.6.3 Résultats de reconnaissance des événements importants
avec un mélange de dix gaussiennes . . . . . . . . . . . .
5.2.6.4 Comparaison des résultats de reconnaissance des événements importants avec différents mélanges de gaussiennes
5.2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
85
85
6 Conclusions et perspéctives
6.1 Objectifs et domaines d’exploitation de la thèse . . . . . . . . . . . . . . .
6.2 Contributions majeures . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Travaux en cours et perspectives . . . . . . . . . . . . . . . . . . . . . . .
86
86
86
88
A Publications
90
Bibliographie
92
5.3
78
81
Table des figures
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
3.1
3.2
3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4
4.5
Schéma pour la reconnaissance des événements importants dans la vidéo
de matches de football. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Un arbre de décision pour la classification des plans en utilisant le couleur
de l’herbe et le contraste de la texture [1, 2]. . . . . . . . . . . . . . . . . .
La représentation des unités sémantiques sur une séquence vidéo [2]. . . .
Une série de plans lors d’un but. . . . . . . . . . . . . . . . . . . . . . . .
Une série de plans lors d’un penalty. . . . . . . . . . . . . . . . . . . . . .
Une série de plans lors d’un corner. . . . . . . . . . . . . . . . . . . . . . .
Une série de plans lors d’une faute directe. . . . . . . . . . . . . . . . . . .
Une série de plans lors d’un carton jaune. . . . . . . . . . . . . . . . . . .
Une série de plans lors d’un changement de joueurs. . . . . . . . . . . . . .
Un arbre de décision pour la classification des plans en utilisant des descripteurs visuels [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Système de classification des plans avec les SVMs [4]. . . . . . . . . . . . .
Une structure pour la classification des plans avec les SVMs et les histogrammes de projection [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Algorithme de classification de plans par la détection des lignes du terrain
[6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les neuf portions d’un plan [7]. . . . . . . . . . . . . . . . . . . . . . . . .
Un framework pour la classification des plans avec la méthode haut-bas [8].
Représentation d’un MMC par un réseau bayesien. . . . . . . . . . . . .
Exemples de deux structures des MMCs [9]. . . . . . . . . . . . . . . . .
Exemples de BN et de DBN de l’événement corner [10]. . . . . . . . . .
Les séquences play − break dans une vidéo de football [11]. . . . . . . .
A gauche, un schéma qui montre les positions des joueurs sur le terrain et à
droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs
des zones f1, f2 et f3 [12]. . . . . . . . . . . . . . . . . . . . . . . . . . .
Diagramme pour la reconnaissance des événements importants avec les
mots clés et les MMCs [13]. . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
11
12
13
13
14
14
14
15
17
18
19
20
21
22
28
36
37
39
. 40
. 41
Les trois classes de plans et l’application de la GSSC sur leur correspondants en binaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus de segmentation de la vidéo de football et la classification des
images clés en utilisant la GSSC. . . . . . . . . . . . . . . . . . . . . . . .
Les états et les probabilités de transitions de λ1 des événements importants.
La courbe de ROC des résultats de classifcation des séquences vidéo avec
λ1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les états et les probabilités de transitions de λ2. . . . . . . . . . . . . . .
viii
5
46
47
48
52
54
Liste des Figures
4.6
4.7
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
6.1
6.2
ix
Schéma pour reconnaître les événements importants avec les MMCs et le
théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
La courbe de ROC des résultats de classification des séquences vidéo avec
deux MMCs et le théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . 58
Schéma de reconnaissance des événements importants avec les MMCs et
la loi de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La courbe de ROC des résultats de classification des séquences vidéos avec
deux MMCs et le théorème de Gauss. . . . . . . . . . . . . . . . . . . . .
Schéma pour la reconnaissance des événements importants dans la vidéo
de matches de football avec trois types de descripteurs. . . . . . . . . . .
Schéma de reconnaissance des événements importants avec les MMCs et
les MMGs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Représentation des données de la base d’apprentissage d’événements importants avec une distribution en deux gaussiennes. . . . . . . . . . . . .
Représentation des données de la base d’apprentissage d’événements non
importants avec une distribution en deux gaussiennes. . . . . . . . . . .
deux MMCs et deux MMGs avec deux gaussiennes. . . . . . . . . . . . .
Représentation des données de la base d’apprentissage des événements
importants avec une distribution en six gaussiennes. . . . . . . . . . . .
Représentation des données de la base d’apprentissage des événements non
importants avec une distribution en six gaussiennes. . . . . . . . . . . .
deux MMCs et deux MMGs avec six gaussiennes. . . . . . . . . . . . . .
Représentation des données de la base d’apprentissage des événements
importants avec une distribution en dix gaussiennes. . . . . . . . . . . .
Représentation des données de la base d’apprentissage des événements non
importants avec une distribution en dix gaussiennes. . . . . . . . . . . .
deux MMCs et deux MMGs avec dix gaussiennes. . . . . . . . . . . . . .
La courbe de ROC de classification des séquences vidéos avec l’utilisation
de deux MMCs et deux MMGs avec deux, six et dix gaussiennes. . . . .
. 61
. 65
. 66
. 72
. 75
. 76
. 77
. 78
. 78
. 80
. 81
. 81
. 83
. 84
Processus de classification d’une séquence vidéo O avec quatre techniques
utilisant les MMCs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
six techniques de reconnaissance des événements importants avec les MMCs. 88
Liste des tableaux
2.1
2.2
Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Sommaire des techniques de classification des plans. . . . . . . . . . . . . 23
3.1
Sommaire des techniques de reconnaissance des événements importants. . 43
4.1
Résultats de classification des séquences vidéos avec λ1 d’événements importants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de reconnaissance des événements importants avec λ1. Ils sont
classés par type d’événement. . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de classification des événements importants avec les MMCs et
le théorème de Bayes, classés par type d’événement. . . . . . . . . . . .
4.2
4.3
4.4
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
6.1
Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss classés par catégorie de l’événement important. . . . . . .
Résultats de classification des séquences vidéos en utilisant deux MMCs
et deux MMGs avec un mélange de deux gaussiennes. . . . . . . . . . . .
Résultats de classification des séquences vidéos importantes en utilisant
deux MMCs et deux MMGs avec un mélange de deux gaussiennes. . . .
Résultats de classification des séquences vidéos en utilisant deux MMCs
et deux MMGs avec un mélange de six gaussiennes. . . . . . . . . . . . .
deux MMCs et deux MMGs avec un mélange de six gaussiennes. . . . .
Résultats de classification des séquences vidéos en utilisant les MMCs et
deux MMGs avec un mélange de dix gaussiennes. . . . . . . . . . . . . .
deux MMCs et deux MMGs avec un mélange de dix gaussiennes. . . . .
Résultats de classification de divers types d’événements importants en
utilisant les MMCs et les MMGs. . . . . . . . . . . . . . . . . . . . . . .
. 51
. 52
. 57
. 58
. 64
. 65
. 76
. 77
. 79
. 80
. 82
. 83
. 84
Comparaison des résultats de classification des événements de football
avec les MMCs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
x
Abréviations
MMC
Modèle de Markov Caché
HMM
Hidden Markov Model
HSV
Hue Saturation Value
GLCM
Gray Level Co-occurrence Matrix
MFCC
Mel Frequency Cepstral Coefficients
MPEG
Moving Picture Expert Group
CSR
Coarse Spatial Representation
GBM
Ground Block Map
TBD
Temporal Block Difference
SVM
Support Vector Machines
BN
Bayesian Network
RB
Réseau Bayesien
DBN
Dynamic Bayesian Network
RBD
Réseau Bayesien Dynamique
RN
Réseaux de Neurones
HSI
Hue Saturation Intensity
GMM
Gaussian Mixture Model
MMG
Modèle de Mélanges de Gaussiennes
EM
Expectation Maximization
MSE
Mean Square Error
FCPMT
Field Color Probability Map Tracker
ROC
Receiver Operating Characteristic
OCR
Optical Character Recognition
SSU
Shot Segment Unit
SR
Segmentation Rate
xi
Abréviations
xii
BSUCPN
Basic Semantic Unit Composite Petri Net
LPC
Linear Prediction Coefficients
LPCC
Linear Prediction Cepstral Coefficients
FPMT
Field Probability Map Tracking
MV
Maximum de Vraissemblance
MAP
Maximum a posteriori
IPS
In Play Segment
OPS
Out of Play Segment
OFS
Out of Field Segment
CloseFB
Close with Field Background
CloseNFB
Close Non Field Background
GSSC
Golden Section Spatial Composition
Symboles
Hmean
moyenne de la teinte
Smean
moyenne de la saturation
p, P
probabilité
N
nombre d’états du MMC
O
séquence vidéo
O1:T
séquence d’observation complète
T
nombre d’observations dans la séquence vidéo O
s
état du MMC
S
l’ensemble des états du MMC
q
état observé du MMC
A
matrice de transitions du MMC
aij
probabilité de transition de l’état i à j
V
l’ensemble des observations possibles
ot
symbole observé à l’instant t
B
matrice de probabilités d’observations
bj
probabilité d’observation
M M C1
MMC des événements importants
M M C2
MMC des événements non importants
M M G1
MMG des événements importants
M M G2
MMG des événements non importants
EImp
événement important
¬EImp
événement non important
N EImp
nombre d’événements importants dans la base d’apprentissage
N ¬EImp
nombre d’événements non importants dans la base d’apprentissage
P (EImp )
probabilité d’avoir un événement important
xiii
Symboles
xiv
P (¬EImp )
probabilité d’avoir un événement non important
P (O/EImp )
probabilité d’avoir O sachant un événement important
P (O/¬EImp )
probabilité d’avoir O sachant un non événement important
P (EImp /O)
probabilité d’avoir un événement important sachant O
P (¬EImp /O)
probabilité d’avoir un événement non important sachant O
pr
vecteur des probabilités a priori d’un MMG
ΣImp
variance des événements importants
¬ΣImp
variance des événements non importants
µImp
moyenne des événements importants
¬µImp
moyenne des événements non importants
ΣM M GImp
matrice de covariance du M M G1
µM M GImp
vecteur de la moyenne du M M G1
prImp
vecteur des probabilités a priori des mélanges du M M G1
¬ΣM M GImp
matrice de covariance du M M G2
¬µM M GImp
vecteur de la moyenne du M M G2
¬prImp
vecteur des probabilités a priori des mélanges du M M G2
µ
vecteur moyen
Σ
matrice de covariance
π
vecteur de probabilités initiales du MMC
λ
Modèle de Markov Caché
α
probabilités Forward
β
probabilité Backward
ω
valeur pour régulariser les matrices de covariances
Θ
seuil de comparaison
Id
diagonale
A ma chère famille.
xv
Chapitre 1
Introduction générale
1.1
Contexte de la thèse
La recherche de l’information utile dans une vidéo est importante. Diverses recherches
ont été entreprises dans le domaine de traitement des données multimédia en vue de
faciliter l’accès aux données importantes. Nous citons la détection des séquences d’informations intéressantes, la création des résumés et le filtrage du contenu. Un document
vidéo est une production de l’activité humaine d’où la nécessité de développer certains
outils pour faciliter son traitement. Les données multimédia sont composées de données
audio, visuelles et textuelles synchronisées. Par conséquent, le traitement de la vidéo est
réalisé par des outils spécifiques qui respectent sa structure spatio-temporelle.
Dans cette thèse, nous abordons le problème de la classification des séquences vidéo
de matches de football. Le but de notre étude est la reconnaissance des événements
importants dans ce type de vidéo. Un événement important correspond à une séquence
vidéo qui peut intéresser les téléspectateurs telle qu’ : un but, un corner, une faute directe,
un penalty ou une tentative pour marquer un but. Ainsi, le traitement de la vidéo de
football permet de reconnaître les segments vidéo intéressants qui occupent une petite
partie dans la vidéo du match de football. De plus, l’analyse de la vidéo de football peut
être appréhendé, en effet, dans ce contexte le domaine sémantique est limité. Les études
réalisées dans ce cadre peuvent être classifiées en deux catégories [14] : des études basées
sur les règles [15, 16] et des études statistiques [10–13, 17, 18] telles que les SVMs, les
RNs et les MMCs.
Les travaux réalisés dans ce rapport se focalisent sur la modélisation des événements importants de football en utilisant l’approche statistique basée sur les MMCs. Les MMCs
sont connus par leur capacité à modéliser les structures spatio-temporelles. Ainsi, la
1
Chaptire 1. Introduction générale
2
reconnaissance des événements importants dans la vidéo de football avec les MMCs
nécessite une opération d’apprentissage des paramètres des MMCs. L’opération d’apprentissage utilise des bases de séquences vidéo issues de différents matches de football
où les séquences vidéo sont représentées par des vecteurs de plans grâce à la classification
de leurs images clés en plans : loin, médium et proche en se basant sur les techniques de
réalisation télévisuelles dans les matches de football. Plusieurs études ont été réalisées
dans le cadre de la classification de plans [5–8, 19–21]. La reconnaissance des événements
importants dans la vidéo de football est réalisée par les MMCs dont les paramètres sont
calculer par les algorithmes : Baum-Welch, Forward-Backward et Viterbi et des bases
d’apprentissage de séquences vidéo.
1.2
Contributions
Les contributions proposées dans cette thèse permettent de savoir si une séquence vidéo
dans un match de football correspond à un événement important. Nous avons développé
quatre applications pour réaliser l’opération de classification. Les applications proposées
utilisent toutes les MMCs.
La première contribution permet de reconnaître les événements importants en utilisant
un seul MMC d’événements importants. Ensuite, nous utilisons, dans la deuxième contribution, le théorème de Bayes en plus des MMCs pour reconnaître les événements importants. L’inférence bayesienne calcule la distribution a posteriori sur une séquence
vidéo en exploitant des distributions a priori issues des bases d’apprentissage. La troisième contribution emploie le théorème de Gauss en conjonction avec les MMCs. La loi
de Gauss est une distribution qui suit la loi normale. Finalement et dans la quatrième
contribution, nous utilisons les Modèles de Mélanges de Gaussiennes et les MMCs pour
reconnaitre les événements importants.
1.3
Organisation de la thèse
Ce document est organisé de la manière suivante :
Le chapitre 2 présente quelques techniques d’analyse de la vidéo de football et de classification des images clés des séquences de football en types de plans. L’analyse de la
vidéo de football montre trois types de caractéristiques dans la vidéo de football : 1) les
descripteurs de bas niveau, 2) les unités sémantiques et 3) les événements importants.
Nous avons présenté aussi un ensemble de techniques de classification de plans en loin,
médium, proche, etc.
Chaptire 1. Introduction générale
3
Le chapitre 3 propose, dans une première section, les classes d’approches de modélisation des séquences vidéo. Dans la deuxième section, nous présentons les MMCs, leurs
paramètres, les algorithmes d’estimation de leurs paramètres et quelques structures des
MMCs. Dans la dernière section, nous montrons quelques techniques de reconnaissance
des événements importants dans la vidéo de matches de football.
Le chapitre 4 expose les deux premières contributions proposées dans cette thèse. La première contribution permet de reconnaitre les événements importants de football avec un
seul MMC d’événements importants et dans la deuxième contribution, nous employons
deux MMCs et le théorème de Bayes pour reconnaitre ces événements importants. Le
premier MMC concerne les événements importants et le deuxième, les événements non importants. De plus, nous présentons les résultats expérimentaux associés aux deux contributions proposées.
Le chapitre 5 présente deux autres contributions pour reconnaitre les événements importants dans la vidéo de football. Ces deux contributions utilisent la loi gaussienne
pour reconnaitre ces événements spéciaux. Nous employons, dans la troisième contribution, deux MMCs d’événements imortants et d’événements non importants et la loi de
Gauss. Ensuite, nous présentons dans la quatrième contribution qui utilise deux MMCs
et deux MMGs. Ainsi, nous présentons les résultats expérimentaux des deux hypothèses
gaussiennes précédentes.
Finalement, le chapitre 6 présente des conclusions, discute quelques frontières de la reconnaissance des événements importants dans la vidéo de football et donne des perspectives.
Chapitre 2
La vidéo de football
2.1
Introduction
Dans ce chapitre, nous allons nous focaliser sur la reconnaissance des événements importants dans la vidéo de matches de football. Cette opération est réalisée par l’utilisation et
l’analyse de certaines caractéristiques des événements de football. Nous pouvons distinguer trois types de caractéristiques classées par niveaux et illustrés sur la figure 2.1. Les
caractéristiques de haut niveau sont les événements importants dans la vidéo de football
tels que : les buts, les penalties, les corners, les fautes directes, les cartons jaunes/rouges
et les tentatives pour marquer un but. Ces événements importants sont caractérisés, en
cours de diffusion de la vidéo, par l’apparition de certaines unités sémantiques. Une unité
sémantique est composée d’une suite de plans du même événement. De manière générale,
un événement est constitué de plusieurs unités sémantiques et la présence de certaines
unités sémantiques spécifiques indique la présence d’un événement important particulier. Par exemple, l’événement important "but" est représenté par les unités sémantiques
suivantes : la zone de penalty, le cadre du goal, l’arbitre, le public et le plan proche.
Par ailleurs, le domaine de connaissance montre qu’il y’a neuf unités sémantiques [2] :
les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes,
les plans proches, le public, l’arbitre et les plans proches avec légende. L’analyse de ces
unités sémantiques nous a permis de définir les caractéristiques ou les descripteurs de
bas niveau. Les descripteurs de bas niveau concernent la couleur, la texture, les bords,
le logo, la zone de la tête et la taille des objets qui sont extraits de certains plans de la
vidéo de manière visuelle. En effet, le plan et sa structure joue un rôle important dans la
réalisation des matches télévisuels pour montrer et mettre en évidence certaines actions
dans un match. Dans ce même chapitre, nous allons présenter quelques méthodes de
classification de plans en : loin, médium, proche et hors du terrain.
4
Chaptire 2. La vidéo de football
5
Niveau 2
Evénements importants
Niveau 1
Unités sémantiques
Niveau 0
Descripteurs de bas niveau
Vidéo de football
Fig. 2.1: Schéma pour la reconnaissance des événements importants dans la vidéo de
matches de football.
2.2
Analyse de la vidéo de football
La reconnaissance des segments ayant une sémantique dans la vidéo de football est
possible à réaliser en comparaison avec d’autres types de vidéo du genre commercial
ou films. Ceci est dû à l’existence d’une structure de contenu qui est bien définie et aux
règles des jeux sportifs en générale. Par exemple, un match de football est présenté en
deux parties et dans chacune d’elle, nous trouvons les bordures du terrain, la légende,
les ralentis, etc.
2.2.1
2.2.1.1
Les descripteurs de bas niveau
Les descripteurs visuels
Les descripteurs visuels regroupent la couleur, la texture, les bords, le logo, la zone de
la tête et la taille des objets. Ils constituent les éléments de la couche inférieure du
schéma 2.1. Les transitions de logo sont utilisées dans l’analyse du mouvement parce
que les séquences vidéo importantes sont suivies par des ralentis [2]. Or, les ralentis sont
entourés de transitions du logo. Nous allons parler en détails des descripteurs visuels
dans la sous section 2.2.2.
2.2.1.2
Les descripteurs audio
Dans certains jeux spécifiques, les signaux audio tels que les applaudissements et les
sifflements sont des indicateurs d’événements importants. Quelques chercheurs ont utilisé
6
les données audio pour reconnaitre les événements importants de haut niveau. K. Wan
et al. [22, 23], par exemple, ont extrait le descripteur audio pour localiser les segments
intéressants dans la vidéo de football et de tennis. Et Z. Xiong et al. [24] ont comparé
les performances de classification de la vidéo de sport en utilisant les descripteurs MelFréquence de Coefficients Cepstraux (MFCC) [25] et les descripteurs audio MPEG7 [26].
En raison de l’écart sémantique qui existe entre les descripteurs de bas niveau et les
événements importants de haut niveau, quelques chercheurs n’ont pas utilisé directement
les descripteurs de bas niveau mais ils ont créé une représentation audio de niveau moyen.
L’élément du niveau moyen est appelé événement sonore [27] ou mot clé audio [28] et
il est utilisé dans l’analyse des événements de football. Par exemple, D. Zhang et al.
[27] ont utilisé la méthode de fusion à base de règles sur les MFCC, les coefficients
de prédiction linéaire (LPC) et les descripteurs d’énergie normalisés pour détecter les
événements sonores de haut niveau dans la vidéo de basketball. Par ailleurs, M. Xu et
al. [28] ont utilisé les Machines à Vecteurs de Support (SVMs) avec les MFCC et les
descripteurs de prédiction linéaire des coefficients cepstraux (LPCC) pour classifier les
segments audio. Ces segments vidéo sont représentés par des mots clés audio différents tels
que le bruit de le public et le discours du commentateur et ils sont utilisés pour reconnaitre
les événements importants dans la vidéo de football, de tennis et de basketball.
2.2.1.3
Les descripteurs textuels
A côté des descripteurs visuels et audio, des informations textuelles peuvent être examinées. Dans certains cas, l’information textuelle peut bien servir dans la reconnaissance
des événements importants parce que le texte contient des sémantiques riches. Le texte
dans une vidéo peut être divisé en 2 classes [29] : le texte des scènes est le texte qu’on
trouve sur les panneaux d’affichage et sur les vêtements des joueurs. Le deuxième type
est le texte sur les légendes qui sont superposées aux plans de la vidéo. Ce dernier type
complète les contenus visuels et audio. Plusieurs recherches ont été proposées pour détecter et reconnaître le texte sur la légende. Nous citons l’étude de D. Chen et al. [30] qui
ont utilisé les SVMs pour identifier les lignes du texte et la méthode de Reconnaissance
Optique des Caractères (OCR) pour reconnaitre les caractères. Et, H.-C. Shih et al. [31]
qui ont introduit une méthode robuste pour reconnaitre la légende, l’extraire, la localiser
et enfin développer une méthode d’interprétation pour comprendre le score du jeu et
même le nom de l’équipe.
2.2.2
2.2.2.1
7
Les descripteurs visuels
La couleur dominante
La couleur verte du terrain joue un rôle important dans l’analyse de la vidéo de football
parce qu’elle joue un rôle intéressant dans la classification des plans. Cependant, cette
couleur varie d’un terrain à l’autre d’où l’utilité de réduire l’effet de l’illumination en
utilisant l’espace de couleur HSV. Les études réalisées dans ce domaine [1, 19] montrent
que les composantes de la teinte et de la saturation sont suffisantes pour segmenter
le terrain. Hmean et Smean sont respectivement les composantes de la teinte et de la
saturation de la couleur dominante du terrain, c-à-d les valeurs de pic des histogrammes
de la teinte et de la saturation d’un plan loin [19]. Ces valeurs peuvent être obtenues
à partir des statistiques faites au début de la période de jeu. La distance entre le pixel
f (i, j) et les valeurs de la couleur dominante est définie par l’équation (2.1) [1] :
dhsv =
p
2
S 2 (i, j) + Smean
− 2S(i, j)Smean Cos(θ)
(2.1)
Avec θ =| H(i, j) − Hmean |. H(i, j) et S(i, j) sont respectivement les composantes de la
teinte et de la saturation du pixel f (i, j). Donc, si la distance dhsv est plus petite qu’un
certain seuil alors ce pixel appartient au terrain.
2.2.2.2
Le logo
Le logo est un descripteur de bas niveau, largement utilisé dans la détection des répétitions dans une vidéo de football. Au cours de la diffusion de la vidéo de football, les
segments de répétition sont délimités par l’apparition du logo. Ainsi, la détection des
répétitions consiste d’abord à détecter les transitions du logo, puis à extraire sa template
et enfin à détecter les autres logos à travers une correspondance de templates [20].
Les transitions du logo
Les transitions du logo sont détectées par le déplacement de ce dernier entre des plans
consécutifs. Le déplacement concerne la valeur de l’intensité. Cette valeur est calculée
par le déplacement quadratique moyen de l’intensité (MSD) [20].
L’extraction du template du logo
L’extraction du template du logo commence par son dégagement de l’arrière plan de
l’image. En général, le logo est superposé aux plans. La procédure d’extraction du template de logo est expliquée dans [20].
8
L’étape de détection des autres logos sera détaillée dans la sous section 2.2.3.1.
2.2.2.3
Les bords
Le bord est un descripteur utilisé dans la détection du cadre du goal, de la légende et des
joueurs. Un grand nombre d’opérateurs permettent la détection des bords, nous citons le
filtre gradient [32], le filtre de Robert [33], le fitre de Sobel [33] et le filtre de Canny [34].
Ce dernier filtre atteint un meilleur équilibre entre la diminution du bruit et la détection
de bord par l’utilisation de la fonction différentielle de Gauss du premier ordre [4].
2.2.2.4
La texture
La texture est utilisée pour distinguer les plans du public des plans proches. La description de la texture est effectuée par la matrice de co-occurrence de niveaux de gris
(GLCM) en raison de sa capacité de classification des textures stochastiques [20]. La
GLCM permet de calculer le contraste qui mesure l’écart entre les valeurs de la matrice
et la variation des pixels dans leur voisinage local [2].
2.2.2.5
La zone de la tête
La détection de la zone de la tête permet de reconnaitre les plans proches qui contiennent
une tête de grande taille. La détection de la tête est réalisée via l’analyse de la couleur de
la peau [20]. La détection de la peau peut être effectuée par le modèle gaussien, bayesien
[35] ou autres.
2.2.2.6
La taille des objets
La taille des objets sur le terrain est utilisée pour séparer les plans loin des plans médium. La taille des objets exprime la distance entre la caméra et les objets. L’estimation
de la taille des objets est réalisée en trois étapes [20] : a) la segmentation du terrain,
b) l’extraction du contour convexe du terrain, qui implique la zone de remplissage, la
connexion des régions voisines et le suivi du contour convexe et c) la segmentation d’objets et l’estimation de l’échelle. Supposant que la hauteur moyenne des objets est H0
et la hauteur du terrain dans l’image est Hf , alors la taille des objets est calculée par
H0 /Hf .
2.2.3
9
Les unités sémantiques de niveau moyen
Une unité sémantique est un segment vidéo composé de plans continus qui représentent
un seul et même événement. L’unité proche par exemple est constituée de plusieurs plans
proches [2]. De même, l’unité légende est composée d’un ensemble de plans consécutifs
qui contiennent des légendes [2]. Ainsi, la détection de certains descripteurs de bas niveau
permet de reconnaitre les unités sémantiques qui se trouvent dans le segment vidéo. Et
la présence d’unités sémantiques particulières indique un événement important spécial.
X.-F. Tong et al. [2] ont défini neuf unités sémantiques : la répétition, le cadre du goal, la
zone de penalty, le coin du terrain, la légende, le plan proche, le public, l’arbitre et le plan
proche avec légende. L’événement but par exemple est accompagné des unités : ralentis,
cadre du goal, zone de penalty, l’arbitre, plans proches avec l’excitation du public et une
apparence du tableau des scores en cas de résultat favorable.
Nous allons présenter dans ce qui suit les caractéristiques des neuf unités sémantiques
du niveau intermédiaire du schéma 2.1.
2.2.3.1
Unité ralenti
Un ralenti est une manière spéciale d’édition de la vidéo. Il permet de souligner un
événement important pour une ou plusieurs fois avec des transitions du logo au début et
à la fin du ralenti. La détection des répétitions se fait via la détection du logo [1]. Ainsi,
X.-F. Tong et al. [1] utilisent une fenêtre coulissante locale w pour examiner les 2 ∗ w + 1
déplacements du logo dans des plans consécutifs. Si fi , i = 1, 2, ..., N est la séquence de
plans et Di = d(fLT , fi ) est la distance entre le template du logo fLT et le plan fi , alors
Di , i = 1, 2, ..., N − 1 est la séquence de distances entre le logo et un plan fl si [20] :
– Dl est la distance minimale au sein d’une fenêtre coulissante locale de taille 2 ∗ w + 1,
c à d : Dl ≤ Dj avec j = 1 − w, ..., l − 1, l, l + 1, ..., 1 + w, et
– Dl est plus petite qu’un certain seuil θ fixé et
– La distance entre les plans fl et le template du logo est très petite.
Donc, une scène bornée par une paire de logos est un ralenti si sa longueur est plus petite
qu’un seuil prédéfini.
2.2.3.2
Unité cadre du goal
Le cadre du goal est un descripteur intéressant lors de la détection des événements
importants qui contiennent l’unité cadre du goal. Cette unité sémantique est détectée
dans les plans loins où l’intensité du gris est élevée [1, 2].
2.2.3.3
10
Unité légende
La légende apparaît lors de l’affichage du score, d’un carton jaune/rouge, de statistiques
techniques et pendant le changement de joueurs. Une unité légende est un segment où
les plans contiennent une légende. Cependant, il est difficile de reconnaître le texte sur
cette dernière mais son apparence indique habituellement un événement spécial [1].
La légende peut être détectée par la méthode du gradient cumulé localement [2, 36]. Cette
méthode consiste à traiter la zone de la légende comme une zone de texture spéciale,
alignée avec des traits verticaux. Aussi, les gradients des voisins locaux sont plus grands
et plus uniformes que d’autres traits dans d’autres régions. La recherche de la légende
se fait dans la partie basse des plans parce que la légende apparaît souvent en bas de
l’image.
2.2.3.4
Unité plan proche et public
Un plan proche sert à focaliser un joueur qui a réalisé un événement important. Tandis
que le plan public est affiché en général après les événements importants pour reporter les
célébrations des supportaires. Une méthode de recherche des plans proche et public est
proposée par X.-F. Tong et al. [1, 2]. Ils classifient les images en loin, médium, proche et
public en utilisant l’arbre de décision illustré sur la figure 2.2. X.-F. Tong et al. détectent
les noeuds de l’arbre via le calcul du ratio de la couleur dominante et de la valeur du
contraste de la texture. Au fait, un plan loin contient un grand ratio d’herbe, par contre
les plans proche et public ont le ratio d’herbe le plus faible.
11
Ratio de la couleur de l’herbe > T h1
Non
Oui
Ratio de la couleur de l’herbe > T h2
Plan loin
Non
Oui
Contraste de la texture > T h3
Plan médium
Oui
Plan public
Non
Plan proche
Fig. 2.2: Un arbre de décision pour la classification des plans en utilisant le couleur
de l’herbe et le contraste de la texture [1, 2].
T h1, T h2 et T h3 sont des seuils de comparaison.
2.2.3.5
Unité plan proche et légende
Une unité plan proche et légende est caractérisée par la superposition d’un plan proche
et d’un plan légende. Ce type d’unité est utilisé lors d’une faute grave qui nécessite un
carton jaune/rouge ou bien aux moments de changements de joueurs [1, 2].
2.2.3.6
Décomposition de la vidéo en unités sémantiques
Nous remarquons que la vidéo de football est composée de plusieurs unités sémantiques.
Et la présence de certaines unités sémantiques spécifiques indique un événement important spécial. La figure 2.3 présente des unités sémantiques sur une séquence vidéo d’un
match de football [2].
12
Fig. 2.3: La représentation des unités sémantiques sur une séquence vidéo [2].
Avec L : plan loin, M : plan médium, U : plan proche, S : unité ralenti, G : unité cadre
du goal, C : unité légende et A : unité public.
Cette séquence vidéo est composée, dans l’ordre, de : six plans loins, deux unités cadres
du goal, un plan médium, trois plans proches, une unité public, douze unités ralentis,
quatre plans proches, trois plans loins, trois unités légendes et trois plans loins.
2.2.4
Les événements importants de haut niveau
Les unités sémantiques du niveau moyen jouent un rôle primordial dans la reconnaissance
des événements importants dans la vidéo de football. Le tableau 2.1 montre un ensemble
d’événements importants et les unités sémantiques qui les accompagnent.
Unités sémantiques/
Ralenti
Evénement important
Cadre du
Zone de
Coin du
goal
penalty
terrain
Arbitre
Plan
public
proche
d’état
But
X
X
X
X
X
X
Penalty
X
X
X
X
X
X
Corner
X
X
X
X
X
X
Faute directe
X
X
X
X
X
X
Carton jaune/rouge
X
X
X
X
X
Changement de joueurs
X
Tableau
X
X
X
Tab. 2.1: Les événements importants dans la vidéo de football et les unités sémantiques
qui les accompagnent.
Les unités tableau du score et public sont affichées en cas de résultat favorable.
13
Les figures 2.4, 2.5, 2.6, 2.7, 2.8 et 2.9 montrent, dans l’ordre, les séries de plans des événements importants : but, penalty, corner, faute directe, carton jaune/rouge et changement
de joueurs.
(a) Zone de penalty
(b) Zone de penalty
(c) Cadre du goal
(d) L’arbitre
(e) Le public
(f) Plan proche
(g) Le public
(h) Plan proche
Fig. 2.4: Une série de plans lors d’un but.
(a) Zone de penalty et cadre
du goal
(b) Zone de penalty et cadre
du goal
(c) Zone de penalty et cadre
du goal
(d) Zone de penalty et cadre
du goal
(e) Plan proche
(f) Plan proche
(g) Le public
(h) Le public
Fig. 2.5: Une série de plans lors d’un penalty.
(a) Zone de penalty, cadre du
goal et coin du terrain
du goal et coin du terrain
14
du goal et coin du terrain
(d) Plan proche
Fig. 2.6: Une série de plans lors d’un corner.
(a) Zone de penalty et cadre
du goal
du goal
du goal
(d) Zone de penalty et cadre
du goal
(e) Plan proche
(f) Plan proche
(g) Plan proche
(h) Plan proche
Fig. 2.7: Une série de plans lors d’une faute directe.
(a) L’arbitre
(b) Plan proche
(c) Tableau d’état
Fig. 2.8: Une série de plans lors d’un carton jaune.
(d) Tableau d’état
(a) L’arbitre
(b) Plan proche
15
(c) Tableau d’état
(d) Tableau d’état
Fig. 2.9: Une série de plans lors d’un changement de joueurs.
2.3
Techniques de classification des plans
On a vu précédemment que la reconnaissance des événements importants dans la vidéo
de football nécessite une opération de classification de plans. Ainsi, le traitement de la
vidéo commence par la segmentation du flux multimédia. Ensuite, les segments résultants
subissent une opération d’extraction des images clés ou images représentatives. Puis, nous
classifions ces dernières en types de plans. Nous distinguons les types : loin, médium,
proche et hors du terrain. La classification des plans est une étape primordiale dans
le processus de reconnaissance des événements importants. En outre, le domaine de
connaissance à montrer qu’un événement important commence toujours par l’affichage
de plusieurs plans loin, suivis par quelques plans médiums et à la fin, plusieurs plans
proches sont diffusés.
Plusieurs recherches ont été effectuées dans le domaine de la classification des plans.
Nous citons les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre
de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5)
l’apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition
[7] et 7) la classification des plans haut-bas [8].
2.3.1
Classification des plans avec la carte de blocs du terrain
Ahn et al. [19] ont proposé une méthode pour classifier les plans en quatre types : loin,
médium, proche avec le terrain en arrière plan (CloseFB) et proche sans terrain en arrière
plan (CloseNFB). Leur méthode traite la quantité et la localisation des régions vertes du
terrain sur les plans. Les plans loin sont des images capturées d’une longue distance. Par
conséquent, la plupart des parties du plan ont tendance à être occupées par le terrain.
Dans les plans médium, les parties basses du plan sont souvent remplies d’herbe. Ensuite,
Ahn et al. divisent les plans proches en deux groupes : proche avec du terrain et proche
sans terrain. L’approche d’Ahn et al. [19] consiste alors à construire une carte de blocs du
16
terrain et à détecter les frontières des plans pour classifier les images clés. Le traitement
est réalisé selon le processus suivant :
1) Partitionner le plan en question en blocs de 16*16 pour générer une carte de blocs
de terrain (GBM) du plan. Un bloc de terrain est caractérisé par un grand nombre de
pixels verts.
2) Détecter les bordures de plans en utilisant la différence temporelle entre les blocs TBD
dans les GBMs.
3) Séparer les plans loin des autres par la recherche du plus long segment vidéo qui
contient des pixels verts à la iime colonne du bloc (LGSi ). Si la longueur du LGSi est
supérieure à un certain seuil alors le plan est loin sinon il est non loin. Ensuite, les
plans non loin sont classifiés en : plans qui contiennent une partie du terrain, plans qui
visualisent la moitié du terrain et les plans qui affichent tout le terrain. Ahn et al. [19]
distinguent les trois types de plans non loin par le calcul du nombre de blocs de terrain
localisés sur la moitié supérieure et la ligne basse du plan.
2.3.2
Classification des plans avec un arbre de décision
Tong et al. [20] définissent cinq types de plans : répétition, loin, médium, CloseFB,
CloseNFB et hors du terrain. Tong et al. utilisent la méthode proposée par Duda et al.
[3] qui ont construit l’arbre de décision illustrée sur la figure 2.10. La classification des
plans est réalisée via l’analyse d’un ensemble de descripteurs visuels.
17
La paire de logo ?
Oui
Non
Répétition
Terrain > T 1
Non
Oui
Texture > T 2
Tête ?
CloseFB
Oui
Non
Oui
Taille > T 3
Oui
Médium
Hors du terrain
Non
CloseNFB
Non
Loin
Fig. 2.10: Un arbre de décision pour la classification des plans en utilisant des descripteurs visuels [3].
T 1, T 2 et T 3 sont des seuils de comparaison.
Au niveau 0, X. Tong et al. partitionnent la vidéo en plans de répétition et de non
répétition par la détection des transitions du logo. Ensuite, les segments de non répétition
sont classifiés en plans loin, médium, proche et hors du terrain. Puis, X. Tong et al. [20]
étiquettent tous les plans et ils les classifient en utilisant un schéma de vote. Au niveau
1, ils détectent le terrain en arrière plan pour séparer les plans closeF B, loin et médium
des plans hors du terrain et closeN F B. Dans la branche gauche du niveau 2, X. Tong et
al. exploitent les caractéristiques de la zone de la tête pour distinguer les plans closeF B
des plans médium et loin. Dans la branche droite, X. Tong et al. utilisent le descripteur
de la texture de la matrice de co-occurrence de niveau de gris (GLCM) pour différencier
les plans hors du terrain des plans closeN F B. Et au niveau 3, X. Tong et al. emploient
la taille des objets sur le terrain pour distinguer les plans médiums des plans loins.
2.3.3
Classification des plans avec les SVMs
Y-H Zhou et al. [4] proposent une méthode de classification des plans qui utilise la
couleur dominante, les bords et la longueur des plans. L’analyse du contenu de la vidéo
commence par la détection des bordures des plans. Ensuite, Y-H Zhou et al. extraient la
couleur dominante, les bords et la longueur des plans. Les trois descripteurs précédents
seront appris à l’aide de trois SVMs. La figure 2.11 illustre le système de classification
des plans avec les SVMs :
18
Fig. 2.11: Système de classification des plans avec les SVMs [4].
Y.-H. Zhou et al. [4] utilisent un Modèle de Mélange de Gaussiennes (MMG) pour reconnaitre les pixels de couleur verte. Bien que la couleur peut caractériser les principaux
types de plans mais elle reste sensible à la lumière au moment de l’enregistrement de la
vidéo et aux conditions du terrain de jeu. En outre, si le terrain est ombré, il y aurait
beaucoup d’erreurs lors de l’utilisation de la couleur et par conséquent, le terrain ne
sera pas détecté complètement. Pour cela, Y.-H. Zhou et al. utilisent les bords dans la
classification des plans. En effet, les bords sont moins influencés par l’ombre et ils sont
détectés par le filtre de Canny.
La couleur et le bord sont des descripteurs structurels d’un plan. Cependant, ces descripteurs ne représentent pas le caractère temporel des plans. En fait, la durée de diffusion
des différents types de plans est différente. Par exemple, le plan loin qui reflète le déroulement du jeu a une durée de diffusion qui est longue. Tandis que le plan médium
qui présente un joueur entrain de courir après un ballon a une courte durée de diffusion.
De même, un plan proche est affiché pendant un petit moment pour présenter un joueur
après une séquence vidéo d’un événement important d’habitude. De là, la longueur de
plans peut être utilisée aussi dans la classification des plans. Enfin, Y.-H. Zhou et al. [4]
utilisent les SVMs pour classifier les plans.
2.3.4
Classification des plans avec les SVMs et les histogrammes de
projection
N. Nan et al. [5] proposent une méthode de classification de plans qui utilise les SVMs,
les histogrammes de projection et quelques descripteurs visuels de bas niveau tels que
19
la couleur dominante, les bords et la texture. Le schéma 2.12 illustre le système de
classification des plans en : loin, médium, proche et public.
Fig. 2.12: Une structure pour la classification des plans avec les SVMs et les histogrammes de projection [5].
2.3.5
Classification des plans par la détection des lignes du terrain
A. Ekin et al. [6] classifient les plans de la vidéo de football en : 1) loin, 2) médium et 3)
hors du terrain ou proche. D’abord, ils identifient les plans en loin et médium en utilisant
la taille des objets et leur nombre dans chaque plan. Un plan loin est caractérisé par un
ratio élevé de pixels colorés en vert et par plusieurs joueurs sur le terrain. Ainsi, A. Ekin
et al. calculent le ratio R de pixels verts et déduisent que c’est un plan loin si R > Tmax
sans calculer d’autres descripteurs. Tmax est le ratio de pixels verts dans un plan loin.
Aussi, un plan médium est caractérisé par un ratio élevé de pixels verts et par un certain
nombre d’objets sur le terrain. Un objet est défini par des pixels non colorés en vert sur
l’arrière plan. Tandis que les plans hors du terrain et proche sont caractérisés par un
petit ratio de pixels verts.
De plus, A. Ekin et al. [6] proposent l’utilisation d’une technique de correspondance entre
les lignes détectées sur le terrain et leur cartographie sur un modèle de terrain. Or, O.
Yow et al. [37] proposent une technique pour détecter la zone du goal. Cette zone est
représentée par deux lignes horizontales très proches et une autre ligne horizontale à
une distance plus loin. Cette technique est caractérisée par sa robustesse devant le bruit.
Donc, la détection des plans loin est réduite à la détection de trois lignes horizontales
parallèles (ou bien deux lignes horizontales en cas d’effacement de la ligne de penalty). La
20
détection des lignes est réalisée par la transformée de Hough [38]. La figure 2.13 montre
l’algorithme de classification de plans par la détection des lignes.
Fig. 2.13: Algorithme de classification de plans par la détection des lignes du terrain
[6].
2.3.6
Classification des plans avec la règle du Golden Section Spatial
Composition
A l’instar de leur premier article (traité dans la sous section 2.3.5), A. Ekin et al. [7]
définissent trois types de plans dans la vidéo de football. Ils utilisent la règle du Golden
Section Spatial Composition qui divise l’image en 3 :5 :3 proportions dans les deux
directions comme illustré sur le figure 2.14. Cette règle analyse le positionnement des
objets sur les neuf parties du plan.
21
Fig. 2.14: Les neuf portions d’un plan [7].
A. Ekin et al. ont défini huit descripteurs pour mesurer la distribution des pixels de
l’herbe sur les plans médium et loin et, ils distinguent deux descripteurs importants :
1- GR2 : le ratio de pixels de l’herbe de la portion 2 sur la figure 2.14.
2- Gdif f : la valeur moyenne de la différence absolue des pixels verts entre R1 et R2 , et
entre R2 et R3 . Cette valeur est calculée par l’équation (2.2) :
Rdif f =
1
(|GR1 − GR2 | + |GR2 − GR3 |)
2
(2.2)
R1 , R2 et R3 sont les portions 1, 2 et 3 de la figure 2.14.
Ensuite, ils utilisent un classifieur bayesien avec les deux descripteurs précédents. Le
classifieur bayesien attribue un vecteur de descripteurs x, qui est supposé avoir une distribution de Gauss, à la classe qui maximise une fonction discriminante g(x) quelconque.
2.3.7
Classification des plans avec la méthode haut-bas
L.-Y. Duan et al. [8] utilisent une méthode de classification des plans appelée haut-bas.
Cette approche utilise un modèle de domaine pour définir les trois classes de plans : loin,
médium et proche. Le modèle de domaine proposé par L.-Y. Duan et al. [8] traitent les
quatre éléments suivants : 1) la relation spatiale entre le terrain de jeu, les joueurs et
le public, 2) la relation sémantique entre les mouvements de la caméra et l’objectif du
caméraman, 3) la relation sémantique entre l’apparition du marqueur et les événements
potentiels et 4) les descripteurs visuels calculés lors de l’analyse des éléments ci-dessus.
La figure 2.15 montre que la classification des plans est réalisée en deux phases : l’apprentissage et la classification. La phase d’apprentissage permet de collecter les règles de
décision nécessaires pour classifier les plans. Cette phase utilise une base d’apprentissage
constituée de plusieurs images de classes différentes. Ensuite, L.-Y. Duan et al. réalisent
la phase de classification de plans en quatre opérations. Premièrement, ils extraient les
descripteurs de bas niveau : la couleur, la texture et le vecteur de mouvement sur le
22
terrain à partir des images clés de la séquence vidéo [8]. Deuxièmement, ils exploitent les
descripteurs de bas niveau pour produire d’autres descripteurs, de niveau moyen, comme
le mouvement dominant, le mouvement indépendant et les régions homogènes. Troisièmement, L.-Y. Duan et al. utilisent les descripteurs du niveau moyen et les règles de décision
collectées de la phase d’apprentissage pour analyser les séquences vidéo. Cette opération
crée une carte de descripteurs de niveau moyen et elle leur attribue des sémantiques de
haut niveau. Finalement, la classification des plans est réalisée via les sémantiques de
haut niveau et les règles de décision précédentes [8].
Fig. 2.15: Un framework pour la classification des plans avec la méthode haut-bas [8].
2.3.8
Résumé
Le tableau 2.2 présente un sommaire des recherches réalisées dans le cadre de la classification des plans.
23
Références
Classes de plans
Descripteurs utilisés
Classifieurs/Algorithmes
X. Tong et al. [20]
Loin, médium, closeFB
Logo, ratio du terrain,
Arbre de décision
closeNFB, hors du
zone de la tête, texture
K. Wan et al. [39]
L. Xie et al. [40]
terrain, répétition
taille des objets
Loin, médium, proche
Taille du terrain, taille
Play, break
Algorithme
des objets, bords
personnalisé
ratio du terrain,
MMC
intensité du mouvement
L. Wang et al. [41]
Loin, hors du terrain,
couleur
MMG
coulour, bordures,
SVM
proche
Y.-L. Kang et al. [42]
taille des objets,
position des joueurs
sur le terrain, texture
I. Ahn et al. [19]
Loin, médium,
Ratio de la couleur
closeFB, closeNFB
Y.-H. Zhou et al. [4]
Carte de bolcs
de terrain
Couleur, bord
SVM
longueur du plan
N. Nan et al. [5]
A. Ekin et al. [6]
A. Ekin et al. [7]
Loin, médium, proche,
Couleur, détection
SVM et histogrammes
public
des bords, la texture
de projection
Taille des objets, ratio
Détection des lignes
et hors du terrain
du vert, nombre d’objets
du terrain (hough)
Couleur du terrain
Golden Section
Spatial Composition
L.-Y. Duan et al. [8]
Vecteur de mouvement
Technique Haut-bas
sur le terrain,
texture, couleur
Y. Yang et al. [21]
Couleur, mouvement
MMC
Tab. 2.2: Sommaire des techniques de classification des plans.
2.4
Conclusion
Dans ce deuxième chapitre, nous avons effectué un état de l’art de la vidéo de football
pour reconnaitre les événements importants. Cet état de l’art nous a permis de distinguer
trois types de caractéristiques de la vidéo classées par niveaux. Les caractéristiques de
haut niveau sont les événements importants dans la vidéo de football tels que : les buts,
24
les penalties, les corners, les fautes, les cartons jaune/rouge et les tentatives pour marquer un but. Ces événements importants sont caractérisés par l’apparition de certaines
unités sémantiques. Une unité sémantique est composée d’une suite de plans du même
événement. En fait, un événement est constitué de plusieurs unités sémantiques et la
présence de certaines unités sémantiques spécifiques indique l’existence d’un événement
important particulier. A ce propos, le domaine de connaissance montre qu’il y’a neuf
unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins
du terrain, les légendes, les plans proches, le public, l’arbitre et les plans proches avec
légende. Le traitement de ces unités sémantiques est réalisé via un ensemble de descripteurs de bas niveau comme la couleur, la texture, les bords, le logo, la zone de la tête, la
taille des objets, etc.
Ainsi, l’étude des unités sémantiques du niveau intermédiaire se focalise sur la classification de plans. Cette opération est intéressante dans la reconnaissance des événements
importants dans la vidéo de football. En effet, les séquences vidéo importantes se composent d’images clés de classes différentes : loin, médium et proche et elles sont ordonnées
de façon particulière. Pour cette raison la classification des images clés ou plans est une
technique critique dans l’analyse de la vidéo. A ce sujet, un grand nombre d’algorithmes
de classification des plans a été proposé. Nous avons présenté dans ce chapitre les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre de décision [20], 3) les
SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l’apparition les lignes
du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la méthode
haut-bas [8].
Chapitre 3
Modélisation des séquences vidéos
de matches de football
Dans le chapitre 2, nous avons effectué une analyse de la vidéo de football. L’analyse de
la vidéo de football est une étape très importante dans la reconnaissance des événements
importants. A ce propos, nous avons présenté les différents types de descripteurs dans
la vidéo de football. De plus, nous avons exposé un ensemble d’outils de classification
de plans. Cette opération permet de classifier les images clés des séquences vidéos. Le
chapitre courant parle de la modélisation des séquences vidéos de football afin de reconnaitre les événements importants. Ainsi, nous présentons dans la première section
les deux grandes classes d’approches pour modéliser les événements importants dans la
vidéo de football. Ensuite, nous exposons les MMCs dans la deuxième section. Ils représentent un bon outil de modélisation des événements de football grâce à leur habilité à
modéliser les événements spatiaux temporels. Et dans la troisième et dernière section,
nous proposons un ensemble de techniques de reconnaissance des événements importants
dans la vidéo de matches de football, que nous avons trouvé dans la littérature.
3.1
Classes d’approches de modélisation des séquences vidéos
La reconnaissance des événements importants nécessite la modélisation des séquences
vidéo. Dans la littérature, nous trouvons deux grandes classes d’approches pour modéliser
les séquences vidéos de football [14] : les approches basées sur les règles et les approches
statistiques.
25
Chaptire 3. Modélisation des séquences vidéos de matches de football
3.1.1
26
Approches basées sur les règles
Les approches basées sur les règles utilisent le domaine de connaissance pour définir un
ensemble de règles de classification sémantique des séquences vidéos [15, 16]. A ce sujet,
Xu et al. [15] ont défini des règles heuristiques pour étudier les transitions d’images
dans les séquences vidéos en vue d’en extraire des informations dites de structure. Ces
informations de structure permettent de définir les états de jeu play et break. L’état
play correspond à un segment vidéo où le jeu est en cours tandis que l’état break répond
à un segment où le jeu est arrêté. Encore, Duan et al. [16] ont défini des règles pour
tracer une carte de caractéristiques visuelles et audio des séquences vidéos. Au fait, les
approches basées sur les règles sont distinguées par la facilité de gestion des règles cà-d en cas d’ajout d’une nouvelle règle, de suppression et de modification des règles
existantes. Cependant, quand le type de la vidéo traité change, les règles doivent être
refaites manuellement.
3.1.2
Approches statistiques
Les approches statistiques représentent la deuxième classe d’approches de modélisation
des séquences de football. Ces approches utilisent des méthodes d’apprentissage pour
classifier les séquences de la vidéo de sport [43]. Nous citons dans ce qui suit quelques
techniques trouvées dans la littérature.
3.1.2.1
Les Machines à Vecteurs de Supports (SVMs)
Les SVMs ont été annoncés dans les années 1990 par V ladimir V apnik qui a développé
une théorie statistique d’apprentissage appelée la Théorie de Vapnik-Chervonenkis. Les
SVMs ont rapidement été adoptés pour leur capacité à manipuler des données de grandes
dimensions et à leur propriété de généralisation des résultats de la classification des données multimédia. A ce propos, plusieurs études ont été réalisées pour analyser la vidéo
de sports avec les SVMs. Nous citons l’étude de Y. Ma et al. [44] qui ont utilisé les SVMs
pour modéliser les caractéristiques du mouvement dans la vidéo afin de distinguer les
différents types de clips. Et dans [16, 45], L.-Y. Duan et al. et M. Xu et al. ont exploité
les SVMs pour créer des mid − level sports audio keywords. En liaison avec les SVMs,
l’extension SVMs hiérarchiques est développée pour traiter le cas où un simple SVM ne
peut pas distinguer toutes les classes requises en une seule étape [45]. De manière générale, les SVMs peuvent être utilisés dans la résolution des problèmes de discrimination
pour décider à quelle classe appartient un échantillon. De même, les SVMs traitent des
problèmes de régression pour prédire la valeur numérique d’une variable.
3.1.2.2
27
Les réseaux de neurones (RNs)
Les réseaux de neurones représentent une deuxième approche statistique pour classifier
les événements de la vidéo de football. Les RNs sont utilisés dans divers domaines tels
que le traitement du signal, le traitement d’image et de la parole, la robotique, etc. Les
réseaux de neurones utilisent l’algorithme perceptron multicouche, développé en 1985
[46]. L’algorithme perception multicouche est un algorithme de rétro propagation du gradient. Ce dernier détermine l’erreur commise par chaque neurone du réseau lors de la
phase d’apprentissage et il modifie la valeur du poids de chaque neurone pour minimiser cette erreur. Les rétro propagations sont itérées jusqu’à ce que l’erreur quadratique
moyenne devienne inférieure à un certain seuil. Diverses études sur le traitement de la
vidéo de sport avec les réseaux de neurones ont été réalisés. J. Assfalg et al. [12] ont
utilisé deux RNs pour classifier les plans de la vidéo de football. Les RNs permettent la
reconnaissance des bords du terrain et de la couleur verte. Aussi, V. Kobla et al. [47]
ont employé les réseaux de neurones pour segmenter la région du texte dans la vidéo de
sport.
3.1.2.3
Les Modèles de Markov Cachés (MMCs)
D’autres approches statistiques de modélisation des séquences vidéos reposent sur les
MMCs. Les MMCs sont utilisés lors de l’apprentissage et la reconnaissance des événements importants dans la vidéo de football. Leur popularité est due à leur habilité à
modéliser les motifs spatiaux temporels dans les séquences vidéos. Les MMCs seront
détaillés à la section 3.2.
3.1.2.4
Autres algorithmes
En plus des algorithmes déjà cités, il y’a d’autres approches statistiques telles que les
Chaînes de Markov Contrôlées [48], le maximum d’entropie [49], le classifieur bayesien
naïf [50] et le réseau de confiance bayesien [51].
3.2
Les Modèles de Markov Cachés
La manipulation des données avec les MMCs entre dans le cadre de la programmation
dynamique, introduite par Bellman en 1960 [52]. La programmation dynamique permet
de résoudre une catégorie particulière de problèmes d’optimisation sous contraintes. La
plupart des systèmes de reconnaissance automatique des événements importants dans
28
la vidéo de football utilisent la théorie des MMCs. Dans un MMC, et contrairement
aux Modèles de Markov Discrets [52], les observations ne sont pas reliées à une seule
classe bien déterminée mais à des fonctions statistiques liées aux classes du modèle.
Les modèles de Markov sont dits "cachés" parce que les classes du MMC ne sont pas
observées directement. Ces observations sont produites par les états du MMC à travers
une fonction statistique différente pour chaque classe du modèle [52].
3.2.1
Les paramètres du MMC
Un MMC est défini par [53, 54] :
– N états d’entrée réunis dans un vecteur d’états S = (s1 , s2 , ..., sN ). On note qt (qt S),
l’état observé à l’instant t ;
– Un vecteur de symboles observés dans chaque état du modèle. L’ensemble des observations possibles est noté par O = (o1 , o2 , ..., oT ). Avec ot (ot O) le symbole observé à
l’instant t et T correspond au nombre d’observations dans la séquence O.
– Une matrice de transitions a. Elle est calculée par l’équation (3.1) :
(3.1)
aij = P (st+1 = j/st = i)
pour 1 ≤ i, j ≤ N et 1 ≤ t ≤ T avec
PN
j=1 aij
= 1 et aij ≥ 0.
La matrice a est de taille N ∗ N . L’élément aij représente la probabilité d’atteindre
l’état j dans la prochaine transition sachant que le système est à l’état i.
L’équation (3.1) montre que l’état observé à l’instant t + 1 ne dépend que de son passé
immédiat, c-à-d de l’état st ;
La figure 3.1 illustre ce phénomène :
Fig. 3.1: Représentation d’un MMC par un réseau bayesien.
29
– Un vecteur de probabilités initiales π. Il représente la probabilité d’avoir l’état i au
début du MMC. π est calculé par l’équation (3.2) :
(3.2)
πi = P (s1 = i)
avec
1 ≤ i ≤ N , πi ≥ 0 ,
PN
= 1;
i=1 πi
– Une matrice de probabilités d’observations b de chaque état du MMC. bj est la probabilité d’observer l’état l alors que le modèle est à l’état j. La matrice b est calculée
par l’équation (3.3) :
bj (l) = P (ot = l/st = j)
avec 1 ≤ j ≤ N , 1 ≤ l ≤ T ,
– Un ou plusieurs états finals.
PT
l=1 bj (l)
(3.3)
= 1 et bj (l) ≥ 0
De manière générale, un MMC peut être spécifié par le triplet λ = (a, b, π).
3.2.2
Les inférences du MMC
Les inférences liées aux MMCs peuvent être classifiées en : a) une inférence en ligne,
recensée en même temps que le système évolue. Et elle est calculée à chaque moment où
une nouvelle observation est disponible et b) une inférence hors ligne. Elle est calculée à
la terminaison du phénomène observé.
3.2.2.1
Les inférences en ligne
Les inférences en ligne sont particulièrement utilisées dans les applications en ligne où il
est nécessaire de faire des choix en même temps que les objets se déplacent.
3.2.2.2
Les inférences hors ligne
Les inférences hors ligne sont calculées après la collecte de la dernière observation. Elles
sont utilisées dans l’apprentissage, le diagnostique et la classification. Les inférences hors
ligne traitent toutes les T observations de la séquence. Bien que le coût de l’inférence
croisse exponentiellement en fonction de la longueur N de la séquence, la programmation
dynamique calcule l’inférence en exactement o(T N 2 ).
3.2.3
30
Les algorithmes de manipulation des paramètres du MMC
Les MMCs utilisent principalement les algorithmes Forward, Backward et Viterbi dans
le calcul de la probabilité d’une séquence d’observation sachant les paramètres d’un
modèle et dans la recherche de la séquence d’états qui correspond le plus à une séquence
d’observation. Ces algorithmes calculent des inférences hors ligne.
3.2.3.1
L’algorithme Forward-Backward
L’algorithme Forward-Backward est proposé par Leonard E. Baum en 1970 [55]. Cet
algorithme utilise la programmation dynamique pour éviter les calculs redondants lors
de l’estimation de la probabilité Forward [9]. Ainsi, la solution naïve à ce problème
consiste à calculer la probabilité conditionnelle P (O/λ) en utilisant l’équation (3.4) :
P (O/λ) =
X
P (O/s, λ)P (s/λ)
(3.4)
s
Avec
P (O/s, λ) =
T
Y
P (ot /s, λ) = bs1 (o1 )bs2 (o2 )...bsT (oT )
(3.5)
t=1
Les observations sont indépendantes.
Et
P (s/λ) = πs1 as1 s2 as2 s3 ...asT −1 sT
(3.6)
Donc, P (O/λ) est calculée par l’équation (3.7) :
P (O1:T /λ) =
X
P (s1 )P (s2 /s1 )P (o2 /s2 )...P (sT /sT −1 )P (oT /sT )
(3.7)
s1 ,...,sT
Cette équation est de complexité o(N T ) ce qui est infaisable. D’où l’utilité des probabilités Forward αt (i) qui factorise les probabilités de sous séquences communes à plusieurs
séquences. Les probabilités Forward sont calculées de manière récursive par l’équation
(3.8), [9] :
N
X
αt (j)P ([st = i]/[st−1 = j])]P (ot /[st = i])
αt (i) = [
31
(3.8)
j=1
En effet, pour chaque unité de temps t, l’algorithme itère pour tous les états N du
modèle λ. De plus, pour chaque état de λ, l’algorithme itère pour tous ses prédécesseurs.
Le calcul total est de complexité o(T N 2 ).
A ce propos, l’algorithme Forward répond à une question souvent reliée aux MMCs
à savoir : Quelle est la probabilité d’une séquence d’observation complète sachant les
paramètres d’un modèle ? Cette probabilité P (O1:T /λ) peut être calculée efficacement
avec la probabilité Forward en utilisant l’équation (3.9) :
P (O1:T /λ) =
N
X
P (O1:T , sT = i/λ) =
i=1
N
X
αT (i)
(3.9)
i=1
L’algorithme Forward est présenté plus en détails ci-dessous [9] :
Algorithme 1 : Algorithme F orward (O1:T , λ)
Require: Une séquence d’observation O1:T
Les paramètres d’un MMC : λ = (a, b, π)
Ensure: Les probabilités Forward
1: for i = 1 to N do
2:
α1 (i) = πi bi (o1 )
3: end for
4: for t = 1 to T − 1 do
5:
6:
7:
for j = 1 to N do
P
αt+1 (j) = N
i=1 αt (i)aij bj (ot+1 )
end for
8: end for
9: return all αt (i)
A l’instar des probabilités Forward, les probabilités Backward βt (i) = P (Ot+1:T /[st =
i]λ) sont calculées récursivement par l’équation (3.10) :
βt (i) =
N
X
j=1
P ([st+1 = j]/[st = i])P (ot+1 /[st+1 = j])βt+1 (j)
(3.10)
32
A l’opposé des probabilités Forward, les probabilités Backward dépendent des unités
de temps suivantes. En effet, elles sont calculées à partir de la dernière observation.
L’algorithme Backward est détaillé ci-dessous [9] :
Algorithme 2 : Algorithme Backward (O1:T , λ)
Ensure: Les probabilités Backward
2:
βT (i) = 1
3: end for
4: for t = T − 1 down to 1 do
5:
6:
7:
for i = 1 to N do
P
βt (i) = N
j=1 aij bj (ot+1 )βt+1 (j)
end for
8: end for
9: return all βt (i)
3.2.3.2
L’algorithme Viterbi
Le calcul des inférences des MMCs est réalisé via les algorithmes Forward, Backward et
Viterbi. De son côté, l’algorithme Viterbi maximise la probabilité jointe arg max P (s1:T /O1:T ).
Et du fait qu’une seule séquence d’états peut correspondre à différentes séquences d’observation, Viterbi est utilisé pour répondre à la question suivante : "Quelle est la séquence
d’états qui correspond le plus à une séquence d’observation ?".
Les traitements réalisés par les algorithmes Forward et Viterbi se ressemblent. Toutefois,
la sommation de l’algorithme Forward est remplacée par une maximisation dans Viterbi
selon l’équation (3.11) :
δt+1 (j) = max[δt (i)aij ]bj (ot+1 )
i
(3.11)
Où δt (j) représente le maximum de vraisemblance d’avoir la séquence d’observation partielle O1:t et d’être à l’état j à l’instant t. Viterbi mémorise aussi, à chaque instant t et
pour chaque état j, l’état précédent ψt (i) qui conduit à j avec une probabilité maximale.
L’état ψt (i) est calculé par l’équation (3.12) :
N
ψt (j) = arg max(δt−1 aij )
i=1
(3.12)
33
Ainsi, l’algorithme Viterbi calcule le meilleur chemin par la recherche de l’état qui maximise s∗T = arg maxj ψT (j). Ensuite, il fait un retour en arrière pour calculer ses prédécesseurs : s∗T −1 = ψ(s∗T ).
L’algorithme Viterbi est présenté en détails ci-dessous [9] :
Algorithme 3 : Algorithme V iterbi (O1:T , λ)
Ensure: La séquence d’état la plus probable s∗1:T
2:
δ1 (i) = πi bi (o1 )
3:
ψ1 (i) = 0
4: end for
5: for t = 2 to T do
6:
for j = 1 to N do
7:
δt (j) = maxi1,...,N [δt−1 (i)aij bj (ot )]
8:
ψt (j) = arg maxi1,...,N (δt−1 aij )
9:
end for
10: end for
11: s∗T = arg maxi1,...,N [δT (i)]
12: for t = T − 1 down to 1 do
13:
s∗t = ψt+1 (s∗t+1 )
14: end for
15: return s∗1:T
La complexité de l’algorithme Viterbi est o(N 2 T ).
3.2.4
L’apprentissage des paramètres du MMC
L’opération d’apprentissage permet d’estimer les valeurs des paramètres du MMC. Le
calcul de ces paramètres est toujours accompagné par des erreurs d’estimation. A ce
propos, si on note les paramètres que l’on cherche à apprendre par θ et les paramètres
b
estimés en fonction des données X par θ(X).
Alors, l’erreur commise en estimant les
b
paramètres est (X) = θ(X)
− θ. Cette erreur est utilisée comme critère d’évaluation de
la qualité d’apprentissage. Les critères les plus utilisés dans l’apprentissage des MMCs
[56] sont : le critère Maximum de vraisemblance (MV) et le critère Maximum a posteriori
(MAP).
3.2.4.1
34
L’apprentissage avec le critère MV
L’optimisation du critère MV est réalisée par l’algorithme Baum-Welch. Cet algorithme,
originellement introduit par Leonard E. Baum [55], est une instance de l’algorithme
EM. L’algorithme Baum-Welch part d’un modèle grossier, puis il optimise le critère de
vraisemblance jusqu’à convergence [56].
L’apprentissage d’un MMC consiste à encoder une séquence d’observation pour que le
MMC puisse identifier une observation similaire dans le futur. L’apprentissage permet
de trouver le modèle λ qui maximise P (O/λ).
Nous calculons ζt (i, j), la probabilité d’être à l’état i à l’instant t et à l’état j à l’instant
t + 1 sachant λ et une séquence O.
αt (i)aij bj (ot+1 )βt+1 (j)
ζt (i, j) = PN PN
i=1
j=1 αt (i)aij bj (ot+1 )βt+1 (j)
(3.13)
Ensuite, nous calculons γt (i), la probabilité d’être à l’état i à l’instant t sachant O.
γt (i) =
N
X
ζt (i, j)
(3.14)
j=1
Après, nous passons à l’apprentissage des paramètres de λ : π, a et b.
(3.15)
π
bi = γ1 (i)
PT −1
ζt (i, j)
b
aij = Pt=1
T −1
t=1 γt (i)
bbj (k) =
PT −1
t=1,ot =k
PT −1
t=1
γt (j)
γt (j)
(3.16)
(3.17)
L’algorithme Baum-Welch, décrit ci-dessous, manipule les probabilités Forward-Backward
pour éviter les calculs redondants [9, 57].
Algorithme 4 : Algorithme Baum − W elch (O1:M , λ)
Require: Une séquence d’observations O1:M
Apprentissage des paramètres du MMC : λ = (a, b, π)
Ensure: Les paramètres du MMC : λ = (b
a, bb, π
b)
35
1: for t = 1 to T − 1 do
2:
ζt (i, j) =
3: end for
αt (i)aij bj (ot+1 )βt+1 (j)
PN
i=1
j=1 αt (i)aij bj (ot+1 )βt+1 (j)
PN
4: for t = 1 to T − 1 do
5:
6:
7:
for i = 1 to N do
P
γt (i) = N
j=1 ζt (i, j)
end for
8: end for
10:
π
bi = γ1 (i)
11: end for
12: for j = 1 to N do
13:
for i = 1 to N do
b
ai,j =
14:
15:
end for
P T −1
ζt (i,j)
Pt=1
T −1
t=1 γt (i)
16: end for
17: n = size(b)
18: N cb = n(2)
19: for j = 1 to N do
20:
21:
for k = 1 to
cb do
P TN
−1
t=1,ot =k γt (j)
b
bj (k) = P T −1
t=1
22:
γt (j)
end for
23: end for
3.2.4.2
L’apprentissage avec le critère MAP
Le deuxième critère dans l’apprentissage des paramètres des MMCs est le maximum a
posteriori. La probabilité a posteriori est calculée par la formule de Bayes : P (θ/X) =
P (X/θ)P (θ)
P (X)
avec P (θ), la probabilité a priori. Ainsi, l’optimisation de la probabilité
P (θ/X) permet de calculer l’estimateur a posteriori θbM AP (X) par l’équation (3.18) [56] :
θbM AP (X) = arg max P (θ/X) = arg max P (X/θ)P (θ)
θ
3.2.5
θ
(3.18)
La structure du MMC
La structure d’un MMC décrit les transitions possibles entre les états du modèle. Nous
citons : 1) La structure "ergodique", où chaque état est accessible à partir de tous les
36
autres états du MMC et 2) La structure "gauche-droite" dont les coefficients de transitions obéissent à la contrainte suivante : aij = 0, ∀j < i. Les figures 3.2(a) et 3.2(b)
illustrent les deux structures précitées [9].
(a) Ergodique
(b) Gauche-droite
Fig. 3.2: Exemples de deux structures des MMCs [9].
En plus des structures ou topologies "ergodique" et "gauche-droite", il y’a la topologie
"tableau de listes chaînées". Cette dernière est utilisée lorsque la matrice A est creuse,
c.-à-d. elle contient plusieurs zéros.
3.3
Techniques de reconnaissance des événements importants dans la vidéo de matches de football
La reconnaissance des événements importants dans la vidéo de football est une opération importante. Car, elle permet d’identifier les séquences vidéo intéressantes c-à-d, les
séquences qui illustrent des événements importants tels que les buts, les fautes directes,
les corners, les penalties, etc.
Plusieurs recherches ont été réalisées pour reconnaitre les événements importants dans la
vidéo de football. Certaines recherches statistiques utilisent les capacités d’apprentissage
automatiques pour obtenir la connaissance, d’autres utilisent des règles pour reconnaître
ces événements importants. Nous citons : 1) La technique proposée par C.-L. Huang
et al. [10] qui utilisent les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques, 2) La
technique suggérée par L.-Y. Duan et al. [17] qui se servent d’une représentation de niveau
intermédiaire, 3) La technique de S. Lao et al. [18] qui usent d’une unité sémantique de
37
base et des réseaux de Petri, 4) La technique qui se sert des P lay et des Break présentée
par D. Tjondronegoro et al. [11], 5) La technique conçue par J. Assfalg et al. [12] qui
emploient les MMCs et les positions des joueurs sur le terrain de jeu et finalement 6) La
technique basée sur les mots clés et les MMCs et suggérée par J. Wang et al. [13].
3.3.1
Reconnaissance des événements importants avec les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques (BNs/DBNs)
C.-L. Huang et al. [10] utilisent les BNs et les DBNs pour reconnaitre les événements
importants. Ces deux réseaux codent les relations temporelles entre les noeuds (les plans
de la vidéo de football) pour analyser la sémantique des événements importants. C.-L.
Huang et al. définissent trois types de noeuds : 1) Les noeuds "événements importants",
2) Les noeuds cachés qui représentent les rediffusions (replay), la légende, les plans
proches, l’audio, le public et l’arbitre et 3) Les noeuds preuves, qui regroupent les descripteurs de l’énergie, le logo, la texture, le mouvement, les lignes parallèles et la couleur
dominante. Les noeuds du réseau sont initialement déconnectés. Ensuite, les probabilités
de transitions entre eux sont calculées lors de la phase d’apprentissage.
L’apprentissage des BNs/DBNs est une étape primordiale dans la modélisation des événements importants dans la vidéo des matches de football. Les figures 3.3(a) et 3.3(b)
montrent un exemple de BN et de DBN de l’événement important corner.
(a) Réseau bayesien de l’événement corner
(b) Réseau bayesien dynamique de l’événement corner
Fig. 3.3: Exemples de BN et de DBN de l’événement corner [10].
3.3.2
38
Reconnaissance des événements importants avec une représentation de niveau intermédiaire : mid − level
L.-Y. Duan et al. [17] présentent une autre technique de reconnaissance des événements
importants. Cette technique utilise une représentation de niveau intermédiaire. Elle sépare les segments vidéos In P lay Segment (IPS), où le jeu est en cours des segments
Out of P lay Segment (OPS), où le jeu est arrêté. L.-Y. Duan et al. utilisent la couleur
du terrain pour créer une carte de suivi des probabilités de cette couleur (FPMT) en
vue de détecter les IPS et OPS. La FPMT trace des formes géométriques sur le terrain.
Or, cette carte réalise une perception stable de la couleur malgré la variation des conditions d’éclairage du terrain. La FPMT calcule le ratio entre les histogrammes de couleurs
d’une image modèle et l’image en cours de traitement. Par exemple, l’événement "but"
est caractérisé par l’excitation de la voix du commentateur et celle du public avec un
long OPS. Tandis que l’événement "coup de corner" est distingué par la détection d’un
sifflement dans les deux derniers plans d’un OPS avec l’apparition des plans du goal et
des plans médium des joueurs. Cependant, si le "coup de corner" n’est pas effectué alors
il s’agit d’un "coup de penalty" si l’OPS est long ou bien il s’agit d’un "coup libre" si
l’OPS est court.
3.3.3
Reconnaissance des événements importants avec l’unité sémantique de base et les réseaux de Pétri (BSUCPN)
S. Lao et al. [18] représentent les événements importants dans la vidéo de matches de
football par des unités sémantiques et les réseaux de Pétri. Et ils caractérisent l’événement
"but", par exemple, par des plans de la zone du goal, suivis d’OPSs ou d’OFSs avec
une grande énergie dans le discours du commentateur et un grand bruit des spectateurs.
L’OFS (Out of F ield Segment) est un segment qui ne contient pas d’herbe. Ensuite, des
répétitions qui dépassent les 30 secondes sont diffusées. Les répétitions du but contiennent
des OPSs ou des OFSs avec l’affichage de la table du score. Par contre, l’événement
"corner" est distingué par des plans médiums du terrain de football avec l’apparition de
l’arc du corner et de la zone du goal.
3.3.4
Reconnaissance des événements importants avec les segments
play et break
D. Tjondronegoro et al. [11] ont développé une autre technique pour reconnaitre les événements importants. Cette technique traite les segments play et break. En effet, l’examen
39
de plusieurs séquences de l’événement "but" a montré que la durée du break après l’événement doit être entre 30 et 120 secondes. Le segment break reporte les célébrations des
supportaires et garde l’attention des téléspectateurs en attendant que le jeu soit repris.
De plus, des répétitions de l’événement important sont diffusées après la visualisation
d’un ou de plusieurs plans proches. De même, un "coup de corner" est reconnu si un
sifflement est détecté dans les deux derniers plans d’un segment break avec l’apparition
des plans de "la région du goal". La figure 3.4 illustre les séquences play − break dans
une vidéo de football.
Fig. 3.4: Les séquences play − break dans une vidéo de football [11].
D. Tjondronegoro et al. [11] ont produit des statistiques pour chaque événement important par l’utilisation d’un ensemble de variables telles que :
– Le SqD qui représente la durée de la séquence play−break. Le domaine de connaissance
a montré qu’une séquence de l’événement "but" est plus longue qu’une séquence ne
contenant pas d’événements intéressants.
– Et le BR qui est le rapport
break
SqD .
Il mesure la longueur d’un break. Le calcul de ce
ratio est important puisqu’une séquence "but", par exemple, a un grand BR. Cela est
dû aux célébrations des supportaires et aux rediffusions de l’événement.
3.3.5
Reconnaissance des événements importants avec les MMCs et
les positions des joueurs sur le terrain de jeu
J. Assfalg et al. [12] utilisent les MMCs, le suivi des mouvements de la caméra et des
informations sur les positions des joueurs sur le terrain de jeu pour reconnaitre les événements importants. J. Assfalg et al. traitent quelques descripteurs tels que le mouvement
de la caméra qui a une forte corrélation avec le mouvement du ballon. Aussi, ils [12]
effectuent une description quantitative des positions des joueurs sur le terrain de jeu. Ils
définissent trois zones dans chaque demi-terrain : la petite zone du gardien du goal (f1),
40
la zone du goal (f2) et la zone entre le goal et le centre du terrain (f3). Ainsi, les positions
des joueurs sont décrites par trois qualifieurs fuzzy, un pour chaque zone. Les trois zones
sont illustrées sur la figure 3.5 :
Fig. 3.5: A gauche, un schéma qui montre les positions des joueurs sur le terrain et à
droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs des zones f1,
f2 et f3 [12].
J. Assfalg et al. [12] utilisent aussi les MMCs pour reconnaitre les événements importants. Ils supposent que l’espace des événements est composé de M classes E1 , ...EM .
Où chacune d’elles correspond à un événement important particulier. J. Assfalg et al.
attribuent à chaque classe Ei un MMC λi . Et ils décomposent l’événement "penalty",
par exemple, en trois phases : Dans la phase 1, le joueur se prépare pour tirer le ballon
et la caméra est en état de pause. Dans la phase 2, la caméra se déplace rapidement vers
le goal pour suivre le coup du joueur. Et dans la troisième et dernière phase, la caméra
se ralentit. J. Assfalg et al. [12] utilisent les trois phases précédentes pour présenter tout
événement important. Aussi, ils emploient des MMCs de topologies gauche-droite et de
trois états d’entrée chacun : loin, médium et proche.
3.3.6
Reconnaissance des événements importants avec les mots clés et
les MMCs
J. Wang et al. [13] proposent un modèle de trois niveaux pour reconnaitre les événements
importants dans la vidéo de football. Dans le niveau bas, la vidéo est divisée en flux
visuel et audio pour extraire les descripteurs de bas niveau. Ensuite, ces derniers sont
envoyés au niveau moyen pour les assembler dans des groupes étiquetés par des mots
clés. Cet étiquetage est réalisé par des classifieurs SVMs. J. Wang et al. [13] définissent
41
un ensemble de mots clés visuels tels que le plan loin du milieu du terrain, le plan loin
de la zone du goal, le plan proche, le public et la répétition. De plus, ils [13] emploient
les mots clés audio : applaudissements, discours du rapporteur, sifflements et silence.
Par conséquent, les séquences de mots clés sont appelées vecteurs de mots clés. Après,
ce flux de vecteurs est traité par les MMCs au niveau haut du modèle pour reconnaitre
les sémantiques des événements importants. La figure 3.6 illustre un diagramme pour
reconnaitre les événements importants avec les mots clés et les MMCs.
Fig. 3.6: Diagramme pour la reconnaissance des événements importants avec les mots
clés et les MMCs [13].
3.3.7
Résumé
Le tableau 3.1 présente un sommaire des recherches réalisées dans le cadre de la reconnaissance des événements importants dans la vidéo de football.
3.4
42
Conclusion
Nous avons présenté dans la première section de ce chapitre les deux grandes approches de
modélisation des événements importants dans la vidéo de football. Il s’agit des approches
qui utilisent des règles et les approches qui emploient des outils statistiques. Ensuite
et dans la deuxième section, nous avons parlé en détails des MMCs qui représentent
un outil statistique. Nous avons présenté aussi leurs six paramètres et les algorithmes
d’estimation de leurs valeurs : Forward-Backward et Viterbi. A la fin de cette même
section, nous avons montré les critères d’apprentissage des paramètres des MMCs et
quelques structures physiques de ces modèles. Dans la troisième et dernière section, nous
avons exposé quelques techniques de reconnaissance des événements importants dans la
vidéo de football que nous avons trouvé dans la littérature. Dans les chapitres 4 et 5,
nous allons présenter les quatre contributions pour reconnaitre les événements importants
dans la vidéo de football et proposées dans ce rapport.
43
Références
Descripteurs utilisés
Classifieurs/Algorithmes
C.-L. Hang et al. [10]
Logo, couleur dominante, texture
Réseaux Bayesiens/
rediffusin, légende, audio, lignes
Réseaux Bayesiens
parallèles, plan proche, audience,
Dynamiques
arbitre, mouvement des objets
L.-Y. Duan et al. [17]
S. Lao et al. [18]
Couleur dominante, audio, plan
Représentation de niveau
du goal, plan médium, IPS, OPS
interdédiaire : mid-level
Couleur dominante, plan du goal,
Unité sémantique de base
plan médium, plan du corner
et les réseaux de
audio, répétition, table
Petri (BSUCPN)
du score, OPS, OFS
D. Tjondronegoro et al. [11]
Segment play, segment break
Algorithme personalisé
audio, répétition, plan proche,
plan du goal
J. Assfalg et al. [12]
Mouvement du ballon, zone du
MMC
gardien, zone du goal, zone entre
le goal et le centre du terrain
J. Wang et al. [13]
Couleur dominante, audio, mots
MMC
clés, plan loin, plan proche,
zone du goal, audience, répétition
S.-C. Chen et al. [58]
Couleur du terrain, déplacement
Data Minig et
des objets, plan loin, plan proche,
les règles de classification
plan médium, audio
M. Luo et al. [59]
Couleur du terrain, plan loin,
Structure
plan proche, plan médium,
pyramidal
répétition
Y.-L. Kang et al. [60]
Couleur du terrain, texture,
Règles de détection
mouvement, mots clés, plan loin,
et les arbres
plan proche, plan médium,
plan du goal, plan audience
X.-F. Tong et al. [2]
Couleur du terrain, texture, bords,
Réseaux Bayesiens
mouvement, plan proche,
plan loin, plan médium
J. Li et al. [61]
Mots clés, plan loin,
Réseaux Bayesiens
plan médium, plan proche
plan hors du terrain, position
du jeu, répétition, audio
Tab. 3.1: Sommaire des techniques de reconnaissance des événements importants.
Chapitre 4
Reconnaissance des événements
importants dans la vidéo de football
avec les MMCs et le théorème de
Bayes
Dans ce chapitre, nous allons proposer deux études qui emploient les MMCs pour reconnaitre les événements importants dans la vidéo de football. Dans la première section,
nous allons avancer l’approche qui utilise un seul MMC. Ensuite et dans la deuxième
section, nous allons présenter l’approche qui exploite les MMCs et le théorème de Bayes.
Nous présentons aussi les résultats expérimentaux associés aux deux approches précitées.
Lors de l’expérimentation, nous utilisons des bases d’apprentissage et de reconnaissance.
Elles sont construites de séquences vidéos extraites de différents matches de football
pour avoir différentes conditions d’herbe, de luminance et d’enregistrement de la vidéo
de football. Une séquence vidéo est de 5 secondes environ et de format MPEG 352*288
avec un débit de 1150 kbps. Les résultats des expériences seront présentés sous forme de
tableaux. Ils vont montrer le nombre et le pourcentage des séquences vidéos bien et mal
classées. De plus, nous allons calculer certains critères d’évaluation des résultats obtenus
tels que la précision, la spécificité et la sensibilité ou le rappel. Et vers la fin, nous allons
présenter la courbe de ROC associée à chaque technique de reconnaissance d’événements
importants présentée dans ce chapitre.
44
Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec
les MMCs et le théorème de Bayes
45
4.1
Contribution 1 : Reconnaissance des événements importants dans la vidéo de football avec un seul MMC
Dans cette section, nous présentons une première approche de reconnaissance des événements importants dans la vidéo de football. Cette approche utilise un seul MMC d’événements importants de trois états d’entrée et deux états de sortie. Les états d’entrée sont
les classes de plans de la vidéo de football : loin, médium et proche et les états de sortie
sont : événement important et événement non important. La méthode de classification de
plans employée dans les quatre contributions de cette thèse sera détaillée dans la première
sous section. Dans la deuxième sous section, nous allons modéliser les séquences vidéos
avec un MMC d’événements importants. En fait, le traitement de ces séquences avec un
MMC est effectué en deux phases. Une première phase d’apprentissage des paramètres
du MMC en utilisant une base d’apprentissage d’événements importants et l’algorithme
d’estimation des paramètres du MMC : Baum-Welch. Cet algorithme est déjà traité dans
la sous section 3.2.4.1. La base d’apprentissage d’événements importants comprend un
ensemble de segments vidéos importants issus de différents matches de football. Ensuite,
nous classifions les images clés de ces segments selon leurs types de plans. Puis, nous
effectuons un apprentissage des paramètres du MMC. Après, nous passons à la phase de
reconnaissance des événements importants où nous calculons la probabilité d’avoir un
segment vidéo important en utilisant le MMC et les algorithmes d’estimation Forward
et Backward précédents. Les résultats de cette approche donne une précision de 80%.
4.1.1
Classification visuelle des plans
La classification des plans est une opération essentielle pour reconnaitre les événements
importants dans la vidéo de football. En outre, le domaine de connaissance a montré
qu’un événement important est caractérisé par une succession de plans loins suivis par
des plans médiums et à la fin il y’a plusieurs plans proches. Nous avons présenté dans la
section 2.3 plusieurs techniques de classification de plans que nous avons trouvées dans
la littérature. Ces techniques utilisent un ensemble de descripteurs de bas niveau tels
que : la couleur du terrain, la texture, le logo, etc. Nous avons utilisé la propriété de la
couleur dominante du terrain (vert) pour classifier les plans dans les quatre contributions
de cette thèse. En effet, l’emploi de ce descripteur donne une bonne classification.
Dans le même contexte, Y. Tabii et al. [62] propose une approche de classification de
plans basée sur la couleur verte du terrain. Leur approche classifie les plans en deux
étapes : l’apprentissage et la classification. Dans la première étape, Y. Tabii et al. extraient manuellement des images à partir de diverses vidéos de football et ils les nomment
46
"images d’apprentissage". Ensuite, ils classifient ces images selon leurs types de plans :
loin, médium ou proche pour construire une base d’apprentissage de plans. Après, ils calculent le ratio de la couleur dominante pour chaque type de plans dans l’espace Teinte,
Saturation et Valeur (HSV). Et finalement, ils calculent les valeurs moyennes des différentes composantes de la couleur verte pour chaque type de plans. Et dans l’étape de
classification, Y. Tabii et al. [62] comparent les valeurs des composantes de la couleur
verte des images clés d’une séquence de test avec celles de la base d’apprentissage. Ils [62]
utilisent la règle du Golden-Section Spatial Composition (GSSC) qui divise les images en
3 :5 :3 dans les deux directions [7, 63]. Le découpage des plans en neuf portions permet de
différencier les trois classes de plans puisque le caméraman met toujours l’action du jeu
au milieu de l’image. La figure 4.1 illustre les trois types de plans et l’application de la
GSSC sur les correspondants binaires des plans. Nous remarquons que le plan loin 4.1(d)
est caractérisé par des lignes supérieures noires. Et le plan médium 4.1(e) comprend deux
colonnes blanches (les colonnes droite et gauche) et une ligne supérieure noire à 50%.
Enfin, le plan proche 4.1(f) est caractérisé par une colonne médium noire.
(a) Plan loin
(b) Plan médium
(c) Plan proche
(d) Plan loin en binaire
(e) Plan médium en binaire
(f) Plan proche en binaire
Fig. 4.1: Les trois classes de plans et l’application de la GSSC sur leur correspondants
en binaire.
47
La figure 4.2 illustre le processus de segmentation de la vidéo de football et la classification
des images clés en utilisant la GSSC.
Fig. 4.2: Processus de segmentation de la vidéo de football et la classification des
images clés en utilisant la GSSC.
4.1.2
Modélisation et reconnaissance des événements importants avec
un MMC
La reconnaissance des événements importants dans la vidéo de football en utilisant un
MMC d’événements importants λ1 est réalisée en deux phases : l’apprentissage et la
reconnaissance [64, 65].
Dans la phase d’apprentissage, nous commençons par la construction de λ1 en utilisant une base d’apprentissage d’événements importants et les algorithmes d’estimation
des paramètres des MMCs précédents. Ainsi, la construction de λ1 se fait via : 1) la
collecte des états du modèle. Les états de λ1 sont les classes de plans : loin (L), médium
(M) et proche (P), 2) la création d’un ensemble de vecteurs d’états à partir de la base
d’apprentissage des séquences importantes. Le vecteur est représenté de la manière suivante : [LLLMMMPPP] et 3) l’apprentissage et l’optimisation itérative des paramètres
de λ1 [64, 66] pour calculer leurs valeurs finales avec l’algorithme Baum-Welch.
48
Donc, le MMC λ1 est défini par [67] :
– N états d’entrée groupés dans l’ensemble S = {s1 , s2 , ..., sN }. λ1 comprend 3 états c
à d S = {”loin”, ”medium”, ”proche”}.
– Un vecteur de symboles observés dans chaque état du modèle. Il s’agit de la séquence
vidéo O.
– Une matrice de probabilités de transitions a1 (équation 4.1) :
a1ij = P [st+1 = j/st = i], 1 ≤ i, j ≤ N.
N
X
1 ≤ t ≤ T, avec
(4.1)
a1ij = 1 et a1ij ≥ 0.
j=1
T est la durée de la séquence vidéo O. Les transitions entre les états sont initialisées
par une distribution uniforme (équation 4.2).
a1ij = a1iu , ∀i, j, u = 1, 2, ..., N.
(4.2)
La matrice de transitions a1 après apprentissage est illustrée par l’équation 4.3.

0 1 0




a1 = 
 0 1 0 
0 0 1
(4.3)
La figure 4.3 montre les états de λ1 avec leurs probabilités de transitions :
0
1
1
0
L
M
0
0
0
0
P
1
Fig. 4.3: Les états et les probabilités de transitions de λ1 des événements importants.
Avec L : Loin, M : Médium et P : Proche. L est un état initial et M et P sont deux
états finaux.
– Une matrice de probabilités d’observation b1 pour chaque état du modèle. b1j est la
probabilité d’observer l’état l quand λ1 est à l’état j (équation 4.4) :
b1j (l) = P [ot = l/st = j], 1 ≤ j ≤ N.
1 ≤ l ≤ T,
T
X
l=1
b1j (l) = 1, b1j (l) ≥ 0
(4.4)
49
M est le nombre d’observations dans la séquence O.
Les probabilités d’observations sont initialisées par les données de la base d’apprentissage. L’initialisation est réalisée par la distribution régulière d’une séquence d’observation quelconque O dans les différents états du modèle. Cette procédure est appelée
"segmentation uniforme". L’initialisation permet d’estimer les probabilités d’observation de chaque état. Ainsi, nous estimons la probabilité b1j (ot ) de chaque symbole ot
(vecteur d’observation) à t sachant l’état j.
La matrice de probabilités d’observations b1 après apprentissage est illustrée par l’équation 4.5.

1
0
0




b1 = 
 0.294 0.272 0.432 
0
0
1
(4.5)
– Un vecteur de probabilités initiales π1 qui calcule la probabilité d’avoir l’état i au
premier état de λ1 (équation 4.6) :
π1i = P (s1 = i), 1 ≤ i ≤ N.
π1i ≥ 0, ∀i,
N
X
(4.6)
π1i = 1.
i=1
Dans la plupart des cas, nous initialisons π11 à 1 où les transitions entre les états du
modèle commencent du premier état.
Le vecteur de probabilités initiales π1 après apprentissage est illustrée par l’équation
4.7.

1

 

π1 = 
 0 
0
(4.7)
– Un ou plusieurs états finaux. Le MMC proposé comprend deux états finaux : événement
important et événement non important.
La phase d’apprentissage de λ1 donne les valeurs finales aux matrices a1, b1 et au vecteur
π1 et elle est réalisée par l’algorithme d’estimation Baum-Welch.
La phase de reconnaissance est la deuxième opération dans le processus de reconnaissance des événements importants dans la vidéo de football. Cette phase permet de
calculer une valeur de probabilité pour une séquence vidéo O. Cette valeur classifie O
en un événement important ou non important. Sachant un ensemble de MMCs d’événements importants et un vecteur quelconque O, la phase de reconnaissance permet de
rechercher le modèle qui maximise la vraisemblance P (O/λ) par l’équation 4.8 :
50
λ = arg max P.
(4.8)
Ensuite, nous calculons la probabilité d’une séquence d’observation partielle à l’état i
par l’équation 4.9 [64] :
αt (i) = P (o1 , o2 ...ot , qt = i/λ).
(4.9)
Puis, nous calculons la probabilité d’occurrence par un calcul récursif de la probabilité
Forward en utilisant l’équation 4.10 :
P (O/λ) =
N
X
αt (i).
(4.10)
i=1
Avec 1 ≤ i ≤ N , 1 ≤ t ≤ T
N est le nombre d’états du modèle et T est la durée de la séquence O. Après, nous utilisons
l’algorithme Viterbi [66, 68] pour estimer la séquence d’états optimale du MMC.
Le traitement d’une séquence vidéo par le MMC des événements importants λ1 délivre
une probabilité de vraisemblance. Et finalement, nous comparons cette probabilité avec
un certain seuil pour classifier O en un événement important ou non important.
4.1.3
Résultats expérimentaux
Nous utilisons, dans cette première approche, une base d’apprentissage de 70 segments
vidéos d’événements importants et deux bases de test de 541 segments vidéos. Cette
dernière base comprend 301 segments d’événements importants et 240 segments d’événements non importants. Le traitement d’une séquence vidéo O avec λ1 revient à calculer
la probabilité pour que O soit un événement important. Ensuite, nous comparons cette
dernière probabilité avec le seuil Θ=0.001. Si la probabilité est supérieure à Θ, alors
la séquence O est un événement important, sinon elle correspond à un événement non
important.
51
Le tableau 4.1 montre les résultats de classification des séquences vidéos avec λ1 d’événements importants.
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=241
b=60
301
c=191
d=49
240
432
109
N=541
importants
Evénements
non importants
Total
Tab. 4.1: Résultats de classification des séquences vidéos avec λ1 d’événements importants.
La précision, la spécificité et la sensibilité ou le rappel sont calculés par les équations
(4.11), (4.12) et (4.13) suivantes :
P recision = a/a + b = 0.800
(4.11)
Specif icite = d/b + d = 0.449
(4.12)
Sensibilite = Rappel = c/c + d = 0.795
(4.13)
Le tableau 4.2 présente les résultats de classification des séquences vidéos de la base
de test selon le type d’événement important : but, corner, faute directe, carton jaune/
rouge, penalty ou tentative pour marquer un but. Ce traitement utilise λ1 d’événements
importants :
52
Séquences vidéos
Détectées
Correctes
Fausses
But
50
45(90%)
5(10%)
Corner
12
10(83,33%)
2(16,66%)
Faute directe
66
55(83,33%)
11(16,66%)
Carton jaune
23
21(91,30%)
2(8,70%)
Penalty
4
4(100%)
0(0%)
Tentative pour marquer
146
106(72,6%)
40(27,39%)
/rouge
un but
Tab. 4.2: Résultats de reconnaissance des événements importants avec λ1. Ils sont
classés par type d’événement.
Aussi, les résultats de classification des séquences vidéo de la base de test avec λ1 d’événements importants sont représentés par la courbe de ROC 4.4 suivante :
True positive rate (Sensibilité)
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
False positive rate (1−Spécificité)
1
Fig. 4.4: La courbe de ROC des résultats de classifcation des séquences vidéo avec λ1.
4.1.4
Conclusion
Dans cette première section, nous avons présenté une approche de reconnaissance des
événements importants dans la vidéo de football. Elle se base sur la modélisation temporelle des séquences vidéos importantes avec un MMC d’événements importants λ1. Ainsi,
nous avons utilisé la couleur verte du terrain pour classifier les images clés des séquences
vidéos en types de plans. Cette opération permet de formater les séquences vidéos en
vecteurs de plans. Nous avons exposé aussi les résultats expérimentaux de cette approche.
Dans la section suivante, nous allons présenter une approche de reconnaissance des événements importants en utilisant deux MMCs d’événements importants et d’événements
non importants avec l’emploi du théorème de Bayes.
53
4.2
Contribution 2 : Reconnaissance des événements importants avec deux MMCs et le théorème de Bayes
Nous présentons dans cette deuxième section une autre approche d’apprentissage et de
reconnaissance des événements importants dans la vidéo de matches de football. Cette
approche combine les inférences du modèle bayesien et les probabilités des MMCs. Ainsi,
nous construisons deux MMCs : un MMC d’événements importants λ1 et un autre MMC
d’événements non importants λ2. Les deux MMCs permettent de calculer les probabilités
d’appartenance, d’une séquence vidéo O, à chacune des deux classes d’événements. Par la
suite, nous appliquons le modèle de Bayes pour estimer la probabilité d’appartenance de
la séquence O à la classe des événements importants. Cette méthode donne des résultats
avec une précision de 91.3%.
4.2.1
Modélisation des séquences vidéos avec deux MMCs
A l’instar de l’approche 1, la reconnaissance des événements importants avec les MMCs
est réalisée en deux étapes : l’apprentissage et la reconnaissance. Dans la phase d’apprentissage, nous découpons le flux numérique en segments. Par la suite, nous classifions
les images clés de ces segments selon leurs types de plans : loin, médium ou proche. Ensuite, nous construisons deux MMCs en utilisant les algorithmes d’estimation ForwardBackward, Baum-Welch et Viterbi et deux bases d’apprentissage. Nous utilisons une
base de séquences vidéos d’événements importants et une autre base de séquences vidéos
d’événements non importants.
L’apprentissage des séquences vidéos avec deux MMCs utilise un ensemble fini d’états
d’entrée, un vecteur d’observations O, deux matrices de transitions a1 et a2, deux matrices d’observations b1 et b2 et deux vecteurs de probabilités initiales π1 et π2. Les
deux MMCs ont trois états d’entrée chacun : loin (L), médium (M) et proche (P). a1,
b1 et π1 sont les paramètres du MMC d’événements importants λ1 et a2, b2 et π2 sont
les paramètres du MMC d’événements non importants λ2. Les valeurs initiales des matrices a1, a2, b1 et b2 et des vecteurs π1 et π2 sont prédites manuellement en utilisant
les connaissances du domaine. Ensuite, les bases d’apprentissage et l’algorithme BaumWelch [66, 68] sont employés dans l’estimation des valeurs finales des paramètres de λ1
et λ2. Les états de sortie des MMCs sont au nombre de deux : événement important et
événement non important.
Les paramètres du λ1 sont déjà calculés dans l’approche 1.
54
La matrice de transitions a2 de λ2 est définie par l’équation (4.14) :


a2 = 

0.9556 0.0444 0
0
1
0
0


0 

0
(4.14)
La figure 4.5 présente les états du MMC d’événements non importants λ2 et ses probabilités de transitions après apprentissage :
0.95
1
0.05
0
L
0
0
M
0
0
P
0
Fig. 4.5: Les états et les probabilités de transitions de λ2.
La matrice de probabilités d’observations b2 et le vecteur de probabilités initiales π2 de
λ2 sont définis par les équations (4.15) et (4.16) :

0.2663 0.7337
0




b2 = 
 0.5316 0.2231 0.2453 
0
0
0

1
(4.15)

 

π2 = 
 0 
0
(4.16)
Puis, nous passons à l’étape de reconnaissance. Nous calculons alors P (O/λ1 et P (O/λ2
les probabilités d’avoir un événement important et un événement non important respectivement. La reconnaissance de l’événement important se fait par les MMCs après
apprentissage et les deux algorithmes Forward-Backward et Viterbi.
55
La figure 4.6 illustre le processus de reconnaissance des événements importants avec les
MMCs et le théorème de Bayes.
O
λ1
λ2
P 1(O/EImp )
P 1(O/¬EImp )
Théorème
de Bayes
P
Fig. 4.6: Schéma pour reconnaître les événements importants avec les MMCs et le
théorème de Bayes.
avec :
– O : séquence vidéo formatée en un vecteur de plans.
– λ1 : le MMC d’événements importants.
– P 1(O/EImp ) : probabilité conditionnelle de O sachant un événement important. Elle
est calculée par le λ1.
– λ2 : le MMC d’événements non importants.
– P 1(O/¬EImp ) : probabilité conditionnelle de O sachant un événement non important.
Elle est calculée par le λ2.
– P : probabilité finale d’avoir un événement important. Elle est calculée par le théorème
de Bayes.
Ainsi, la phase de reconnaissance délivre deux probabilités de vraisemblance pour une
séquence vidéo O. Les deux probabilités seront manipulées par la formule de Bayes pour
calculer une seule probabilité, celle d’avoir un événement important.
4.2.2
Utilisation du théorème de Bayes dans la reconnaissance des événements importants
L’inférence bayésienne calcule la distribution a posteriori sur une séquence vidéo en utilisant une distribution a priori (données des bases d’apprentissage) et une séquence vidéo
en entrée. La distribution a posteriori combine l’information initiale avec l’information
apportée par la séquence vidéo [69].
Distribution a priori + Séquence vidéo en entrée → Distribution a posteriori
56
L’utilisation du théorème de Bayes dans la reconnaissance des événements importants
consiste à calculer un ensemble de probabilités. P 1(O/EImp ) est la probabilité pour
qu’une séquence vidéo O soit un événement important et P 1(O/¬EImp ) est la probabilité pour que la même séquence soit un événement non important. Le calcul de ces
deux probabilités utilise les paramètres des MMCs après apprentissage, les données des
deux bases d’apprentissage et les algorithmes d’estimation précédents. De plus, nous
calculons P (EImp ), la probabilité d’avoir un événement important et P (¬EImp ), la probabilité d’avoir un événement non important. Ces deux probabilités sont calculées par
les équations (4.17), (4.18) et (4.19) :
P (EImp ) = N EImp /(N EImp + N ¬EImp )
(4.17)
P (¬EImp ) = N ¬EImp /(N EImp + N ¬EImp )
(4.18)
P (¬EImp ) = 1 − P (EImp )
(4.19)
Ou
N EImp dénote le nombre d’événements importants et N ¬EImp est le nombre d’événements non importants dans les bases d’apprentissage.
Ensuite, nous employons les probabilités précédentes pour calculer l’inférence bayésienne
en utilisant l’équation (4.20). Cette inférence calcule la probabilité d’avoir un événement
important sachant une séquence vidéo O donnée :
P (EImp /O) =
P 1(O/EImp ) ∗ P (EImp )
P 1(O/EImp ) ∗ P (EImp ) + P 1(O/¬EImp ) ∗ P (¬EImp )
(4.20)
Enfin, la valeur de probabilité P (EImp /O) est comparée à un seuil particulier 0 < Θ < 1.
La séquence O est un événement important si P > Θ et non important autrement.
4.2.3
Nous employons dans cette deuxième approche deux bases d’apprentissage et deux bases
de test. Les bases d’apprentissage comprennent 150 segments vidéos avec 70 segments
d’événements importants et 80 segments d’événements non importants. Et la base de
test contient 541 segments vidéos avec 301 segments importants et 240 segments non
importants. Nous employons deux MMCs et le théorème de Bayes pour reconnaitre les
événements importants dans la vidéo de football. En fait, nous comparons l’inférence
57
bayesienne avec un seuil Θ égal à 0.9. La séquence de test est un événement important
si l’inférence est supérieure à Θ et non important autrement. Le tableau 4.3 montre les
résultats de classification des séquences vidéos avec deux MMCs et le théorème de Bayes.
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=275
b=26
301
c=190
d=50
240
465
76
N=541
importants
Evénements
non importants
Total
Tab. 4.3: Résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes.
La précision, la spécificité et le rappel sont calculés par les équations (4.21), (4.22) et
(4.23) suivantes :
(4.21)
(4.22)
(4.23)
Le tableau 4.4 présente les résultats de classification de différents types d’événements
importants : but, corner, faute directe, carton jaune/rouge, penalty et tentative pour
marquer un but. Il présente aussi les pourcentages des séquences vidéos bien et mal
classées.
58
Séquences vidéos
Détectées
Correctes
Fausses
But
50
47(94%)
3(6%)
Corner
12
11(91,66%)
1(8,33%)
Faute directe
66
58(87,87%)
8(12,12%)
Carton jaune
23
22(95,65%)
1(4,34%)
Penalty
4
4(100%)
0(0%)
146
133(91,1%)
13(8,90%)
/rouge
un but
Tab. 4.4: Résultats de classification des événements importants avec les MMCs et le
théorème de Bayes, classés par type d’événement.
Aussi, les résultats de classification des séquences vidéos avec deux MMCs d’événements
importants et d’événements non importants et le théorème de Bayes sont représentés par
la courbe de ROC 4.7 suivante :
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Fig. 4.7: La courbe de ROC des résultats de classification des séquences vidéo avec
deux MMCs et le théorème de Bayes.
4.2.4
Conclusion
Dans cette deuxième section, nous avons présenté une autre approche de reconnaissance
des événements importants dans la vidéo des matches de football. Cette approche utilise
les MMCs, une technique d’apprentissage supervisée et de reconnaissance robuste et efficace. Nous avons effectué aussi une classification des images clés des séquences vidéos en
plans : loin, médium ou proche. De plus, nous avons employé le modèle probabiliste bayesien qui donne de bons résultats de classification. Le modèle bayesien permet de calculer
les probabilités conditionnelles entre les événements importants ou non importants et les
séquences vidéos. Ainsi, cette approche utilise la variabilité temporelle dans les scènes
59
vidéos et les inférences du modèle bayesien pour améliorer la précision de reconnaissance
des événements importants dans la vidéo des matches de football.
4.3
Discussion
Nous avons présenté dans ce chapitre deux approches de reconnaissance des événements
importants dans la vidéo de football. D’abord, nous avons exposé l’approche de reconnaissance des événements importants en utilisant un MMC d’événements importants λ1.
Le traitement des séquences vidéos avec les MMCs est réalisé en deux étapes : l’apprentissage des paramètres et la reconnaissance des événements importants. L’apprentissage
des paramètres utilise des bases d’apprentissage d’événements importants et non importants et l’algorithme Baum-Welch. Ensuite, nous avons présenté la deuxième approche de
reconnaissance des événements importants. Elle emploie deux MMCs et le théorème de
Bayes. Nous avons utilisé dans cette deuxième approche deux MMCs : un MMC d’événements importants λ1 et un MMC d’événements non importants λ2. Ainsi, le traitement
d’une séquence vidéo quelconque avec les deux MMCs donne deux probabilités qui seront
utilisées par le théorème de Bayes.
Chapitre 5
Hypothèses gaussiennes pour
reconnaitre les événements
importants dans la vidéo de football
Nous avons présenté dans le chapitre précédent deux approches de reconnaissance des
événements importants dans la vidéo de football utilisant les MMCs et le théorème de
bayes. Dans ce chapitre, nous allons exposer deux autres approches pour reconnaitre
ces événements spéciaux. Ainsi, nous allons expliquer l’approche de reconnaissance des
événements importants avec les MMCs et le théorème de Gauss. De plus, nous allons
présenter l’approche de reconnaissance des événements importants avec les MMCs et les
MMGs. En fait, nous allons utiliser des MMGs avec deux, six et dix gaussiennes. Nous
allons effectuer aussi des comparaisons entre les résultats des trois types de mélanges.
5.1
Contribution 3 : Reconnaissance des événements importants avec les MMCs et le modèle gaussien
Nous présentons dans cette section une troisième approche d’apprentissage et de reconnaissance des événements importants dans la vidéo de football. A l’instar des approches
précédentes, nous utilisons une modélisation statistique basée sur les MMCs pour traiter
les dépendances temporelles entre les données. De plus, nous utilisons un modèle gaussien qui est fréquemment utilisé dans la classification automatique des motifs. Avec cette
approche, les résultats de classification des segments vidéos de football en événements
importants ou non importants atteignent une précision de 87%.
60
Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la
vidéo de football
61
5.1.1
Modélisation des événements de football avec deux MMCs
Dans cette approche, nous utilisons deux MMCs pour modéliser les événements importants et non importants dans la vidéo de football. La phase d’apprentissage des MMCs
est réalisée de la même façon qu’à la sous section 4.2.1.
Lors de la phase de reconnaissance, nous utilisons les deux MMCs des événements importants λ1 et non importants λ2 précédents et les algorithmes d’estimation des paramètres
des MMCs pour calculer deux probabilités de vraisemblance. Ces probabilités seront utilisées par le modèle gaussien pour calculer la probabilité d’avoir un événement important.
La figure 5.1 montre un schéma pour reconnaitre les événements importants dans la vidéo
de football avec les MMCs et la loi de Gauss.
O
Loi de
Gauss
λ1
λ2
P 1(O/EImp )
P 1(O/¬EImp )
ΣImp , µImp
¬ΣImp , ¬µImp
P 2(O/EImp )
/
P 2(O/¬EImp )
P
Fig. 5.1: Schéma de reconnaissance des événements importants avec les MMCs et la
loi de Gauss.
avec :
– ΣImp : variance des événements importants.
– µImp : moyenne des événements importants.
– ¬ΣImp : variance des événements non importants.
– ¬µImp : moyenne des événements non importants.
vidéo de football
62
– P 2(O/EImp ) : probabilité conditionnelle de O sachant un événement important. Elle
est calculée par la formule de Gauss.
– P 2(O/¬EImp ) : probabilité conditionnelle de O sachant un événement non important.
Elle est calculée par la formule de Gauss.
– P : probabilité finale d’avoir un événement important sachant O.
5.1.2
Utilisation du modèle gaussien pour la reconnaissance des événements importants dans la vidéo de football
La reconnaissance des événements importants dans la vidéo de football avec les MMCs
peut être réalisée en conjonction avec le modèle gaussien. La formule de Gauss effectue
une synthèse entre l’hypothèse d’avoir un événement important ou non important et
l’événement enregistré dans une séquence vidéo O quelconque.
Le modèle gaussien calcule les paramètres suivants : 1) la moyenne de la densité de
la classe d’événements importants µImp et d’événements non importants ¬µImp par les
équations (5.1) et (5.2) et 2) la variance de la densité de la classe d’événements importants
ΣImp et d’événements non importants ¬ΣImp par les équations (5.3) et (5.4).
µImp =
¬µImp =
P 1(O/EImp )
P 1(O/EImp ) + P 1(O/¬EImp )
(5.1)
P 1(O/¬EImp )
P 1(O/EImp ) + P 1(O/¬EImp )
(5.2)
A ∗ t (A)
A ∗ t (A) + B ∗ t (B)
(5.3)
ΣImp =
¬ΣImp =
B ∗ t (B)
A ∗ t (A) + B ∗ t (B)
(5.4)
Avec A = P 1(O/EImp ) − µImp et B = P 1(O/¬EImp ) − ¬µImp
P (EImp ) et P (¬EImp ) sont les probabilités d’un événement important et non important
respectivement. Elles sont calculées à partir des bases d’apprentissage des événements
importants et non importants respectivement.
vidéo de football
63
Ensuite, nous calculons, par les équations (5.5) et (5.6), les vraisemblances de O. Les
vraisemblances sont des densités de O. Ainsi, nous calculons la densité de la séquence
vidéo O sachant un événement important P 2(O/EImp ) et non important P 2(O/¬EImp ) :
P 2(O/EImp ) =
P 2(O/¬EImp ) =
1
1
t
exp(− ∗ (A) ∗ Σ−1
Imp ∗ (A))
1/2
2
2π ∗ |ΣImp |
1
1
t
exp(− ∗ (B) ∗ ¬Σ−1
Imp ∗ (B))
2
2π ∗ |¬ΣImp |1/2
(5.5)
(5.6)
Les probabilités P 1(O/EImp ) et P 1(O/¬EImp ) sont calculées par λ1 et λ2 respectivement. Par la suite, nous calculons la probabilité finale d’avoir un événement important
en utilisant les probabilités P 2(O/EImp ), P 2(O/¬EImp ), P (EImp ) et P (¬EImp ).
De là, la probabilité finale P d’un événement important sachant O est calculée par
l’équation (5.7).
P =
P 2(O/¬EImp ) ∗ P (¬EImp )
(5.7)
Finalement, nous comparons P avec un certain seuil 0 < Θ < 1. La séquence vidéo O
est un événement important si P > Θ et un événement non important autrement.
5.1.3
A l’exemple de la deuxième contribution, nous employons deux bases d’apprentissage :
une pour les événements importants (70 séquences) et une autre pour les événements
non importants (80 séquences). Nous utilisons aussi deux bases de test : une première
base d’événements importants (301 séquences) et une deuxième base d’événements non
importants (240 séquences). Nous comparons la probabilité P , calculée par l’équation
(5.7), avec le seuil Θ= 0.35. La séquence O est un événement important si P est supérieure
à Θ et non important autrement. Le tableau 5.1 présente le nombre de séquences vidéos
bien et mal classées en appliquant les MMCs et le théorème de Gauss.
vidéo de football
64
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=262
b=39
301
c=184
d=56
240
446
95
N=541
importants
Evénements
non importants
Total
Tab. 5.1: Résultats de classification des séquences vidéos avec les MMCs et le théorème
de Gauss.
La précision, la spécificité et le rappel sont calculés par les équations (5.8), (5.9) et (5.10)
suivantes :
(5.8)
(5.9)
(5.10)
Le tableau 5.2 présente les résultats de classification des différents types d’événements
importants : but, corner, faute directe, carton jaune/rouge, penalty et tentative pour
marquer un but. Il présente aussi le pourcentage des séquences bien et mal classées.
vidéo de football
65
Séquences vidéos
Détectées
Correctes
Fausses
But
50
49(98%)
1(2%)
Corner
12
11(91,66%)
1(8,33%)
Faute directe
66
62(93,93%)
4(6,06%)
Carton jaune
23
22(95,65%)
1(4,34%)
Penalty
4
4(100%)
0(0%)
146
114(78,08%)
32(21,91%)
/rouge
un but
Tab. 5.2: Résultats de classification des séquences vidéos avec les MMCs et le théorème
de Gauss classés par catégorie de l’événement important.
En plus, les résultats de la classification des séquences vidéos avec deux MMCs et le
théorème de Gauss sont représentés par la courbe de ROC 5.2 suivante :
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Fig. 5.2: La courbe de ROC des résultats de classification des séquences vidéos avec
deux MMCs et le théorème de Gauss.
5.1.4
Conclusion
Nous avons présenté, dans cette section, une troisième approche de reconnaissance des
événements importants dans la vidéo de football. Elle utilise les MMCs et le modèle
gaussien. Nous avons réalisé un apprentissage des MMCs en utilisant des bases d’apprentissage d’événements importants et non importants et les algorithmes d’estimation
des paramètres des MMCs. De plus, nous avons utilisé la classification des plans pour formater les séquences vidéos en vecteurs de plans. Aussi, nous avons employé le théorème
de Gauss via le calcul de la variance et de la moyenne. Ces deux paramètres représentent
les données des bases d’apprentissage. Dans la section suivante, nous allons avancer une
vidéo de football
66
quatrième approche d’apprentissage et de reconnaissance des événements de football avec
les MMCs et les Modèles de Mélanges de Gaussiennes.
5.2
Contribution 4 : Reconnaissance des événements importants avec les MMCs et les MMGs
Dans cette section, nous présentons une quatrième approche d’apprentissage et de reconnaissance des événements importants dans la vidéo de matches de football. Cette
approche utilise les MMCs et les Modèles de Mélanges de Gaussiennes. De plus, nous
employons la classification de plans en loin, médium ou proche par le traitement de la
couleur verte du terrain. Aussi, nous utilisons des MMGs avec des mélanges de deux, six
et dix gaussiennes. Nous avons eu des résultats très satisfaisants en comparaison avec
d’autres études dans le même sujet.
5.2.1
Schéma général de l’étude
La reconnaissance des événements importants est réalisée via l’analyse de certaines caractéristiques des séquences vidéos de football. Nous pouvons distinguer trois types de
caractéristiques classées par niveaux et illustrés sur la figure 5.3. Les caractéristiques
de haut niveau sont les événements importants dans la vidéo de football tels que : les
buts, les penalties, les corners, les fautes, les cartons jaune/rouge et les tentatives pour
marquer un but. L’analyse de ces événements importants nous a permis de définir les
deux caractéristiques suivantes : la classification des plans et leur ordonnancement dans
les séquences vidéos importantes. La classification des plans est réalisée par le traitement
de la couleur dominante du terrain.
Niveau 2
Evénements importants
Niveau 1
Traitement intermédiaire
Niveau 0
Descripteur de bas niveau
Vidéo de football
Fig. 5.3: Schéma pour la reconnaissance des événements importants dans la vidéo de
matches de football avec trois types de descripteurs.
vidéo de football
67
5.2.2
Analyse des propriétés de la vidéo de football
La reconnaissance des événements importants dans la vidéo de football nécessite une
analyse des éléments du schéma 5.3. Les éléments des niveaux 0 et 2 sont déjà étudiés
dans les sous sections 2.2.2.1 et 2.2.4. Nous allons effectuer une classification de plans et
nous allons traiter leur ordonnancement dans les séquences importantes.
Classification des plans
Nous avons employé la technique de classification de plans proposée par Y. Tabii et al.
[62] et expliquée dans la sous section 4.1.1.
Ordonnancement des plans dans les séquences vidéos importantes
Le domaine de connaissance a montré que l’ordonnancement des plans dans les séquences
importantes suit certaines règles. En effet, les événements importants commencent par
l’apparition de plusieurs plans loins suivis par quelques plans médiums et à la fin, plusieurs plans proches sont diffusés. Cette succession de plans permet de reconnaître toutes
sortes d’événements importants dans la vidéo de football.
5.2.3
Modélisation des événements de football avec les MMCs
La quatrième approche de reconnaissance des événements importants dans la vidéo de
football utilise les MMCs et les MMGs. La reconnaissance est précédée par une phase
d’apprentissage des deux types de modèles. D’abord, nous construisons deux MMCs
en utilisant l’algorithme Baum-Welch et deux bases d’apprentissage différentes. Nous
utilisons une première base pour les séquences vidéos d’événements importants et une
deuxième base pour les séquences vidéos d’événements non importants. Les segments
vidéos des deux bases d’apprentissage sont rassemblées dans deux vecteurs après la classification de leurs images clés selon leurs types de plans. Nous utilisons aussi les deux
bases d’apprentissage précédentes et l’algorithme EM pour effectuer l’apprentissage des
deux MMGs : MMG1 d’événements importants et MMG2 d’événements non importants.
La phase de reconnaissance des événements importants avec les MMCs est déjà expliquée
dans la sous section 4.2.1.
5.2.4
Modélisation des événements de football avec les MMGs
Les MMGs sont utilisés dans de nombreux domaines tels que le traitement d’images et de
la parole. Les MMGs construisent des classifieurs en utilisant un apprentissage supervisé.
Et ils permettent d’approximer toute densité de probabilité, pourvu qu’elle présente
vidéo de football
68
certains caractères de régularité. De plus, les MMGs sont distingués par leur robustesse et
leur facilité d’utilisation. Enfin, la loi gaussienne et les MMGs ont profité de la popularité
des MMCs, auxquels ils sont traditionnellement attachés. En effet, les MMGs peuvent
être vus comme un cas particulier des modèles à structure cachée comme les MMCs.
Cependant, les variables des MMGs sont supposées indépendantes en comparaison avec
les MMCs [70].
5.2.4.1
Paramètres des MMGs
Soit y = [y1 , ..., yN ], un vecteur de variables aléatoires à densité de dimension N . Les
MMGs sont utilisés pour modéliser la densité de probabilité conditionnelle étant donné le
paramètre θ qui représente une classe : p(y/θ). De là, un MMG correspond à une densité
ou une fonction de vraisemblance présentée dans l’équation 5.11 [71] :
p(y/θ) =
K
X
prm p(y/θm )
(5.11)
m=1
K est le nombre de mélanges.
Avec ∀m, prm ≥ 0 et
PK
m=1 prm
= 1.
p(y/θm ) = p(y/µm , Σm )
(5.12)
La probabilité p(y/µm , Σm ), dans l’équation 5.13 [70], représente la loi gaussienne de
moyenne µm et de matrice de covariance Σm évaluée en y. prm est la probabilité a priori
pour que y soit produite par la mieme composante du mélange.
p(y/µm , Σm ) =
5.2.4.2
1
2π|Σm |
1
2
∗ exp[
−1
t
(y − µm )Σ−1
m (y − µm )]
2
(5.13)
Apprentissage des paramètres du MMG avec l’algorithme EM
L’apprentissage des paramètres des MMGs se fait à l’aide de l’algorithme EM qui calcule
de manière itérative le maximum de vraisemblance. Chaque itération de l’algorithme
consiste en une étape de calcul de l’espérance E suivie par une étape de la maximisation M, d’où son nom d’algorithme EM (Expectation-Maximization). Cet algorithme est
remarquable pour sa simplicité.
vidéo de football
69
Depuis sa formalisation sous le nom d’algorithme EM par A. P. Dempster et al. [72], il
est utilisé dans beaucoup de domaines de recherche : en signal [73, 74], en reconnaissance
d’activités [75] et en reconnaissance de formes [76].
Le but de l’algorithme EM est de déterminer pour chaque point sa probabilité d’appartenance aux gaussiennes du modèle. Ensuite, il effectue une réestimation des paramètres
du MMG. EM réalise ces deux opérations en maximisant la vraisemblance de manière
itérative. L’algorithme EM peut être décrit en trois étapes : une initialisation, un calcul
de probabilité et une mise à jour de l’estimation des paramètres de chaque gaussienne
du MMG. Le dernier point que nous aborderons est le critère d’arrêt de cet algorithme
[77].
Initialisation
L’initialisation de l’algorithme EM permet de choisir des matrices de covariance Σ0m , m ∈
[1, K]. Cette étape est réalisée par l’algorithme k-moyennes. Ce dernier partitionne une
collection d’objets en K classes, K étant un nombre fixé par l’utilisateur. Le déroulement
de l’algorithme k-moyennes est expliqué par G. Cleuziou [78].
Soient yj (1 6 j 6 N ) les objets de la base d’apprentissage, alors le principe de kmoyennes est le suivant :
– 1. Définition d’un nombre K de classes sur un ensemble d’objets. (R1 , ..., RK ) sont les
représentants de K classes (C1 , ..., CK ) qui sont pour l’instant vides.
– 2. Initialisation aléatoire des K centres de classes (centroïdes).
– 3. Affectation de chaque échantillon au centre le plus proche suivant la métrique choisie.
arg minm,16m6K d(yj , Rm ) où d est une distance ou une similarité entre les objets.
– 4. Calculer de nouveaux représentants pour les classes. Ces nouveaux représentants corP
respondent à la moyenne des objets de la classe : ∀m, 1 6 m 6 K, Rm = |C1m | j,yj ∈Cm yj
– 5. Retourner en 3 tant que la différence ∆(R) entre les anciens et les nouveaux représentants est supérieure à un seuil fixé (et arbitrairement petit).
La complexité de l’algorithme des k − moyennes est de l’ordre de O(KN Is), où K est
le nombre de classes, N est le nombre d’objets à classer, I est le nombre d’itérations de
l’algorithme et s la complexité du calcul de la distance/similarité.
La cohésion des classes obtenues est mesurée par : D =
PK
m=1
P
j,yj ∈Cm
d(yj , Rm )
Calcul de probabilité
Les données y = (y1 , ..., yN ) ont la fonction de densité (pdf) (5.14) suivante :
vidéo de football
70
P (yi ; θ) =
K
X
(5.14)
prm ϕm (yi ; αm )
m=1
K : est le nombre de composants. ϕm : sont les densités de paramètre αm de chacun des
composants. prm : les proportions du mélange. θ = (pr1 , ..., prK , α1 , ..., αK ) : le vecteur
des paramètres du modèle de mélange.
L’objectif de l’algorithme EM est donc la maximisation de la log-vraisemblance L(θ). Son
principe, qui repose sur la notion de données complétées, est de maximiser de manière
itérative l’espérance de la log-vraisemblance complétée conditionnellement au paramètre
courant θ (c) et aux données observées y. Pour le modèle de mélange, les données complétées correspondent tout naturellement au vecteur (y, z) où z est le label de chacun des
yi . z est un vecteur binaire. La log-vraisemblance des données complétées, aussi appelée
log-vraisemblance classifiante, s’écrit alors :
Lc (z, θ) =
X
(5.15)
zim log prm ϕm (yi ; αm )
i,m
L’algorithme EM est un algorithme itératif alternant une étape d’estimation E et une
étape de maximisation M.
Dans l’étape E, on calcule l’espérance conditionnelle de Lc (z; θ) notée Q(θ, θ (c) ) qui
s’écrit :
Q(θ, θ (c) ) =
X
(c)
sim {log(prm ) + log ϕm (yi αm )}
(5.16)
i,m
où
(c)
(c)
prm ϕm (yi ; αm )
(c)
sim = P (zim = 1/y, θ (c) ) = P
(c)
(c)
K
k 0 =1 prk 0 ϕk 0 (yi ; αk 0 )
(5.17)
Sachant le théorème de Bayes :
P (zim /y) =
et
P (y/zim )P (zim )
P (y)
(5.18)
vidéo de football
71
P (y) =
K
X
prm ϕm (yi ; αm )
(5.19)
m=1
(c)
sim correspond à la probabilité que yi provienne du mieme composant connaissant les
(c)
données y et le paramètre θ (c) . Cette étape se réduit donc au calcul des probabilités sim .
Mise à jour de l’estimation des paramètres
La dernière étape de l’algorithme EM est la maximisation M de la vraisemblance. Cette
étape calcule les valeurs finales des paramètres de chaque gaussienne du modèle. Ces
nouveaux paramètres servent de valeurs initiales pour l’itération suivante de l’algorithme
EM. De cette façon, les étapes de calcul de la probabilité et de la mise à jour des
paramètres sont réitérées jusqu’à convergence de l’algorithme.
On calcule θ (c+1) en maximisant en θ l’espérance conditionnelle Q(θ, θ (c)).
– Optimisation de la moyenne :
∂Q(θ, θ c )
=0
∂µm
(5.20)
⇒
PK
µm = Pi=1
K
τ (zim )yi
i=1 τ (zim )
(5.21)
– Optimisation de la covariance :
Σ m = PK
1
i=1 τ (zim )
K
X
τ (zim )(ym − µm ) t (ym − µm )
(5.22)
i=1
– Optimisation du terme de mélange par un multiplicateur de Lagrange :
prm =
PK
i=1 τ (zim )
K
(5.23)
Dans la pratique, des problèmes apparaissent souvent lors de l’apprentissage des modèles
de mélanges, notamment pour des données de "grande" dimension. Les matrices de covariance obtenues ne sont pas toujours bien conditionnées et leur inversion pose problème.
Une technique répandue consiste à régulariser les solutions. Dans notre implémentation,
à chaque étape de l’algorithme EM et après l’étape de ré-estimation, nous régularisons les
matrices de covariances en ajoutant à celles-ci une faible valeur sur la diagonale comme
présenté dans l’équation (5.24) :
Σyk = Σyk + ωId
(5.24)
vidéo de football
72
où ω est, en général, choisi en fonction des valeurs sur la diagonale Id de la matrice.
Cette approche est appelée le Maximum de Vraisemblance régularisé.
Critères d’arrêt
Le critère le plus utilisé pour stopper l’algorithme est le calcul de la vraisemblance présentée dans l’équation 5.25 après chaque itération de EM [77].
ϑ=
k
n X
Y
ϑm
i
(5.25)
i=1 m=1
Ainsi, si la différence entre le log-vraisemblance de deux itérations successives est inférieure à un donné, l’algorithme est arrêté.
5.2.5
La reconnaissance des événements importants dans la vidéo de
football avec les MMCs et les MMGs
La figure 5.4 montre le processus de reconnaissance des événements importants dans la
vidéo de football en utilisant les MMCs et les MMGs.
O
λ1
MMG1
MMG2
Loi de
Gauss
P 1(O/EImp )
P 2(O/EImp )
/
λ2
P 1(O/¬EImp )
P 2(O/¬EImp )
P
Fig. 5.4: Schéma de reconnaissance des événements importants avec les MMCs et les
MMGs.
vidéo de football
73
avec :
– M M G1 : Modèle de Mélanges de Gaussiennes des événements importants. Il a les
paramètres suivants : 1) la matrice de covariance du MMG1 : ΣM M GImp , 2) le vecteur
de la moyenne du MMG1 : µM M GImp et 3) le vecteur des probabilités a priori des
mélanges du MMG1 : prImp .
– M M G2 : Modèle de Mélanges de Gaussiennes des événements non importants. Il a
les paramètres suivants : 1) la matrice de covariance du MMG2 : ¬ΣM M GImp , 2) le
vecteur de la moyenne du MMG2 : ¬µM M GImp et 3) le vecteur des probabilités a
priori des mélanges du MMG2 : ¬prImp .
Ainsi, la reconnaissance des événements importants dans la vidéo de football commence
par l’utilisation des MMCs pour calculer P 1(O/EImp ), la probabilité conditionnelle de
la séquence O sachant un événement important et P 1(O/¬EImp ), la probabilité conditionnelle de la même séquence O sachant un événement non important. P 1(O/EImp ) et
P 1(O/¬EImp ) sont calculées à partir des paramètres des MMCs après apprentissage et
des bases d’apprentissage d’événements importants et d’événements non importants.
Ensuite, nous calculons les paramètres du MMG1 d’événements importants : prImp ,
µM M GImp et ΣM M GImp et les paramètres du MMG2 d’événements non importants :
¬prImp , ¬µM M GImp et ¬ΣM M GImp .
Puis, nous calculons les probabilités d’avoir un événement important et d’avoir la séquence vidéo O sachant un événement non important : P 2(O/EImp ) et P 2(O/¬EImp ).
Elles sont calculées par la fonction de vraisemblance :
p(y/θ) =
K
X
prm p(y/θm )
(5.26)
m=1
Avec
p(y/µm , Σm ) =
1
2π|Σm |
1
2
∗ exp[
−1
t
(y − µm )Σ−1
m (y − µm )]
2
(5.27)
Ces deux probabilités utilisent le théorème de Gauss, les bases d’apprentissage et les
paramètres des MMCs et des MMGs après apprentissage. Elles sont calculées par les
équations 5.28 et 5.29.
vidéo de football
74
P 2(O/EImp ) =
K
X
prImp (m) ∗
m=1
exp(− 12 ∗ C(m) ∗ ΣM M GImp (m)−1 ∗ t (C(m)))
,
2π ∗ |ΣM M GImp (m)|1/2
(5.28)
Avec K le nombre de gaussiennes utilisé.
et C(m) = P 1(O/EImp ) − µM M GImp (m)
P 2(O/¬EImp ) =
K
X
¬prImp (m) ∗
m=1
exp(− 21 ∗ D(m) ∗ ¬ΣM M GImp (m)−1 ∗ t (D(m)))
,
2π ∗ |¬ΣM M GImp (m)|1/2
(5.29)
avec D(m) = P 1(O/¬EImp ) − ¬µM M GImp (m)
Par la suite, nous calculons P (EImp ) et P (¬EImp ), les probabilités d’avoir un événement
important et un événement non important respectivement par les équations 5.30, 5.31 et
5.32.
P (EImp ) = N EImp /(N EImp + N ¬EImp ).
(5.30)
P (¬EImp ) = N ¬EImp /(N EImp + N ¬EImp ).
(5.31)
P (¬EImp ) = 1 − P (EImp ).
(5.32)
et
N EImp dénote le nombre d’événements importants et N ¬EImp , le nombre d’événements
non importants dans les bases d’apprentissage.
Finalement, nous calculons la probabilité finale d’un événement important par l’équation
5.33. Puis, nous comparons la valeur de probabilité P avec un certain seuil 0 < Θ < 1. La
séquence vidéo O est un événement important si P > Θ et un événement non important
autrement.
P =
5.2.6
P 2(O/¬EImp ) ∗ P (¬EImp )
(5.33)
Nous utilisons les mêmes bases d’apprentissage et de test de l’approche précédente. Nous
utilisons deux MMCs et deux MMGs. Lors de la phase d’apprentissage des paramètres des
vidéo de football
75
MMGs, nous utilisons l’algorithme EM pour mettre à jour les paramètres des mélanges
des MMGs. De plus, nous employons un seuil égal à 1e−10 pour stopper les opérations
E et M. Et nous régularisons les matrices de covariance, après chaque réestimation des
paramètres des MMGs, en leur ajoutant la valeur ω = 1e−5 . Nous allons présenter les
résultats expérimentaux de reconnaissance des événements importants avec des mélanges
de deux, six et dix gaussiennes. Les résultats de classification montrent que plus le nombre
de mélanges de gaussiennes augmente, plus la classification des séquences vidéos est
bonne.
5.2.6.1
Résultats de reconnaissance des événements importants avec un mélange de deux gaussiennes
Les figures 5.5 et 5.6 représentent les données des bases d’apprentissage d’événements
importants et d’événements non importants respectivement avec une distribution de deux
Probabilités calculées par le MMC
des événements importants
gaussiennes.
0.1
0.05
0
20
40
60
20
40
60
0.1
0.05
0
Données de la base d’apprentissage
Fig. 5.5: Représentation des données de la base d’apprentissage d’événements importants avec une distribution en deux gaussiennes.
des événements non importants
vidéo de football
76
0.1
0.05
0
20
40
60
80
20
40
60
80
0.1
0.05
0
Fig. 5.6: Représentation des données de la base d’apprentissage d’événements non
importants avec une distribution en deux gaussiennes.
Le tableau 5.3 présente le nombre les séquences vidéos bien et mal classées en utilisant
deux MMCs et deux MMGs avec un mélange de deux gaussiennes.
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=258
b=43
301
c=182
d=58
240
440
101
N=541
importants
Evénements
non importants
Total
Tab. 5.3: Résultats de classification des séquences vidéos en utilisant deux MMCs et
deux MMGs avec un mélange de deux gaussiennes.
(5.36) :
(5.34)
(5.35)
(5.36)
vidéo de football
77
Le tableau 5.4 présente les résultats de classification de divers événements importants :
but, corner, faute directe, carton jaune/rouge, penalty et tentative pour marquer un but.
Il présente aussi les pourcentages des séquences d’événements importants bien et mal
classées.
Séquences vidéos
Détectées
Correctes
Fausses
But
50
48(96%)
2(4%)
Corner
12
10(83%)
2(17%)
Faute directe
66
61(92%)
5(8%)
Carton jaune
23
23(100%)
0(0%)
Penalty
4
4(100%)
0(0%)
Tentative pour
146
112(77%)
34(23%)
/rouge
marquer un but
Tab. 5.4: Résultats de classification des séquences vidéos importantes en utilisant deux
MMCs et deux MMGs avec un mélange de deux gaussiennes.
Aussi, nous utilisons la courbe de ROC sur la figure 5.7 pour représenter les résultats de
classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec un mélange de deux gaussiennes
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
deux MMCs et deux MMGs avec deux gaussiennes.
vidéo de football
78
5.2.6.2
Résultats de reconnaissance des événements importants avec un mélange de six gaussiennes
Les figures 5.8 et 5.9 représentent les données des bases d’apprentissage des événements
importants et des événements non importants respectivement ainsi que leur distribution
en six gaussiennes.
0.1
0.05
0
20
40
60
20
40
60
0.1
0.05
0
Fig. 5.8: Représentation des données de la base d’apprentissage des événements importants avec une distribution en six gaussiennes.
0.1
0.05
0
20
40
60
80
20
40
60
80
0.1
0.05
0
Fig. 5.9: Représentation des données de la base d’apprentissage des événements non
importants avec une distribution en six gaussiennes.
vidéo de football
79
Le tableau 5.5 présente le nombre de séquences vidéos bien et mal classées en utilisant
deux MMCs et deux MMGs avec six mélanges de gaussiennes.
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=252
b=49
301
c=194
d=46
240
446
95
N=541
importants
Evénements
non importants
Total
Tab. 5.5: Résultats de classification des séquences vidéos en utilisant deux MMCs et
deux MMGs avec un mélange de six gaussiennes.
(5.39) :
(5.37)
(5.38)
(5.39)
vidéo de football
80
Le tableau 5.6 présente les résultats de classification de divers événements importants. Il
présente aussi les pourcentages des séquences importantes bien et mal classées.
Séquences vidéos
Détectées
Correctes
Fausses
But
50
46(92%)
4(8%)
Corner
12
10(83%)
2(17%)
Faute directe
66
57(86%)
9(14%)
Carton jaune
23
23(100%)
0(0%)
Penalty
4
4(100%)
0(0%)
Tentative pour
146
112(77%)
34(23%)
/rouge
marquer un but
MMCs et deux MMGs avec un mélange de six gaussiennes.
Les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec six gaussiennes sont représentés par la courbe de ROC sur la figure 5.10 suivante :
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
deux MMCs et deux MMGs avec six gaussiennes.
vidéo de football
81
5.2.6.3
Résultats de reconnaissance des événements importants avec un mélange de dix gaussiennes
Les figures 5.11 et 5.12 représentent les données des bases d’apprentissage d’événements
importants et d’événements non importants respectivement avec une distribution en dix
gaussiennes.
0.1
0.05
0
20
40
60
20
40
60
0.1
0.05
0
Fig. 5.11: Représentation des données de la base d’apprentissage des événements importants avec une distribution en dix gaussiennes.
0.1
0.05
0
20
40
60
80
20
40
60
80
0.1
0.05
0
Fig. 5.12: Représentation des données de la base d’apprentissage des événements non
importants avec une distribution en dix gaussiennes.
vidéo de football
82
Le tableau 5.7 présente le nombre de séquences vidéos bien et mal classées en utilisant
deux MMCs et deux MMGs avec un mélange de dix gaussiennes.
Séquences
Bonne
Mauvaise
Total
vidéos
classification
classification
Evénements
a=260
b=41
301
c=203
d=37
240
463
78
N=541
importants
Evénements
non importants
Total
Tab. 5.7: Résultats de classification des séquences vidéos en utilisant les MMCs et
deux MMGs avec un mélange de dix gaussiennes.
(5.42) :
(5.40)
(5.41)
(5.42)
vidéo de football
83
Le tableau 5.8 présente les résultats de classification des événements importants et le
pourcentage des séquences importantes bien et mal classées.
Séquences vidéos
Détectées
Correctes
Fausses
But
50
49(98%)
1(2%)
Corner
12
11(92%)
1(8%)
Faute directe
66
62(94%)
4(6%)
Carton jaune
23
22(96%)
1(4%)
Penalty
4
4(100%)
0(0%)
Tentative pour
146
112(77%)
34(23%)
/rouge
marquer un but
MMCs et deux MMGs avec un mélange de dix gaussiennes.
Les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec un mélange de dix gaussiennes
sont représentés par la courbe de ROC sur la figure 5.13 suivante :
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
deux MMCs et deux MMGs avec dix gaussiennes.
5.2.6.4
Comparaison des résultats de reconnaissance des événements importants avec différents mélanges de gaussiennes
Le tableau 5.9 montre les résultats de classification des événements importants en utilisant les MMCs et des mélanges de deux, six et dix gaussiennes. Nous présentons sur le
même tableau les valeurs de la précision, la spécificité et le rappel pour chaque méthode.
vidéo de football
84
MMCs et MMGs 2
MMCs et MMGs 6
MMCs et MMGs 10
Détectées
Correctes
Correctes
Correctes
But
50
48(96%)
46(92%)
49(98%)
Corner
12
10(83%)
10(83%)
11(92%)
Faute directe
66
61(92%)
57(86%)
62(94%)
Carton jaune
23
23(100%)
23(100%)
22(96%)
Penalty
4
4(100%)
4(100%)
4(100%)
Tentative pour
146
112(77%)
112(77%)
112(77%)
Précision
X
0.857
0.837
0.863
Spécificité
X
0.574
0.484
0.474
Rappel
X
0.758
0.808
0.845
/rouge
marquer un but
Tab. 5.9: Résultats de classification de divers types d’événements importants en utilisant les MMCs et les MMGs.
Nous allons tracer sur la figure 5.14 les courbes de ROC des trois mélanges de gaussiennes
pour comparer les résultats de classification des séquences vidéos. Ainsi, la figure présente
les résultats de classification des séquences vidéo avec deux MMCs et deux MMGs avec
un mélange de deux, six et dix gaussiennes :
1
0.8
0.6
0.4
0.2
0
0
MMC et MMG avec
2 gaussiennes
MMC et MMG avec
6 gaussiennes
MMC et MMG avec
10 gaussiennes
0.2
0.4
0.6
0.8
1
Fig. 5.14: La courbe de ROC de classification des séquences vidéos avec l’utilisation
de deux MMCs et deux MMGs avec deux, six et dix gaussiennes.
L’analyse du tableau 5.9 et la figure 5.14 montre que plus le nombre de mélanges de
gaussiennes utilisés augmente, plus la classification est bonne.
vidéo de football
85
5.2.7
Conclusion
Dans cette section, nous avons présenté une nouvelle technique d’apprentissage et de reconnaissance des événements importants dans la vidéo de football. Cette technique utilise
les MMCs grâce à leur capacité à modéliser les événements spatiaux temporels, propriété
de la vidéo de football. De plus, nous avons employé les MMGs qui : 1) approchent correctement les distributions alternatives, 2) sont simple à manipuler et 3) calculent certaines
propriétés pour représenter les données observées telles que la moyenne et la variance.
L’utilisation des MMCs en conjonction avec les MMGs donnent de bons résultats lors
de la reconnaissance des événements importants dans la vidéo de football. Nous avons
utilisé des mélanges de deux, six et dix gaussiennes lors de la phase d’apprentissage et de
reconnaissance des événements importants. Encore, nous avons effectué des traitements
sur les images clés des segments vidéos. Nous les avons classifiés en trois types : loin,
médium et proche. En effet, l’ordonnancement des plans d’un segment vidéo joue un rôle
important dans la reconnaissance des événements importants dans la vidéo de football.
5.3
Discussion
Dans ce chapitre, nous avons exposé deux approches gaussiennes pour reconnaitre les
événements importants dans la vidéo de football. La troisième approche de reconnaissance des événements importants utilise deux MMCs et le théorème de Gauss. En fait, les
deux probabilités calculées par les MMCs sont traitées par le théorème de Gauss. Dans
la quatrième approche, nous avons employé deux MMCs et deux MMGs pour reconnaitre les événements importants dans la vidéo de football. Nous avons utilisé un MMG1
d’événements importants et un MMG2 d’événements non importants. Le traitement des
séquences vidéos avec les MMGs nécessite une opération d’apprentissage des paramètres
de ces derniers. L’apprentissage est réalisé par les algorithmes K-moyennes et EM. Nous
avons présenté aussi les résultats expérimentaux des deux approches gaussiennes. Et finalement, nous avons présenté des tableaux et des figures récapitulatifs des résultats de
classification des événements de football. Les résultats montrent que la technique de reconnaissance des événements de football avec les MMCs et le théorème de Bayes donne
une meilleure classification.
Chapitre 6
Conclusions et perspéctives
6.1
Objectifs et domaines d’exploitation de la thèse
L’objectif principal des recherches présentées dans cette thèse est la reconnaissance des
événements importants dans la vidéo de football. Nous essayons via ces recherches de :
1) Faciliter la gestion de la vidéo de football par un filtrage de contenus non importants
tels que les événements réguliers. De là, ce filtrage permet de fournir aux utilisateurs
des contenus intéressants, 2) Créer des résumés vidéos qui constituent un bon moyen
d’indexation des vidéos de match de football.
Ainsi, les outils de reconnaissance des événements importants dans la vidéo de football
peuvent être utilisés dans la création des résumés vidéos pour une courte diffusion du
match de football lors des journaux télévisés ou émissions sportives. Aussi, ils peuvent
être exploités par les opérateurs de télécommunication pour envoyer aux intéressés les
séquences vidéos importantes par téléphone. Nous avons développé quatre différentes
approches pour reconnaître les événements importants dans la vidéo de football dans
le but d’améliorer la précision de bonne classification et pour réduire la complexité de
calcul.
6.2
Contributions majeures
Nous avons proposé dans cette thèse quatre approches de reconnaissance d’événements
importants dans la vidéo de football. Elles utilisent toutes les MMCs pour modéliser
les séquences vidéos. Les MMCs classifient les séquences vidéos avec un apprentissage
supervisé. Les MMCs sont connus par leur capacité à modéliser les structures spatiotemporelles. En plus des MMCs, nous avons employé le théorème de Bayes, le théorème de
86
Chaptire 6. Conclusions et perspéctives
87
Gauss et les MMGs pour faire une meilleure approximation lors du calcul des probabilités
associées à chaque séquence vidéo.
Le traitement des séquences vidéos nécessite une analyse des images clés de ces séquences.
Aussi, nous avons réalisé une opération de classification de ces images représentatives en
plans : loin, médium et proche. La classification des plans se base sur la couleur verte
du terrain. Nous avons utilisé l’espace de couleur HSV qui fait une discrimination entre
les propriétés : luminance et chrominance. De plus, nous avons représenté les séquences
vidéos par des vecteurs de plans pour faciliter leur manipulation. L’originalité de nos
travaux réside dans l’exploitation conjointe des classes de plans et des MMCs dans la
modélisation des séquences vidéos de football.
La figure 6.1 illustre les approches de reconnaissance des événements importants avancées
dans cette thèse ainsi que les outils employés pour cette fin.
Fig. 6.1: Processus de classification d’une séquence vidéo O avec quatre techniques
utilisant les MMCs.
88
Le tableau 6.1 réalise une comparaison des résultats de classification des événements
dans la vidéo de football avec les MMCs. La comparaison est réalisée via le calcul de la
précision, la spécificité et le rappel pour déterminer les performances de classification.
Critères
Un seul
MMCs et
MMCs et
MMCs et
MMCs et
MMCs et
MMC
Bayes
Gauss
MMGs 2
MMGs 6
MMGs 10
Précision
0.8
0.913
0.870
0.857
0.837
0.863
Spécificité
0.449
0.657
0.589
0.574
0.484
0.474
Rappel
0.795
0.791
0.766
0.758
0.808
0.845
Tab. 6.1: Comparaison des résultats de classification des événements de football avec
les MMCs.
La comparaison des résultats de classification des séquences vidéos avec les MMCs peut
être effectuée avec la courbe de ROC sur la figure 6.2 suivante :
1
0.9
0.8
0.7
0.6
MMC + Mélange de 2
Gaussiennes
MMC + Mélange de 6
Gaussiennes
MMC + Mélange de 10
Gaussiennes
MMC seul
MMC + Bayes
MMC + Gauss
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
six techniques de reconnaissance des événements importants avec les MMCs.
Le tableau 6.1 et la figure 6.2 montre que les MMCs réalisent une bonne modélisation
des événements de football. De plus, le théorème de Bayes et les MMCs constituent la
meilleure technique de classification des séquences vidéos.
6.3
Travaux en cours et perspectives
Nous travaillons actuellement sur la reconnaissance des événements importants par l’analyse de l’audio. En effet, les événements importants sont accompagnés par l’excitation
de la voix du présentateur et du public.
89
Les perspectives de notre thèse se résument en quatre axes :
– Essayer d’extraire le texte sur les légendes par des méthodes de reconnaissance de
caractères optiques (OCR) pour reconnaître les événements but, carton jaune/rouge
et changement de joueur. En effet, l’emploi des données textuelles, audio et visuelles
pourrait améliorer la précision de détection d’événements importants en comparaison avec les techniques qui utilisent l’audio et les informations visuelles seulement.
Ainsi, une technique qui fusionne les trois types de données donnera des résultats très
satisfaisants.
– La classification des plans joue un rôle très important dans toutes les approches présentées dans cette thèse. Ainsi, nous pouvons améliorer la méthode de classification de
plans.
– De plus, nous pouvons réaliser un framework qui traite en ligne la vidéo de football. Ce
framework pourrait segmenter le flux vidéo. Ensuite, il va analyser les séquences vidéos
pour reconnaître les événements importants en utilisant une des quatre approches
proposées dans ce rapport.
– La réduction du temps de traitement des séquences vidéos reste un défit dans tous les
logiciels.
Annexe A
Publications
Les travaux réalisés dans le cadre de cette thèse ont donné naissance aux publications
suivantes :
Journaux :
[1] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage
des événements importants dans les vidéos des matches de football en utilisant le modèle gaussien et les Modèles de Markov Cachés. Numéro Spécial du journal Marocain
d’Automatique, d’Informatique et de Traitement du Signal (AMADEIA) (accepté).
[2] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning
in soccer video by using Hidden Markov Models and the bayesian theorem. International
Journal of Computing and Information Technology (IJCIT), Vol. 2 N. 2. (Soumis).
Conférences :
[1] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage des
événements importants dans les vidéos des matches de football en utilisant le modèle
gaussien et les Modèles de Markov Cachés. 1ère édition Journées Doctorales en Technologies de l’Information et de la Communication (JDTIC’09), Maroc, Juillet 2009.
[2] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning
in soccer video by using Hidden Markov Models and the bayesian theorem. International
Conference on Multimedia Computing and Systems (ICMCS’09). IEEE Digital Library,
pages 304-308, Maroc, Avril 2009.
[3] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning in
soccer video by using the shots’classification and Hidden Markov Models. 9ème Colloque
Africain sur la Recherche en Informatique et en Mathématiques Appliquées (CARI’08),
pages 169-176, Maroc, Octobre 2008.
90
Appendice. Publications
91
[4] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage des
événements importants dans les vidéos des matches de football en utilisant le modèle
bayesien et les Modèles de Markov Cachés. 2ème édition des Journées d’Informatique et
Mathématiques Décisionnelles (JIMD), pages 33-34, Maroc, Juillet 2008
[5] Rajae El Ouazzani et Rachid Oulad Haj Thami. Détection des évènements importants
dans les vidéos des matches de Football en utilisant la classification des plans et les Modèles de Markov Cachés. Cinquième Conférence sur les Systèmes Intelligents : Théories
et Applications (SITA’08). pages 51-57, Maroc, Mai 2008
Bibliographie
[1] Xiaofeng Tong, Qingshan Liu, and Hanqing Lu. Semantic units based events detection in soccer videos. In ICIP, pages 1621–1624, 2004.
[2] Xiaofeng Tong, Hanqing Lu, and Qingshan Liu. A three-layer event detection framework and its application in soccer video. In ICME, pages 1551–1554, 2004.
[3] Richard O. Duda, Peter E. Hart, and David G. Stork. Pattern Classification. WileyInterscience Publication, 2000.
[4] Yi-Hua Zhou, Yuan-Da Cao, Long-Fei Zhang, and Hong-Xin Zhang. An svm-based
soccer video shot classification. In Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, Guangzhou, pages 18–21, 2005.
[5] Nan Nan, Guizhong Liu, Xueming Qian, and Chen Wang. An svm-based soccer
video shot classification scheme using projection histograms. In PCM.
[6] Ahmet Ekin and A. Murat Tekalp. A framework for tracking and analysis of soccer
video. In VCIP, pages 763–774, 2002.
[7] Ahmet Ekin and A. Murat Tekalp T. Automatic soccer video analysis and summarization. IEEE Trans. on Image Processing, 12 :796–807, 2003.
[8] Ling-Yu Duan, Min Xu, Xiao-Dong Yu, and Qi Tian. A unified framework for
semantic shot classification in sports videos. In MULTIMEDIA ’02 : Proceedings of
the tenth ACM international conference on Multimedia, pages 419–420, 2002. ISBN
1-58113-620-X.
[9] Dizan Alejandro Vasquez Govea. Incremental Learning for Motion Prediction of
Pedestrians and Vehicles. PhD thesis, Institut National Polytechnique de Grenoble,
Grenoble (Fr), February 2007.
[10] Chung-Lin Huang, Huang-Chia Shih, and Chung-Yuan Chao. Semantic analysis of
soccer video using dynamic bayesian network. IEEE Transactions on Multimedia, 8
(4) :749–760, 2006.
92
Bibliographie
93
[11] Dian Tjondronegoro, Yi-Ping Phoebe Chen, and Binh Pham. A statistical-driven
approach for automatic classification of events in afl video highlights.
[12] Jurgen Assfalg, Marco Bertini, Alberto Del Bimbo, Walter Nunziati, and Pietro
Pala. Soccer highlights detection and recognition using hmms. In Proc. of IEEE
International Conference on Multimedia & Expo (ICME), Lausanne, Switzerland,
August 2002. IEEE Computer Society.
[13] Jinjun Wang, Changsheng Xu, Chng Eng Siong, and Qi Tian. In Proceedings of the
2004 IEEE International Conference on Multimedia and Expo, ICME 2004, Teipei,
Taiwan.
[14] W. H. Adams, G. Iyengar, M. R. Naphade, C. Neti, H. J. Nock, and J. R. Smith. Semantic indexing of multimedia content using visual, audio and text cues. EURASIP
Journal on Applied Signal Processing, 2 :170–185, 2003.
[15] Peng Xu, Lexing Xie, and Shih fu Chang. Algorithms and system for segmentation
and structure analysis in soccer video. In In Proc. IEEE International Conference
on Multimedia and Expo (ICME, pages 928–931, 2001.
[16] Ling-Yu Duan, Min Xu, Tat-Seng Chua, Qi Tian, and Changsheng Xu. A mid-level
representation framework for semantic sports video analysis. In ACM Multimedia,
pages 33–44, 2003.
[17] Ling yu Duan, Min Xu, Tat seng Chua, Qi Tian, and Chang sheng Xu. A mid-level
representation framework for semantic sports video analysis. pages 33–44. ACM
Press, 2003.
[18] Songyang Lao, Alan F. Smeaton, Gareth J. F. Jones, and Hyowon Lee. A query
description model based on basic semantic unit composite petri-nets for soccer video
analysis. In Multimedia Information Retrieval, pages 143–150, 2004.
[19] Ilkoo Ahn, Youngwoo Kim, and Changick Kim. Customizing ground color to deliver
better viewing experience of soccer video. ETRI Journal, 30(1) :101–112, February
2008.
[20] Xiaofeng Tong, Qingshan Liu, and Hanqing Lu. Shot classification in broadcast
soccer video. ELCVIA, 7(1), 2008.
[21] Ying Yang, Shouxun Lin, Yongdong Zhang, and Sheng Tang. Statistical framework
for shot segmentation and classification in sports video. In ACCV (2), pages 106–
115, 2007.
Bibliographie
94
[22] Kongwah Wan and Changsheng Xu. Efficient multimodal features for automatic
soccer highlight generation. In ICPR ’04 : Proceedings of the Pattern Recognition,
17th International Conference on (ICPR’04) Volume 3, pages 973–976, 2004. ISBN
0-7695-2128-2.
[23] Kongwah Wan and Changsheng Xu. Robust soccer highlight generation with a novel
dominant-speech feature extractor. In ICME, pages 591–594, 2004.
[24] Ziyou Xiong, R. Radhakrishnan, A. Divakaran, and T. S. Huang. Comparing mfcc
and mpeg-7 audio features for feature extraction, maximum likelihood hmm and
entropic prior hmm for sports audio classification. In ICME ’03 : Proceedings of the
2003 International Conference on Multimedia and Expo - Volume 3 (ICME ’03),
pages 397–400, Washington, DC, USA, 2003. IEEE Computer Society. ISBN 07803-7965-9.
[25] Molau Sirko, Michael Pitz, Schlüter Ralf, and Ney Hermann. Computing melfrequency cepstral coefficients on the power spectrum. In IEEE International Conference on Acoustics, Speech, and Signal Processing, pages 73–76, Salt Lake City, Utah,
May 2001.
[26] Perfecto Herrera, Xavier Serra, and Geoffroy Peeters. Audio descriptors and descriptor schemes in the context of mpeg-7. In Proceedings of the 1999 ICMC, 1999.
[27] D. Zhang and D. Ellis. Detecting sound events in basketball video archive. 2001.
[28] Min Xu, Numunu C. Mudduge, Changsheng Xu, Mohan Kunkunhulli, and Qi Tian.
Creating audio keywords for event detection in soccer video. In ICME ’03 : Proceedings of the 2003 International Conference on Multimedia and Expo, pages 281–284,
Washington, DC, USA, 2003. IEEE Computer Society. ISBN 0-7803-7965-9.
[29] V. Mihajlovic and M. Petrovic. Automatic annotation of formula 1 races for contentbased video retrieval. In In : Tech. report, TR-CTIT-01-41, 2001.
[30] Datong Chen, Kim Shearer, and Hervé Bourlard. Video ocr for sport video annotation and retrieval, 2001.
[31] Huang-Chia Shih and Chung-Lin Huang.
A robust superimposed caption box
content understanding for sports videos. In ISM ’06 : Proceedings of the Eighth
IEEE International Symposium on Multimedia, pages 867–872, Washington, DC,
USA, 2006. IEEE Computer Society.
[32] Hakan Güray Senel. Topological gradient operators for edge detection. In ICIP (3),
pages 61–64. IEEE, 2007.
Bibliographie
95
[33] Mohamed Roushdy. Comparative study of edge detection algorithms applying on
the grayscale noisy image using morphological filter. ICGST International Journal
on Graphics, Vision and Image Processing, 06 :17–23, 2007.
[34] John Canny. A computational approach to edge detection. IEEE Trans. on Pattern
Analysis and Machine Intelligence, 8(6) :679–698, 1986.
[35] Jean-Christophe Terrillon, Hideo Fukamachi, Shigeru Akamatsu, and Mahdad N.
Shirazi. Comparative performance of different skin chrominance models and chrominance spaces for the automatic detection of human faces in color images. In
FG ’00 : Proceedings of the Fourth IEEE International Conference on Automatic
Face and Gesture Recognition 2000, page 54, Washington, DC, USA, 2000. IEEE
Computer Society. ISBN 0-7695-0580-5.
[36] Christian Wolf, Jean michel Jolion, and Françoise Chassaing. Text localization,
enhancement and binarization in multimedia documents. In Proceedings of the International Conference on Pattern Recognition (ICPR) 2002, pages 1037–1040, 2002.
[37] Dennis Yow, Boon lock Yeo, Minerva Yeung, and Bede Liu. Analysis and presentation of soccer highlights from digital video. In Proc. of 2nd Asian Conf. on Computer
Vision (ACCV’95), pages 499–503, 1995.
[38] Nitin Aggarwal and William Clement Karl. Line detection in images through regularized hough transform. 15(3) :582–591, March 2006.
[39] K. Wan, X. Yan, and C. Xu. Automatic mobile sports highlights. In Multimedia
and Expo, 2005. ICME 2005. IEEE International Conference, pages 638–641, 2005.
[40] Lexing Xie, Shih-Fu Chang, Ajay Divakaran, and Huifang Sun. Structure analysis
of soccer video with hidden markov models. In IEEE Interational Conference on
Acoustic, Speech and Signal Processing (ICASSP-2002), volume 4, pages 4096–4099,
May 2002.
[41] Lei Wang, Michael Lew, and Guangyou Xu. Offense based temporal segmentation
for event detection in soccer video. In Multimedia Information Retrieval, pages
259–266, 2004.
[42] Yu-Lin Kang, Joo-Hwee Lim, Qi Tian, Mohan S. Kankanhalli, and Chang-Sheng
Xu. Visual keywords labeling in soccer video. International Conference on Pattern
Recognition (ICPR’04), 3 :850–853, 2004.
[43] Wang Jinjun. Content-Based Sports Video Analysis and Composition. PhD thesis,
2006.
Bibliographie
96
[44] Y. Ma and H. Zhang. Motion pattern based video classification using support vector
machines. In Proc. of IEEE International Symposium on Circuits and Systems,
Theme :Circuits and Systems for Ubiquitous Computing (ISCAS’02), 2002.
[45] Min Xu, Numunu C. Mudduge, Changsheng Xu, Mohan Kunkunhulli, and Qi Tian.
Creating audio keywords for event detection in soccer video. In Proc. of IEEE
ICME, pages 281–284, 2003.
[46] Y. LeCun. Une procédure d’apprentissage pour réseau a seuil asymmetrique (a
learning scheme for asymmetric threshold networks). In Proceedings of Cognitiva
85, pages 599–604, Paris, France, 1985.
[47] Vikrant Kobla, Daniel Dementhon, and David Doermann. Identifying sports videos
using replay, text and camera motion features. In Proc. of SPIE Conf. on Storage
and Retrieval for Media Databases, volume 3972, pages 332–343, 2000.
[48] Riccardo Leonardi, Pierangelo Migliorati, and Maria Prandini. Semantic indexing of
soccer audio-visual sequences : a multimodal approach based on controlled markov
chains. IEEE Trans. Circuits Syst. Video Techn., 14(5) :634–643, 2004.
[49] Mei Han, Wei Hua, Wei Xu, and Yihong Gong. An integrated baseball digest system
using maximum entropy method. In Proc. of ACM MultiMedia’02, pages 347–350,
2002.
[50] Jurgen Assfalg, Marco Bertini, Carlo Colombo, Alberto Del Bimbo, and Walter Nunziati. Automatic extraction and annotation of soccer video highlights, September
2003.
[51] Huang-Chia Shih and Chung-Lin Huang. A semantic network modeling for understanding baseball video. In Proc. of IEEE ICASSP’03, 2003.
[52] René Boite, Hervé Bourlard, Thierry Dutoit, Joêl Hancq, and Henri leich. traitement
de la parole.
[53] M. Abed Chaib. Etude et mise en oeuvre des modèles de markov cachés en vue de
la reconnaissance de trajet, Décembre 2004.
[54] Cheng Lu, Mark S. Drew, and James Au. International journal of smart engineering
system design, 2002 an automatic video classification system based on a combination
of hmm and video summarization.
[55] Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A maximization
technique occurring in the statistical analysis of probabilistic functions of markov
chains. The Annals of Mathematical Statistics, 41(1) :164–171, 1970.
Bibliographie
97
[56] Henri Binsztok. Apprentissage de Modèles Markoviens pour l’Analyse de Séquences.
PhD thesis, 2007.
[57] Jeff Bilmes. A gentle tutorial on the em algorithm and its application to parameter
estimation for gaussian mixture and hidden markov models. Technical Report ICSITR-97-021, University of California at Berkeley, 1997.
[58] Shu ching Chen, Mei ling Shyu, Chengcui Zhang, Lin Luo, and Min Chen. Detection of soccer goal shots using joint multimedia features and classification rules.
In Reules, Proceedings of the Fourth International Workshop on Multimedia Data
Mining (MDM/KDD2003), pages 36–44, 2003.
[59] Ming Luo, Yu-Fei Ma, and Hong-Jiang Zhang. Pyramidwise structuring for soccer
highlight extraction. Fourth IEEE Pacific-Rim Conference On Multimedia, pages
945 – 949, December 2003.
[60] Yu lin Kang, Joo hwee Lim, Qi Tian, and Mohan S. Kankanhalli. Soccer video event
detection with visual keywords. In in Proceedings of IEEE Pacific-Rim Conference
on Multimedia, pages 1796–1800, 2003.
[61] Jianguo Li, Tao Wang, Wei Hu, Mingliang Sun, and Yimin Zhang. Soccer highlight
detection using two-dependence bayesian network. IEEE International Conference
on Multimedia and Expo.
[62] Youness Tabii, Mohamed Ould Djibril, Youssef Hadi, and Rachid Oulad Haj Thami.
A new method for video soccer shot classification. In VISAPP (1), pages 221–224,
2007.
[63] Ahmet Ekin, A. Murat Tekalp, and Rajiv Mehrotra. Automatic soccer video analysis
and summarization. IEEE Transactions on Image Processing, 12(7) :796–807, 2003.
[64] Quynh T. Le Ba Tarik Al-Ani and Eric Monacelli. On-line automatic detection of
human activity in home using wavelet and hidden markov models scilab toolkits.
16th IEEE International Conference on Control Applications Part of IEEE Multiconference on Systems and Control Singapore, pages 485–490, 2007.
[65] Rajae El Ouazzani and Rachid Oulad Haj Thami. Highlights’ recognition and learning in soccer video by using the shots’ classification and hidden markov models. 9e
Colloque Africain sur la Recherche en Informatique et en Mathematiques Appliquees
(CARI’08), Morocco, pages 169–176, 2008.
[66] Rakesh Dugad and U. B. Desai. A tutorial on hidden markov models. In Proc.
IEEE, 77(2) :267–296, 1989.
Bibliographie
98
[67] Cheng Lu, Mark S. Drew, and James Au. An automatic video classification system
based on a combination of hmm and video summarization. International Journal of
Smart Engineering System Design, 5(1) :33–45(13), January-March 2003.
[68] Monika ten Bruggencate and Suresh Chalasani. Parallel implementations of the power system transient stability problem on clusters of workstations. booktitle : Supercomputing ’95 : Proceedings of the 1995 ACM/IEEE conference on Supercomputing
(CDROM), New York, USA, 1995.
[69] Bruno Lecoutre. Et si vous étiez un bayésien qui s’ignore ? Number 32, pages 92–
105, ERIS, Laboratoire de Mathématiques Raphael Salem UMR 6085 C.N.R.S. et
Université de Rouen Mathématiques Site Colbert, 76821 Mont-Saint-Aignan Cedex,
2005. Revue MODULAD.
[70] C. Bérard, M-L Martin-Magniette, A. To, F. Roudier, V. Colot, and S. Robin.
Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de
chromatine immunoprécipitée. La revue MODULAD, (40) :53–68, 2009.
[71] T. M. T. Do and T Artières. Apprentissage de mélanges de gaussiens par maximisation de la marge avec smo. In Conférence Francophone d’Apprentissage (CAP),
2007.
[72] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. JOURNAL OF THE ROYAL STATISTICAL
SOCIETY, SERIES B, 39(1) :1–38, 1977.
[73] T.K. Moon. The expectation maximization algorithm. In IEEE Signal Processing
Magazine, volume 13, pages 47–60, 1996.
[74] C. Hory. Mélanges de distributions du x2 pour l’interprétation d’une représentation
temps-fréquence. PhD thesis, Institut National Polytechnique de Grenoble, 2002.
[75] Nebojsa Jojic, Barry Brumitt, Brian Meyers, Steve Harris, and Thomas Huang.
Detecting and estimating of pointing gestures in dense disparity maps. In IEEE
International Conference on Face and Gesture Recognition CFGR’00, pages 28–30,
2000.
[76] B. Cooper. Automated identification of southern right whales. PhD thesis, University
of Western Australia, 1995.
[77] M. Pingault. Estimations fréquentielle et temporelle du mouvement en transparence
additive dans les séquences d’images. PhD thesis, Université Joseph Fourier de
Grenoble, Octobre 2003.
Bibliographie
99
[78] Guillaume Cleuziou. Okm : une extension des k-moyennes pour la recherche de
classes recouvrantes. In EGC, pages 691–702, 2007.

THESE_EL OUAZZANI

Transcription

Documents pareils

Ce que le football m`apporte

chateaulin 2010

Recrute pour 2016

PANINI Familles dont les enfants collectionnent les célèbres images

Ecole de Foot et club labellisés par la FFF - TA

Gilles Verdez incollable sur la Belgique

Comme vous le savez, votre engagement en coupe nationale FSGT

www.tirgroupe.fr

Plaquette Club - Saint-Pryvé Saint

Le District de la Nièvre