THESE_EL OUAZZANI
Transcription
THESE_EL OUAZZANI
Université Mohammed V - Souissi THESE pour obtenir le grade de : Docteur en Sciences Appliquées Spécialité : Informatique Préparée au sein de l’UFR : Systèmes d’Information Métiers, Multimédia et Mobile à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des Systèmes Préparée par : Rajae El Ouazzani Titre : La reconnaissance et l’apprentissage des événements chauds dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés Soutenue le 18/12/2010 devant le jury composé de: – Pr. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat: Président. – Pr. Azedine Boulmakoul, PES à la FST de Mohammadia: Rapporteur. – Pr. Ahmed Tamtaoui, PES à l’INPT: Rapporteur. – Pr. Mohammed Rziza, PH à la Faculté des Sciences de Rabat: Rapporteur. – Pr. Bouchaib Bounabat, PES à l’ENSIAS: Examinateur. – Pr. Rachid Oulad Haj Thami, PES à l’ENSIAS: Directeur de thèse. Résumé Dans le cadre de cette thèse, nous proposons des techniques pour reconnaitre les événements importants dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés (MMC). Un événement important est tout événement qui peut intéresser le public tels que : les buts, les fautes directes, les penalties, les cartons jaunes/rouges, les changements de joueurs et les tentatives pour marquer un but. Lors de la modélisation des séquences vidéos correspondantes aux événements importants précédents, nous avons utilisé les MMCs qui traitent de manière efficace les structures spatiaux temporelles qui caractérisent les vidéos de football. Dans la première partie de cette thèse, nous avons présenté les caractéristiques de la vidéo de matches de football à savoir les descripteurs visuels, audio et textuels. Aussi, nous avons présenté quelques unités sémantiques qui distinguent la vidéo de matches de football. Puis et lors d’un survol de la littérature, nous avons exposé quelques techniques de classification des plans (images) de la vidéo de football et quelques techniques de reconnaissance des événements importants dans la vidéo de matches de football. Finalement, nous avons présenté les MMCs, leurs paramètres et les algorithmes qui les accompagnent. Dans la deuxième partie, nous avons présenté quatre contributions pour reconnaitre les événements importants dans la vidéo de matches de football avec les MMCs. Dans la première contribution, nous employons un MMC des événements importants. Par la suite et dans la deuxième contribution, nous employons deux MMCs, un MMC d’événements importants et un MMC d’événements non importants en conjonction avec le théorème de Bayes. L’inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en utilisant des distributions a priori issues des bases d’apprentissage. Dans la troisième contribution, nous employons les MMCs et la loi de Gauss et dans la quatrième contribution, nous exploitons les MMCs et les Modèles de Mélanges de Gaussiennes avec deux, six et dix gaussiennes pour reconnaitre les événements importants dans la vidéo de matches de football. Remerciements Je tiens à exprimer tout d’abord mes remerciements aux membres du jury, qui ont accepté d’évaluer mon travail de thèse. Je remercie le Professeur Driss Aboutajdine de m’avoir fait l’honneur de présider mon jury. Le Professeur Aboutajdine est le responsable du "Laboratoire de Recherche en Informatique et Télécommunication" (LRIT) à la Faculté des Sciences de Rabat (FSR) où j’ai fait mes premiers pas vers le domaine de la recherche. Aussi, il est le responsable de l’UFR "Informatique et Télécommunication" à la FSR. Ainsi, je remercie le Professeur Aboutajdine pour son sérieux et son travail continu pour orienter ses étudiants vers la recherche scientifique en vue de l’évoluer au Maroc. Je remercie aussi le Professeur Azedine Boulmakoul qui a accepté de rapporter mon travail. Le Professeur Boulmakoul est le responsable de la filière "MST Génie informatique" à la Faculté des Sciences et Technique de Mohammedia. Il est aussi le responsable de l’UFR "Systèmes d’Informations Réactifs et Ingénierie des Systèmes Intelligents". Après, je remercie le Professeur Ahmed Tamtaoui qui a accepté de rapporter mon travail de thèse. Le Professeur Tamtaoui est un Enseignant chercheur à INPT à Rabat. Il est aussi le Directeur Adjoint de Recherche dans le même établissement. Ensuite, je remercie le Professeur Mohammed Rziza, Professeur Habilité à la Faculté des Sciences de rabat, qui a accepté de rapporter mon travail. Puis, je remercie le Professeur Bouchaib Bounabat d’avoir examiné mon travail. Le Professeur Bouchaib Bounabat est un Professeur de l’Enseignement Supérieur à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des systèmes. Après, je remercie le Professeur Rachid Oulad Haj Thami d’avoir accepté de superviser mon travail de thèse. Le Professeur Rachid Oulad Haj Thami est un Professeur de l’Enseignement Supérieur à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des systèmes. Finalement, je tiens à remercier tous mes collègues de l’équipe WiM avec lesquels j’ai eu le plaisir de travailler durant cette thèse. iii Table des matières Résumé ii Remerciements iii Liste des Figures viii Liste des Tableaux x Abréviations xi Symboles xiii 1 Introduction générale 1.1 Contexte de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 La vidéo de football 2.1 Introduction . . . . . . . . . . . . . . . . . . . . 2.2 Analyse de la vidéo de football . . . . . . . . . 2.2.1 Les descripteurs de bas niveau . . . . . 2.2.1.1 Les descripteurs visuels . . . . 2.2.1.2 Les descripteurs audio . . . . . 2.2.1.3 Les descripteurs textuels . . . 2.2.2 Les descripteurs visuels . . . . . . . . . 2.2.2.1 La couleur dominante . . . . . 2.2.2.2 Le logo . . . . . . . . . . . . . 2.2.2.3 Les bords . . . . . . . . . . . . 2.2.2.4 La texture . . . . . . . . . . . 2.2.2.5 La zone de la tête . . . . . . . 2.2.2.6 La taille des objets . . . . . . . 2.2.3 Les unités sémantiques de niveau moyen 2.2.3.1 Unité ralenti . . . . . . . . . . 2.2.3.2 Unité cadre du goal . . . . . . 2.2.3.3 Unité légende . . . . . . . . . . iv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 4 . 4 . 5 . 5 . 5 . 5 . 6 . 7 . 7 . 7 . 8 . 8 . 8 . 8 . 9 . 9 . 9 . 10 Contenu 2.3 2.4 v 2.2.3.4 Unité plan proche et public . . . . . . . . . . . . . . . . 2.2.3.5 Unité plan proche et légende . . . . . . . . . . . . . . . 2.2.3.6 Décomposition de la vidéo en unités sémantiques . . . . 2.2.4 Les événements importants de haut niveau . . . . . . . . . . . . . Techniques de classification des plans . . . . . . . . . . . . . . . . . . . . 2.3.1 Classification des plans avec la carte de blocs du terrain . . . . . 2.3.2 Classification des plans avec un arbre de décision . . . . . . . . . 2.3.3 Classification des plans avec les SVMs . . . . . . . . . . . . . . . 2.3.4 Classification des plans avec les SVMs et les histogrammes de projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.5 Classification des plans par la détection des lignes du terrain . . 2.3.6 Classification des plans avec la règle du Golden Section Spatial Composition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.7 Classification des plans avec la méthode haut-bas . . . . . . . . . 2.3.8 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Modélisation des séquences vidéos de matches de football 3.1 Classes d’approches de modélisation des séquences vidéos . . . . . . . . 3.1.1 Approches basées sur les règles . . . . . . . . . . . . . . . . . . . 3.1.2 Approches statistiques . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2.1 Les Machines à Vecteurs de Supports (SVMs) . . . . . . 3.1.2.2 Les réseaux de neurones (RNs) . . . . . . . . . . . . . . 3.1.2.3 Les Modèles de Markov Cachés (MMCs) . . . . . . . . . 3.1.2.4 Autres algorithmes . . . . . . . . . . . . . . . . . . . . . 3.2 Les Modèles de Markov Cachés . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Les paramètres du MMC . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Les inférences du MMC . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.1 Les inférences en ligne . . . . . . . . . . . . . . . . . . . 3.2.2.2 Les inférences hors ligne . . . . . . . . . . . . . . . . . . 3.2.3 Les algorithmes de manipulation des paramètres du MMC . . . . 3.2.3.1 L’algorithme Forward-Backward . . . . . . . . . . . . . 3.2.3.2 L’algorithme Viterbi . . . . . . . . . . . . . . . . . . . . 3.2.4 L’apprentissage des paramètres du MMC . . . . . . . . . . . . . 3.2.4.1 L’apprentissage avec le critère MV . . . . . . . . . . . . 3.2.4.2 L’apprentissage avec le critère MAP . . . . . . . . . . . 3.2.5 La structure du MMC . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Techniques de reconnaissance des événements importants dans la vidéo de matches de football . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Reconnaissance des événements importants avec les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques (BNs/DBNs) . . . . . . . . 3.3.2 Reconnaissance des événements importants avec une représentation de niveau intermédiaire : mid − level . . . . . . . . . . . . . 3.3.3 Reconnaissance des événements importants avec l’unité sémantique de base et les réseaux de Pétri (BSUCPN) . . . . . . . . . . . . . 3.3.4 Reconnaissance des événements importants avec les segments play et break . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 11 11 12 15 15 16 17 . 18 . 19 . . . . 20 21 22 23 . . . . . . . . . . . . . . . . . . . 25 25 26 26 26 27 27 27 27 28 29 29 29 30 30 32 33 34 35 35 . 36 . 37 . 38 . 38 . 38 Contenu vi 3.3.5 3.4 Reconnaissance des événements importants avec les MMCs et les positions des joueurs sur le terrain de jeu . . . . . . . . . . . . . 3.3.6 Reconnaissance des événements importants avec les mots clés et les MMCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.7 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 . 40 . 41 . 42 4 Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 4.1 Contribution 1 : Reconnaissance des événements importants dans la vidéo de football avec un seul MMC . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Classification visuelle des plans . . . . . . . . . . . . . . . . . . . . 4.1.2 Modélisation et reconnaissance des événements importants avec un MMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Contribution 2 : Reconnaissance des événements importants avec deux MMCs et le théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Modélisation des séquences vidéos avec deux MMCs . . . . . . . . 4.2.2 Utilisation du théorème de Bayes dans la reconnaissance des événements importants . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 5.1 Contribution 3 : Reconnaissance des événements importants avec les MMCs et le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Modélisation des événements de football avec deux MMCs . . . . . 5.1.2 Utilisation du modèle gaussien pour la reconnaissance des événements importants dans la vidéo de football . . . . . . . . . . . . . 5.1.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 5.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Contribution 4 : Reconnaissance des événements importants avec les MMCs et les MMGs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Schéma général de l’étude . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Analyse des propriétés de la vidéo de football . . . . . . . . . . . . 5.2.3 Modélisation des événements de football avec les MMCs . . . . . . 5.2.4 Modélisation des événements de football avec les MMGs . . . . . . 5.2.4.1 Paramètres des MMGs . . . . . . . . . . . . . . . . . . . 5.2.4.2 Apprentissage des paramètres du MMG avec l’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 La reconnaissance des événements importants dans la vidéo de football avec les MMCs et les MMGs . . . . . . . . . . . . . . . . . 5.2.6 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 5.2.6.1 Résultats de reconnaissance des événements importants avec un mélange de deux gaussiennes . . . . . . . . . . . 44 45 45 47 50 52 53 53 55 56 58 59 60 60 61 62 63 65 66 66 67 67 67 68 68 72 74 75 Contenu vii 5.2.6.2 Résultats de reconnaissance des événements importants avec un mélange de six gaussiennes . . . . . . . . . . . . . 5.2.6.3 Résultats de reconnaissance des événements importants avec un mélange de dix gaussiennes . . . . . . . . . . . . 5.2.6.4 Comparaison des résultats de reconnaissance des événements importants avec différents mélanges de gaussiennes 5.2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 85 85 6 Conclusions et perspéctives 6.1 Objectifs et domaines d’exploitation de la thèse . . . . . . . . . . . . . . . 6.2 Contributions majeures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Travaux en cours et perspectives . . . . . . . . . . . . . . . . . . . . . . . 86 86 86 88 A Publications 90 Bibliographie 92 5.3 78 81 Table des figures 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 3.1 3.2 3.3 3.4 3.5 3.6 4.1 4.2 4.3 4.4 4.5 Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Un arbre de décision pour la classification des plans en utilisant le couleur de l’herbe et le contraste de la texture [1, 2]. . . . . . . . . . . . . . . . . . La représentation des unités sémantiques sur une séquence vidéo [2]. . . . Une série de plans lors d’un but. . . . . . . . . . . . . . . . . . . . . . . . Une série de plans lors d’un penalty. . . . . . . . . . . . . . . . . . . . . . Une série de plans lors d’un corner. . . . . . . . . . . . . . . . . . . . . . . Une série de plans lors d’une faute directe. . . . . . . . . . . . . . . . . . . Une série de plans lors d’un carton jaune. . . . . . . . . . . . . . . . . . . Une série de plans lors d’un changement de joueurs. . . . . . . . . . . . . . Un arbre de décision pour la classification des plans en utilisant des descripteurs visuels [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Système de classification des plans avec les SVMs [4]. . . . . . . . . . . . . Une structure pour la classification des plans avec les SVMs et les histogrammes de projection [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . Algorithme de classification de plans par la détection des lignes du terrain [6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les neuf portions d’un plan [7]. . . . . . . . . . . . . . . . . . . . . . . . . Un framework pour la classification des plans avec la méthode haut-bas [8]. Représentation d’un MMC par un réseau bayesien. . . . . . . . . . . . . Exemples de deux structures des MMCs [9]. . . . . . . . . . . . . . . . . Exemples de BN et de DBN de l’événement corner [10]. . . . . . . . . . Les séquences play − break dans une vidéo de football [11]. . . . . . . . A gauche, un schéma qui montre les positions des joueurs sur le terrain et à droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs des zones f1, f2 et f3 [12]. . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramme pour la reconnaissance des événements importants avec les mots clés et les MMCs [13]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 12 13 13 14 14 14 15 17 18 19 20 21 22 28 36 37 39 . 40 . 41 Les trois classes de plans et l’application de la GSSC sur leur correspondants en binaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processus de segmentation de la vidéo de football et la classification des images clés en utilisant la GSSC. . . . . . . . . . . . . . . . . . . . . . . . Les états et les probabilités de transitions de λ1 des événements importants. La courbe de ROC des résultats de classifcation des séquences vidéo avec λ1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les états et les probabilités de transitions de λ2. . . . . . . . . . . . . . . viii 5 46 47 48 52 54 Liste des Figures 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 6.1 6.2 ix Schéma pour reconnaître les événements importants avec les MMCs et le théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 La courbe de ROC des résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . 58 Schéma de reconnaissance des événements importants avec les MMCs et la loi de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et le théorème de Gauss. . . . . . . . . . . . . . . . . . . . . Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football avec trois types de descripteurs. . . . . . . . . . . Schéma de reconnaissance des événements importants avec les MMCs et les MMGs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Représentation des données de la base d’apprentissage d’événements importants avec une distribution en deux gaussiennes. . . . . . . . . . . . . Représentation des données de la base d’apprentissage d’événements non importants avec une distribution en deux gaussiennes. . . . . . . . . . . La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec deux gaussiennes. . . . . . . . . . . . . Représentation des données de la base d’apprentissage des événements importants avec une distribution en six gaussiennes. . . . . . . . . . . . Représentation des données de la base d’apprentissage des événements non importants avec une distribution en six gaussiennes. . . . . . . . . . . . La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec six gaussiennes. . . . . . . . . . . . . . Représentation des données de la base d’apprentissage des événements importants avec une distribution en dix gaussiennes. . . . . . . . . . . . Représentation des données de la base d’apprentissage des événements non importants avec une distribution en dix gaussiennes. . . . . . . . . . . . La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec dix gaussiennes. . . . . . . . . . . . . . La courbe de ROC de classification des séquences vidéos avec l’utilisation de deux MMCs et deux MMGs avec deux, six et dix gaussiennes. . . . . . 61 . 65 . 66 . 72 . 75 . 76 . 77 . 78 . 78 . 80 . 81 . 81 . 83 . 84 Processus de classification d’une séquence vidéo O avec quatre techniques utilisant les MMCs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 La courbe de ROC des résultats de classification des séquences vidéos avec six techniques de reconnaissance des événements importants avec les MMCs. 88 Liste des tableaux 2.1 2.2 Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent. . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Sommaire des techniques de classification des plans. . . . . . . . . . . . . 23 3.1 Sommaire des techniques de reconnaissance des événements importants. . 43 4.1 Résultats de classification des séquences vidéos avec λ1 d’événements importants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats de reconnaissance des événements importants avec λ1. Ils sont classés par type d’événement. . . . . . . . . . . . . . . . . . . . . . . . . Résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats de classification des événements importants avec les MMCs et le théorème de Bayes, classés par type d’événement. . . . . . . . . . . . 4.2 4.3 4.4 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.1 Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss classés par catégorie de l’événement important. . . . . . . Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. . . . . . . . . . . . Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. . . . Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. . . . . . . . . . . . . Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. . . . . Résultats de classification des séquences vidéos en utilisant les MMCs et deux MMGs avec un mélange de dix gaussiennes. . . . . . . . . . . . . . Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de dix gaussiennes. . . . . Résultats de classification de divers types d’événements importants en utilisant les MMCs et les MMGs. . . . . . . . . . . . . . . . . . . . . . . . 51 . 52 . 57 . 58 . 64 . 65 . 76 . 77 . 79 . 80 . 82 . 83 . 84 Comparaison des résultats de classification des événements de football avec les MMCs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 x Abréviations MMC Modèle de Markov Caché HMM Hidden Markov Model HSV Hue Saturation Value GLCM Gray Level Co-occurrence Matrix MFCC Mel Frequency Cepstral Coefficients MPEG Moving Picture Expert Group CSR Coarse Spatial Representation GBM Ground Block Map TBD Temporal Block Difference SVM Support Vector Machines BN Bayesian Network RB Réseau Bayesien DBN Dynamic Bayesian Network RBD Réseau Bayesien Dynamique RN Réseaux de Neurones HSI Hue Saturation Intensity GMM Gaussian Mixture Model MMG Modèle de Mélanges de Gaussiennes EM Expectation Maximization MSE Mean Square Error FCPMT Field Color Probability Map Tracker ROC Receiver Operating Characteristic OCR Optical Character Recognition SSU Shot Segment Unit SR Segmentation Rate xi Abréviations xii BSUCPN Basic Semantic Unit Composite Petri Net LPC Linear Prediction Coefficients LPCC Linear Prediction Cepstral Coefficients FPMT Field Probability Map Tracking MV Maximum de Vraissemblance MAP Maximum a posteriori IPS In Play Segment OPS Out of Play Segment OFS Out of Field Segment CloseFB Close with Field Background CloseNFB Close Non Field Background GSSC Golden Section Spatial Composition Symboles Hmean moyenne de la teinte Smean moyenne de la saturation p, P probabilité N nombre d’états du MMC O séquence vidéo O1:T séquence d’observation complète T nombre d’observations dans la séquence vidéo O s état du MMC S l’ensemble des états du MMC q état observé du MMC A matrice de transitions du MMC aij probabilité de transition de l’état i à j V l’ensemble des observations possibles ot symbole observé à l’instant t B matrice de probabilités d’observations bj probabilité d’observation M M C1 MMC des événements importants M M C2 MMC des événements non importants M M G1 MMG des événements importants M M G2 MMG des événements non importants EImp événement important ¬EImp événement non important N EImp nombre d’événements importants dans la base d’apprentissage N ¬EImp nombre d’événements non importants dans la base d’apprentissage P (EImp ) probabilité d’avoir un événement important xiii Symboles xiv P (¬EImp ) probabilité d’avoir un événement non important P (O/EImp ) probabilité d’avoir O sachant un événement important P (O/¬EImp ) probabilité d’avoir O sachant un non événement important P (EImp /O) probabilité d’avoir un événement important sachant O P (¬EImp /O) probabilité d’avoir un événement non important sachant O pr vecteur des probabilités a priori d’un MMG ΣImp variance des événements importants ¬ΣImp variance des événements non importants µImp moyenne des événements importants ¬µImp moyenne des événements non importants ΣM M GImp matrice de covariance du M M G1 µM M GImp vecteur de la moyenne du M M G1 prImp vecteur des probabilités a priori des mélanges du M M G1 ¬ΣM M GImp matrice de covariance du M M G2 ¬µM M GImp vecteur de la moyenne du M M G2 ¬prImp vecteur des probabilités a priori des mélanges du M M G2 µ vecteur moyen Σ matrice de covariance π vecteur de probabilités initiales du MMC λ Modèle de Markov Caché α probabilités Forward β probabilité Backward ω valeur pour régulariser les matrices de covariances Θ seuil de comparaison Id diagonale A ma chère famille. xv Chapitre 1 Introduction générale 1.1 Contexte de la thèse La recherche de l’information utile dans une vidéo est importante. Diverses recherches ont été entreprises dans le domaine de traitement des données multimédia en vue de faciliter l’accès aux données importantes. Nous citons la détection des séquences d’informations intéressantes, la création des résumés et le filtrage du contenu. Un document vidéo est une production de l’activité humaine d’où la nécessité de développer certains outils pour faciliter son traitement. Les données multimédia sont composées de données audio, visuelles et textuelles synchronisées. Par conséquent, le traitement de la vidéo est réalisé par des outils spécifiques qui respectent sa structure spatio-temporelle. Dans cette thèse, nous abordons le problème de la classification des séquences vidéo de matches de football. Le but de notre étude est la reconnaissance des événements importants dans ce type de vidéo. Un événement important correspond à une séquence vidéo qui peut intéresser les téléspectateurs telle qu’ : un but, un corner, une faute directe, un penalty ou une tentative pour marquer un but. Ainsi, le traitement de la vidéo de football permet de reconnaître les segments vidéo intéressants qui occupent une petite partie dans la vidéo du match de football. De plus, l’analyse de la vidéo de football peut être appréhendé, en effet, dans ce contexte le domaine sémantique est limité. Les études réalisées dans ce cadre peuvent être classifiées en deux catégories [14] : des études basées sur les règles [15, 16] et des études statistiques [10–13, 17, 18] telles que les SVMs, les RNs et les MMCs. Les travaux réalisés dans ce rapport se focalisent sur la modélisation des événements importants de football en utilisant l’approche statistique basée sur les MMCs. Les MMCs sont connus par leur capacité à modéliser les structures spatio-temporelles. Ainsi, la 1 Chaptire 1. Introduction générale 2 reconnaissance des événements importants dans la vidéo de football avec les MMCs nécessite une opération d’apprentissage des paramètres des MMCs. L’opération d’apprentissage utilise des bases de séquences vidéo issues de différents matches de football où les séquences vidéo sont représentées par des vecteurs de plans grâce à la classification de leurs images clés en plans : loin, médium et proche en se basant sur les techniques de réalisation télévisuelles dans les matches de football. Plusieurs études ont été réalisées dans le cadre de la classification de plans [5–8, 19–21]. La reconnaissance des événements importants dans la vidéo de football est réalisée par les MMCs dont les paramètres sont calculer par les algorithmes : Baum-Welch, Forward-Backward et Viterbi et des bases d’apprentissage de séquences vidéo. 1.2 Contributions Les contributions proposées dans cette thèse permettent de savoir si une séquence vidéo dans un match de football correspond à un événement important. Nous avons développé quatre applications pour réaliser l’opération de classification. Les applications proposées utilisent toutes les MMCs. La première contribution permet de reconnaître les événements importants en utilisant un seul MMC d’événements importants. Ensuite, nous utilisons, dans la deuxième contribution, le théorème de Bayes en plus des MMCs pour reconnaître les événements importants. L’inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en exploitant des distributions a priori issues des bases d’apprentissage. La troisième contribution emploie le théorème de Gauss en conjonction avec les MMCs. La loi de Gauss est une distribution qui suit la loi normale. Finalement et dans la quatrième contribution, nous utilisons les Modèles de Mélanges de Gaussiennes et les MMCs pour reconnaitre les événements importants. 1.3 Organisation de la thèse Ce document est organisé de la manière suivante : Le chapitre 2 présente quelques techniques d’analyse de la vidéo de football et de classification des images clés des séquences de football en types de plans. L’analyse de la vidéo de football montre trois types de caractéristiques dans la vidéo de football : 1) les descripteurs de bas niveau, 2) les unités sémantiques et 3) les événements importants. Nous avons présenté aussi un ensemble de techniques de classification de plans en loin, médium, proche, etc. Chaptire 1. Introduction générale 3 Le chapitre 3 propose, dans une première section, les classes d’approches de modélisation des séquences vidéo. Dans la deuxième section, nous présentons les MMCs, leurs paramètres, les algorithmes d’estimation de leurs paramètres et quelques structures des MMCs. Dans la dernière section, nous montrons quelques techniques de reconnaissance des événements importants dans la vidéo de matches de football. Le chapitre 4 expose les deux premières contributions proposées dans cette thèse. La première contribution permet de reconnaitre les événements importants de football avec un seul MMC d’événements importants et dans la deuxième contribution, nous employons deux MMCs et le théorème de Bayes pour reconnaitre ces événements importants. Le premier MMC concerne les événements importants et le deuxième, les événements non importants. De plus, nous présentons les résultats expérimentaux associés aux deux contributions proposées. Le chapitre 5 présente deux autres contributions pour reconnaitre les événements importants dans la vidéo de football. Ces deux contributions utilisent la loi gaussienne pour reconnaitre ces événements spéciaux. Nous employons, dans la troisième contribution, deux MMCs d’événements imortants et d’événements non importants et la loi de Gauss. Ensuite, nous présentons dans la quatrième contribution qui utilise deux MMCs et deux MMGs. Ainsi, nous présentons les résultats expérimentaux des deux hypothèses gaussiennes précédentes. Finalement, le chapitre 6 présente des conclusions, discute quelques frontières de la reconnaissance des événements importants dans la vidéo de football et donne des perspectives. Chapitre 2 La vidéo de football 2.1 Introduction Dans ce chapitre, nous allons nous focaliser sur la reconnaissance des événements importants dans la vidéo de matches de football. Cette opération est réalisée par l’utilisation et l’analyse de certaines caractéristiques des événements de football. Nous pouvons distinguer trois types de caractéristiques classées par niveaux et illustrés sur la figure 2.1. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts, les penalties, les corners, les fautes directes, les cartons jaunes/rouges et les tentatives pour marquer un but. Ces événements importants sont caractérisés, en cours de diffusion de la vidéo, par l’apparition de certaines unités sémantiques. Une unité sémantique est composée d’une suite de plans du même événement. De manière générale, un événement est constitué de plusieurs unités sémantiques et la présence de certaines unités sémantiques spécifiques indique la présence d’un événement important particulier. Par exemple, l’événement important "but" est représenté par les unités sémantiques suivantes : la zone de penalty, le cadre du goal, l’arbitre, le public et le plan proche. Par ailleurs, le domaine de connaissance montre qu’il y’a neuf unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes, les plans proches, le public, l’arbitre et les plans proches avec légende. L’analyse de ces unités sémantiques nous a permis de définir les caractéristiques ou les descripteurs de bas niveau. Les descripteurs de bas niveau concernent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets qui sont extraits de certains plans de la vidéo de manière visuelle. En effet, le plan et sa structure joue un rôle important dans la réalisation des matches télévisuels pour montrer et mettre en évidence certaines actions dans un match. Dans ce même chapitre, nous allons présenter quelques méthodes de classification de plans en : loin, médium, proche et hors du terrain. 4 Chaptire 2. La vidéo de football 5 Niveau 2 Evénements importants Niveau 1 Unités sémantiques Niveau 0 Descripteurs de bas niveau Vidéo de football Fig. 2.1: Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football. 2.2 Analyse de la vidéo de football La reconnaissance des segments ayant une sémantique dans la vidéo de football est possible à réaliser en comparaison avec d’autres types de vidéo du genre commercial ou films. Ceci est dû à l’existence d’une structure de contenu qui est bien définie et aux règles des jeux sportifs en générale. Par exemple, un match de football est présenté en deux parties et dans chacune d’elle, nous trouvons les bordures du terrain, la légende, les ralentis, etc. 2.2.1 2.2.1.1 Les descripteurs de bas niveau Les descripteurs visuels Les descripteurs visuels regroupent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets. Ils constituent les éléments de la couche inférieure du schéma 2.1. Les transitions de logo sont utilisées dans l’analyse du mouvement parce que les séquences vidéo importantes sont suivies par des ralentis [2]. Or, les ralentis sont entourés de transitions du logo. Nous allons parler en détails des descripteurs visuels dans la sous section 2.2.2. 2.2.1.2 Les descripteurs audio Dans certains jeux spécifiques, les signaux audio tels que les applaudissements et les sifflements sont des indicateurs d’événements importants. Quelques chercheurs ont utilisé Chaptire 2. La vidéo de football 6 les données audio pour reconnaitre les événements importants de haut niveau. K. Wan et al. [22, 23], par exemple, ont extrait le descripteur audio pour localiser les segments intéressants dans la vidéo de football et de tennis. Et Z. Xiong et al. [24] ont comparé les performances de classification de la vidéo de sport en utilisant les descripteurs MelFréquence de Coefficients Cepstraux (MFCC) [25] et les descripteurs audio MPEG7 [26]. En raison de l’écart sémantique qui existe entre les descripteurs de bas niveau et les événements importants de haut niveau, quelques chercheurs n’ont pas utilisé directement les descripteurs de bas niveau mais ils ont créé une représentation audio de niveau moyen. L’élément du niveau moyen est appelé événement sonore [27] ou mot clé audio [28] et il est utilisé dans l’analyse des événements de football. Par exemple, D. Zhang et al. [27] ont utilisé la méthode de fusion à base de règles sur les MFCC, les coefficients de prédiction linéaire (LPC) et les descripteurs d’énergie normalisés pour détecter les événements sonores de haut niveau dans la vidéo de basketball. Par ailleurs, M. Xu et al. [28] ont utilisé les Machines à Vecteurs de Support (SVMs) avec les MFCC et les descripteurs de prédiction linéaire des coefficients cepstraux (LPCC) pour classifier les segments audio. Ces segments vidéo sont représentés par des mots clés audio différents tels que le bruit de le public et le discours du commentateur et ils sont utilisés pour reconnaitre les événements importants dans la vidéo de football, de tennis et de basketball. 2.2.1.3 Les descripteurs textuels A côté des descripteurs visuels et audio, des informations textuelles peuvent être examinées. Dans certains cas, l’information textuelle peut bien servir dans la reconnaissance des événements importants parce que le texte contient des sémantiques riches. Le texte dans une vidéo peut être divisé en 2 classes [29] : le texte des scènes est le texte qu’on trouve sur les panneaux d’affichage et sur les vêtements des joueurs. Le deuxième type est le texte sur les légendes qui sont superposées aux plans de la vidéo. Ce dernier type complète les contenus visuels et audio. Plusieurs recherches ont été proposées pour détecter et reconnaître le texte sur la légende. Nous citons l’étude de D. Chen et al. [30] qui ont utilisé les SVMs pour identifier les lignes du texte et la méthode de Reconnaissance Optique des Caractères (OCR) pour reconnaitre les caractères. Et, H.-C. Shih et al. [31] qui ont introduit une méthode robuste pour reconnaitre la légende, l’extraire, la localiser et enfin développer une méthode d’interprétation pour comprendre le score du jeu et même le nom de l’équipe. Chaptire 2. La vidéo de football 2.2.2 2.2.2.1 7 Les descripteurs visuels La couleur dominante La couleur verte du terrain joue un rôle important dans l’analyse de la vidéo de football parce qu’elle joue un rôle intéressant dans la classification des plans. Cependant, cette couleur varie d’un terrain à l’autre d’où l’utilité de réduire l’effet de l’illumination en utilisant l’espace de couleur HSV. Les études réalisées dans ce domaine [1, 19] montrent que les composantes de la teinte et de la saturation sont suffisantes pour segmenter le terrain. Hmean et Smean sont respectivement les composantes de la teinte et de la saturation de la couleur dominante du terrain, c-à-d les valeurs de pic des histogrammes de la teinte et de la saturation d’un plan loin [19]. Ces valeurs peuvent être obtenues à partir des statistiques faites au début de la période de jeu. La distance entre le pixel f (i, j) et les valeurs de la couleur dominante est définie par l’équation (2.1) [1] : dhsv = p 2 S 2 (i, j) + Smean − 2S(i, j)Smean Cos(θ) (2.1) Avec θ =| H(i, j) − Hmean |. H(i, j) et S(i, j) sont respectivement les composantes de la teinte et de la saturation du pixel f (i, j). Donc, si la distance dhsv est plus petite qu’un certain seuil alors ce pixel appartient au terrain. 2.2.2.2 Le logo Le logo est un descripteur de bas niveau, largement utilisé dans la détection des répétitions dans une vidéo de football. Au cours de la diffusion de la vidéo de football, les segments de répétition sont délimités par l’apparition du logo. Ainsi, la détection des répétitions consiste d’abord à détecter les transitions du logo, puis à extraire sa template et enfin à détecter les autres logos à travers une correspondance de templates [20]. Les transitions du logo Les transitions du logo sont détectées par le déplacement de ce dernier entre des plans consécutifs. Le déplacement concerne la valeur de l’intensité. Cette valeur est calculée par le déplacement quadratique moyen de l’intensité (MSD) [20]. L’extraction du template du logo L’extraction du template du logo commence par son dégagement de l’arrière plan de l’image. En général, le logo est superposé aux plans. La procédure d’extraction du template de logo est expliquée dans [20]. Chaptire 2. La vidéo de football 8 L’étape de détection des autres logos sera détaillée dans la sous section 2.2.3.1. 2.2.2.3 Les bords Le bord est un descripteur utilisé dans la détection du cadre du goal, de la légende et des joueurs. Un grand nombre d’opérateurs permettent la détection des bords, nous citons le filtre gradient [32], le filtre de Robert [33], le fitre de Sobel [33] et le filtre de Canny [34]. Ce dernier filtre atteint un meilleur équilibre entre la diminution du bruit et la détection de bord par l’utilisation de la fonction différentielle de Gauss du premier ordre [4]. 2.2.2.4 La texture La texture est utilisée pour distinguer les plans du public des plans proches. La description de la texture est effectuée par la matrice de co-occurrence de niveaux de gris (GLCM) en raison de sa capacité de classification des textures stochastiques [20]. La GLCM permet de calculer le contraste qui mesure l’écart entre les valeurs de la matrice et la variation des pixels dans leur voisinage local [2]. 2.2.2.5 La zone de la tête La détection de la zone de la tête permet de reconnaitre les plans proches qui contiennent une tête de grande taille. La détection de la tête est réalisée via l’analyse de la couleur de la peau [20]. La détection de la peau peut être effectuée par le modèle gaussien, bayesien [35] ou autres. 2.2.2.6 La taille des objets La taille des objets sur le terrain est utilisée pour séparer les plans loin des plans médium. La taille des objets exprime la distance entre la caméra et les objets. L’estimation de la taille des objets est réalisée en trois étapes [20] : a) la segmentation du terrain, b) l’extraction du contour convexe du terrain, qui implique la zone de remplissage, la connexion des régions voisines et le suivi du contour convexe et c) la segmentation d’objets et l’estimation de l’échelle. Supposant que la hauteur moyenne des objets est H0 et la hauteur du terrain dans l’image est Hf , alors la taille des objets est calculée par H0 /Hf . Chaptire 2. La vidéo de football 2.2.3 9 Les unités sémantiques de niveau moyen Une unité sémantique est un segment vidéo composé de plans continus qui représentent un seul et même événement. L’unité proche par exemple est constituée de plusieurs plans proches [2]. De même, l’unité légende est composée d’un ensemble de plans consécutifs qui contiennent des légendes [2]. Ainsi, la détection de certains descripteurs de bas niveau permet de reconnaitre les unités sémantiques qui se trouvent dans le segment vidéo. Et la présence d’unités sémantiques particulières indique un événement important spécial. X.-F. Tong et al. [2] ont défini neuf unités sémantiques : la répétition, le cadre du goal, la zone de penalty, le coin du terrain, la légende, le plan proche, le public, l’arbitre et le plan proche avec légende. L’événement but par exemple est accompagné des unités : ralentis, cadre du goal, zone de penalty, l’arbitre, plans proches avec l’excitation du public et une apparence du tableau des scores en cas de résultat favorable. Nous allons présenter dans ce qui suit les caractéristiques des neuf unités sémantiques du niveau intermédiaire du schéma 2.1. 2.2.3.1 Unité ralenti Un ralenti est une manière spéciale d’édition de la vidéo. Il permet de souligner un événement important pour une ou plusieurs fois avec des transitions du logo au début et à la fin du ralenti. La détection des répétitions se fait via la détection du logo [1]. Ainsi, X.-F. Tong et al. [1] utilisent une fenêtre coulissante locale w pour examiner les 2 ∗ w + 1 déplacements du logo dans des plans consécutifs. Si fi , i = 1, 2, ..., N est la séquence de plans et Di = d(fLT , fi ) est la distance entre le template du logo fLT et le plan fi , alors Di , i = 1, 2, ..., N − 1 est la séquence de distances entre le logo et un plan fl si [20] : – Dl est la distance minimale au sein d’une fenêtre coulissante locale de taille 2 ∗ w + 1, c à d : Dl ≤ Dj avec j = 1 − w, ..., l − 1, l, l + 1, ..., 1 + w, et – Dl est plus petite qu’un certain seuil θ fixé et – La distance entre les plans fl et le template du logo est très petite. Donc, une scène bornée par une paire de logos est un ralenti si sa longueur est plus petite qu’un seuil prédéfini. 2.2.3.2 Unité cadre du goal Le cadre du goal est un descripteur intéressant lors de la détection des événements importants qui contiennent l’unité cadre du goal. Cette unité sémantique est détectée dans les plans loins où l’intensité du gris est élevée [1, 2]. Chaptire 2. La vidéo de football 2.2.3.3 10 Unité légende La légende apparaît lors de l’affichage du score, d’un carton jaune/rouge, de statistiques techniques et pendant le changement de joueurs. Une unité légende est un segment où les plans contiennent une légende. Cependant, il est difficile de reconnaître le texte sur cette dernière mais son apparence indique habituellement un événement spécial [1]. La légende peut être détectée par la méthode du gradient cumulé localement [2, 36]. Cette méthode consiste à traiter la zone de la légende comme une zone de texture spéciale, alignée avec des traits verticaux. Aussi, les gradients des voisins locaux sont plus grands et plus uniformes que d’autres traits dans d’autres régions. La recherche de la légende se fait dans la partie basse des plans parce que la légende apparaît souvent en bas de l’image. 2.2.3.4 Unité plan proche et public Un plan proche sert à focaliser un joueur qui a réalisé un événement important. Tandis que le plan public est affiché en général après les événements importants pour reporter les célébrations des supportaires. Une méthode de recherche des plans proche et public est proposée par X.-F. Tong et al. [1, 2]. Ils classifient les images en loin, médium, proche et public en utilisant l’arbre de décision illustré sur la figure 2.2. X.-F. Tong et al. détectent les noeuds de l’arbre via le calcul du ratio de la couleur dominante et de la valeur du contraste de la texture. Au fait, un plan loin contient un grand ratio d’herbe, par contre les plans proche et public ont le ratio d’herbe le plus faible. Chaptire 2. La vidéo de football 11 Ratio de la couleur de l’herbe > T h1 Non Oui Ratio de la couleur de l’herbe > T h2 Plan loin Non Oui Contraste de la texture > T h3 Plan médium Oui Plan public Non Plan proche Fig. 2.2: Un arbre de décision pour la classification des plans en utilisant le couleur de l’herbe et le contraste de la texture [1, 2]. T h1, T h2 et T h3 sont des seuils de comparaison. 2.2.3.5 Unité plan proche et légende Une unité plan proche et légende est caractérisée par la superposition d’un plan proche et d’un plan légende. Ce type d’unité est utilisé lors d’une faute grave qui nécessite un carton jaune/rouge ou bien aux moments de changements de joueurs [1, 2]. 2.2.3.6 Décomposition de la vidéo en unités sémantiques Nous remarquons que la vidéo de football est composée de plusieurs unités sémantiques. Et la présence de certaines unités sémantiques spécifiques indique un événement important spécial. La figure 2.3 présente des unités sémantiques sur une séquence vidéo d’un match de football [2]. Chaptire 2. La vidéo de football 12 Fig. 2.3: La représentation des unités sémantiques sur une séquence vidéo [2]. Avec L : plan loin, M : plan médium, U : plan proche, S : unité ralenti, G : unité cadre du goal, C : unité légende et A : unité public. Cette séquence vidéo est composée, dans l’ordre, de : six plans loins, deux unités cadres du goal, un plan médium, trois plans proches, une unité public, douze unités ralentis, quatre plans proches, trois plans loins, trois unités légendes et trois plans loins. 2.2.4 Les événements importants de haut niveau Les unités sémantiques du niveau moyen jouent un rôle primordial dans la reconnaissance des événements importants dans la vidéo de football. Le tableau 2.1 montre un ensemble d’événements importants et les unités sémantiques qui les accompagnent. Unités sémantiques/ Ralenti Evénement important Cadre du Zone de Coin du goal penalty terrain Arbitre Plan public proche d’état But X X X X X X Penalty X X X X X X Corner X X X X X X Faute directe X X X X X X Carton jaune/rouge X X X X X Changement de joueurs X Tableau X X X Tab. 2.1: Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent. Les unités tableau du score et public sont affichées en cas de résultat favorable. Chaptire 2. La vidéo de football 13 Les figures 2.4, 2.5, 2.6, 2.7, 2.8 et 2.9 montrent, dans l’ordre, les séries de plans des événements importants : but, penalty, corner, faute directe, carton jaune/rouge et changement de joueurs. (a) Zone de penalty (b) Zone de penalty (c) Cadre du goal (d) L’arbitre (e) Le public (f) Plan proche (g) Le public (h) Plan proche Fig. 2.4: Une série de plans lors d’un but. (a) Zone de penalty et cadre du goal (b) Zone de penalty et cadre du goal (c) Zone de penalty et cadre du goal (d) Zone de penalty et cadre du goal (e) Plan proche (f) Plan proche (g) Le public (h) Le public Fig. 2.5: Une série de plans lors d’un penalty. Chaptire 2. La vidéo de football (a) Zone de penalty, cadre du goal et coin du terrain (b) Zone de penalty et cadre du goal et coin du terrain 14 (c) Zone de penalty et cadre du goal et coin du terrain (d) Plan proche Fig. 2.6: Une série de plans lors d’un corner. (a) Zone de penalty et cadre du goal (b) Zone de penalty et cadre du goal (c) Zone de penalty et cadre du goal (d) Zone de penalty et cadre du goal (e) Plan proche (f) Plan proche (g) Plan proche (h) Plan proche Fig. 2.7: Une série de plans lors d’une faute directe. (a) L’arbitre (b) Plan proche (c) Tableau d’état Fig. 2.8: Une série de plans lors d’un carton jaune. (d) Tableau d’état Chaptire 2. La vidéo de football (a) L’arbitre (b) Plan proche 15 (c) Tableau d’état (d) Tableau d’état Fig. 2.9: Une série de plans lors d’un changement de joueurs. 2.3 Techniques de classification des plans On a vu précédemment que la reconnaissance des événements importants dans la vidéo de football nécessite une opération de classification de plans. Ainsi, le traitement de la vidéo commence par la segmentation du flux multimédia. Ensuite, les segments résultants subissent une opération d’extraction des images clés ou images représentatives. Puis, nous classifions ces dernières en types de plans. Nous distinguons les types : loin, médium, proche et hors du terrain. La classification des plans est une étape primordiale dans le processus de reconnaissance des événements importants. En outre, le domaine de connaissance à montrer qu’un événement important commence toujours par l’affichage de plusieurs plans loin, suivis par quelques plans médiums et à la fin, plusieurs plans proches sont diffusés. Plusieurs recherches ont été effectuées dans le domaine de la classification des plans. Nous citons les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l’apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la classification des plans haut-bas [8]. 2.3.1 Classification des plans avec la carte de blocs du terrain Ahn et al. [19] ont proposé une méthode pour classifier les plans en quatre types : loin, médium, proche avec le terrain en arrière plan (CloseFB) et proche sans terrain en arrière plan (CloseNFB). Leur méthode traite la quantité et la localisation des régions vertes du terrain sur les plans. Les plans loin sont des images capturées d’une longue distance. Par conséquent, la plupart des parties du plan ont tendance à être occupées par le terrain. Dans les plans médium, les parties basses du plan sont souvent remplies d’herbe. Ensuite, Ahn et al. divisent les plans proches en deux groupes : proche avec du terrain et proche sans terrain. L’approche d’Ahn et al. [19] consiste alors à construire une carte de blocs du Chaptire 2. La vidéo de football 16 terrain et à détecter les frontières des plans pour classifier les images clés. Le traitement est réalisé selon le processus suivant : 1) Partitionner le plan en question en blocs de 16*16 pour générer une carte de blocs de terrain (GBM) du plan. Un bloc de terrain est caractérisé par un grand nombre de pixels verts. 2) Détecter les bordures de plans en utilisant la différence temporelle entre les blocs TBD dans les GBMs. 3) Séparer les plans loin des autres par la recherche du plus long segment vidéo qui contient des pixels verts à la iime colonne du bloc (LGSi ). Si la longueur du LGSi est supérieure à un certain seuil alors le plan est loin sinon il est non loin. Ensuite, les plans non loin sont classifiés en : plans qui contiennent une partie du terrain, plans qui visualisent la moitié du terrain et les plans qui affichent tout le terrain. Ahn et al. [19] distinguent les trois types de plans non loin par le calcul du nombre de blocs de terrain localisés sur la moitié supérieure et la ligne basse du plan. 2.3.2 Classification des plans avec un arbre de décision Tong et al. [20] définissent cinq types de plans : répétition, loin, médium, CloseFB, CloseNFB et hors du terrain. Tong et al. utilisent la méthode proposée par Duda et al. [3] qui ont construit l’arbre de décision illustrée sur la figure 2.10. La classification des plans est réalisée via l’analyse d’un ensemble de descripteurs visuels. Chaptire 2. La vidéo de football 17 La paire de logo ? Oui Non Répétition Terrain > T 1 Non Oui Texture > T 2 Tête ? CloseFB Oui Non Oui Taille > T 3 Oui Médium Hors du terrain Non CloseNFB Non Loin Fig. 2.10: Un arbre de décision pour la classification des plans en utilisant des descripteurs visuels [3]. T 1, T 2 et T 3 sont des seuils de comparaison. Au niveau 0, X. Tong et al. partitionnent la vidéo en plans de répétition et de non répétition par la détection des transitions du logo. Ensuite, les segments de non répétition sont classifiés en plans loin, médium, proche et hors du terrain. Puis, X. Tong et al. [20] étiquettent tous les plans et ils les classifient en utilisant un schéma de vote. Au niveau 1, ils détectent le terrain en arrière plan pour séparer les plans closeF B, loin et médium des plans hors du terrain et closeN F B. Dans la branche gauche du niveau 2, X. Tong et al. exploitent les caractéristiques de la zone de la tête pour distinguer les plans closeF B des plans médium et loin. Dans la branche droite, X. Tong et al. utilisent le descripteur de la texture de la matrice de co-occurrence de niveau de gris (GLCM) pour différencier les plans hors du terrain des plans closeN F B. Et au niveau 3, X. Tong et al. emploient la taille des objets sur le terrain pour distinguer les plans médiums des plans loins. 2.3.3 Classification des plans avec les SVMs Y-H Zhou et al. [4] proposent une méthode de classification des plans qui utilise la couleur dominante, les bords et la longueur des plans. L’analyse du contenu de la vidéo commence par la détection des bordures des plans. Ensuite, Y-H Zhou et al. extraient la couleur dominante, les bords et la longueur des plans. Les trois descripteurs précédents seront appris à l’aide de trois SVMs. La figure 2.11 illustre le système de classification des plans avec les SVMs : Chaptire 2. La vidéo de football 18 Fig. 2.11: Système de classification des plans avec les SVMs [4]. Y.-H. Zhou et al. [4] utilisent un Modèle de Mélange de Gaussiennes (MMG) pour reconnaitre les pixels de couleur verte. Bien que la couleur peut caractériser les principaux types de plans mais elle reste sensible à la lumière au moment de l’enregistrement de la vidéo et aux conditions du terrain de jeu. En outre, si le terrain est ombré, il y aurait beaucoup d’erreurs lors de l’utilisation de la couleur et par conséquent, le terrain ne sera pas détecté complètement. Pour cela, Y.-H. Zhou et al. utilisent les bords dans la classification des plans. En effet, les bords sont moins influencés par l’ombre et ils sont détectés par le filtre de Canny. La couleur et le bord sont des descripteurs structurels d’un plan. Cependant, ces descripteurs ne représentent pas le caractère temporel des plans. En fait, la durée de diffusion des différents types de plans est différente. Par exemple, le plan loin qui reflète le déroulement du jeu a une durée de diffusion qui est longue. Tandis que le plan médium qui présente un joueur entrain de courir après un ballon a une courte durée de diffusion. De même, un plan proche est affiché pendant un petit moment pour présenter un joueur après une séquence vidéo d’un événement important d’habitude. De là, la longueur de plans peut être utilisée aussi dans la classification des plans. Enfin, Y.-H. Zhou et al. [4] utilisent les SVMs pour classifier les plans. 2.3.4 Classification des plans avec les SVMs et les histogrammes de projection N. Nan et al. [5] proposent une méthode de classification de plans qui utilise les SVMs, les histogrammes de projection et quelques descripteurs visuels de bas niveau tels que Chaptire 2. La vidéo de football 19 la couleur dominante, les bords et la texture. Le schéma 2.12 illustre le système de classification des plans en : loin, médium, proche et public. Fig. 2.12: Une structure pour la classification des plans avec les SVMs et les histogrammes de projection [5]. 2.3.5 Classification des plans par la détection des lignes du terrain A. Ekin et al. [6] classifient les plans de la vidéo de football en : 1) loin, 2) médium et 3) hors du terrain ou proche. D’abord, ils identifient les plans en loin et médium en utilisant la taille des objets et leur nombre dans chaque plan. Un plan loin est caractérisé par un ratio élevé de pixels colorés en vert et par plusieurs joueurs sur le terrain. Ainsi, A. Ekin et al. calculent le ratio R de pixels verts et déduisent que c’est un plan loin si R > Tmax sans calculer d’autres descripteurs. Tmax est le ratio de pixels verts dans un plan loin. Aussi, un plan médium est caractérisé par un ratio élevé de pixels verts et par un certain nombre d’objets sur le terrain. Un objet est défini par des pixels non colorés en vert sur l’arrière plan. Tandis que les plans hors du terrain et proche sont caractérisés par un petit ratio de pixels verts. De plus, A. Ekin et al. [6] proposent l’utilisation d’une technique de correspondance entre les lignes détectées sur le terrain et leur cartographie sur un modèle de terrain. Or, O. Yow et al. [37] proposent une technique pour détecter la zone du goal. Cette zone est représentée par deux lignes horizontales très proches et une autre ligne horizontale à une distance plus loin. Cette technique est caractérisée par sa robustesse devant le bruit. Donc, la détection des plans loin est réduite à la détection de trois lignes horizontales parallèles (ou bien deux lignes horizontales en cas d’effacement de la ligne de penalty). La Chaptire 2. La vidéo de football 20 détection des lignes est réalisée par la transformée de Hough [38]. La figure 2.13 montre l’algorithme de classification de plans par la détection des lignes. Fig. 2.13: Algorithme de classification de plans par la détection des lignes du terrain [6]. 2.3.6 Classification des plans avec la règle du Golden Section Spatial Composition A l’instar de leur premier article (traité dans la sous section 2.3.5), A. Ekin et al. [7] définissent trois types de plans dans la vidéo de football. Ils utilisent la règle du Golden Section Spatial Composition qui divise l’image en 3 :5 :3 proportions dans les deux directions comme illustré sur le figure 2.14. Cette règle analyse le positionnement des objets sur les neuf parties du plan. Chaptire 2. La vidéo de football 21 Fig. 2.14: Les neuf portions d’un plan [7]. A. Ekin et al. ont défini huit descripteurs pour mesurer la distribution des pixels de l’herbe sur les plans médium et loin et, ils distinguent deux descripteurs importants : 1- GR2 : le ratio de pixels de l’herbe de la portion 2 sur la figure 2.14. 2- Gdif f : la valeur moyenne de la différence absolue des pixels verts entre R1 et R2 , et entre R2 et R3 . Cette valeur est calculée par l’équation (2.2) : Rdif f = 1 (|GR1 − GR2 | + |GR2 − GR3 |) 2 (2.2) R1 , R2 et R3 sont les portions 1, 2 et 3 de la figure 2.14. Ensuite, ils utilisent un classifieur bayesien avec les deux descripteurs précédents. Le classifieur bayesien attribue un vecteur de descripteurs x, qui est supposé avoir une distribution de Gauss, à la classe qui maximise une fonction discriminante g(x) quelconque. 2.3.7 Classification des plans avec la méthode haut-bas L.-Y. Duan et al. [8] utilisent une méthode de classification des plans appelée haut-bas. Cette approche utilise un modèle de domaine pour définir les trois classes de plans : loin, médium et proche. Le modèle de domaine proposé par L.-Y. Duan et al. [8] traitent les quatre éléments suivants : 1) la relation spatiale entre le terrain de jeu, les joueurs et le public, 2) la relation sémantique entre les mouvements de la caméra et l’objectif du caméraman, 3) la relation sémantique entre l’apparition du marqueur et les événements potentiels et 4) les descripteurs visuels calculés lors de l’analyse des éléments ci-dessus. La figure 2.15 montre que la classification des plans est réalisée en deux phases : l’apprentissage et la classification. La phase d’apprentissage permet de collecter les règles de décision nécessaires pour classifier les plans. Cette phase utilise une base d’apprentissage constituée de plusieurs images de classes différentes. Ensuite, L.-Y. Duan et al. réalisent la phase de classification de plans en quatre opérations. Premièrement, ils extraient les descripteurs de bas niveau : la couleur, la texture et le vecteur de mouvement sur le Chaptire 2. La vidéo de football 22 terrain à partir des images clés de la séquence vidéo [8]. Deuxièmement, ils exploitent les descripteurs de bas niveau pour produire d’autres descripteurs, de niveau moyen, comme le mouvement dominant, le mouvement indépendant et les régions homogènes. Troisièmement, L.-Y. Duan et al. utilisent les descripteurs du niveau moyen et les règles de décision collectées de la phase d’apprentissage pour analyser les séquences vidéo. Cette opération crée une carte de descripteurs de niveau moyen et elle leur attribue des sémantiques de haut niveau. Finalement, la classification des plans est réalisée via les sémantiques de haut niveau et les règles de décision précédentes [8]. Fig. 2.15: Un framework pour la classification des plans avec la méthode haut-bas [8]. 2.3.8 Résumé Le tableau 2.2 présente un sommaire des recherches réalisées dans le cadre de la classification des plans. Chaptire 2. La vidéo de football 23 Références Classes de plans Descripteurs utilisés Classifieurs/Algorithmes X. Tong et al. [20] Loin, médium, closeFB Logo, ratio du terrain, Arbre de décision closeNFB, hors du zone de la tête, texture K. Wan et al. [39] L. Xie et al. [40] terrain, répétition taille des objets Loin, médium, proche Taille du terrain, taille Play, break Algorithme des objets, bords personnalisé ratio du terrain, MMC intensité du mouvement L. Wang et al. [41] Loin, hors du terrain, couleur MMG coulour, bordures, SVM proche Y.-L. Kang et al. [42] Loin, médium, proche taille des objets, position des joueurs sur le terrain, texture I. Ahn et al. [19] Loin, médium, Ratio de la couleur closeFB, closeNFB Y.-H. Zhou et al. [4] Loin, médium, proche Carte de bolcs de terrain Couleur, bord SVM longueur du plan N. Nan et al. [5] A. Ekin et al. [6] A. Ekin et al. [7] Loin, médium, proche, Couleur, détection SVM et histogrammes public des bords, la texture de projection Loin, médium, proche Taille des objets, ratio Détection des lignes et hors du terrain du vert, nombre d’objets du terrain (hough) Loin, médium, proche Couleur du terrain Golden Section Spatial Composition L.-Y. Duan et al. [8] Loin, médium, proche Vecteur de mouvement Technique Haut-bas sur le terrain, texture, couleur Y. Yang et al. [21] Loin, médium, proche Couleur, mouvement MMC Tab. 2.2: Sommaire des techniques de classification des plans. 2.4 Conclusion Dans ce deuxième chapitre, nous avons effectué un état de l’art de la vidéo de football pour reconnaitre les événements importants. Cet état de l’art nous a permis de distinguer trois types de caractéristiques de la vidéo classées par niveaux. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts, Chaptire 2. La vidéo de football 24 les penalties, les corners, les fautes, les cartons jaune/rouge et les tentatives pour marquer un but. Ces événements importants sont caractérisés par l’apparition de certaines unités sémantiques. Une unité sémantique est composée d’une suite de plans du même événement. En fait, un événement est constitué de plusieurs unités sémantiques et la présence de certaines unités sémantiques spécifiques indique l’existence d’un événement important particulier. A ce propos, le domaine de connaissance montre qu’il y’a neuf unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes, les plans proches, le public, l’arbitre et les plans proches avec légende. Le traitement de ces unités sémantiques est réalisé via un ensemble de descripteurs de bas niveau comme la couleur, la texture, les bords, le logo, la zone de la tête, la taille des objets, etc. Ainsi, l’étude des unités sémantiques du niveau intermédiaire se focalise sur la classification de plans. Cette opération est intéressante dans la reconnaissance des événements importants dans la vidéo de football. En effet, les séquences vidéo importantes se composent d’images clés de classes différentes : loin, médium et proche et elles sont ordonnées de façon particulière. Pour cette raison la classification des images clés ou plans est une technique critique dans l’analyse de la vidéo. A ce sujet, un grand nombre d’algorithmes de classification des plans a été proposé. Nous avons présenté dans ce chapitre les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l’apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la méthode haut-bas [8]. Chapitre 3 Modélisation des séquences vidéos de matches de football Dans le chapitre 2, nous avons effectué une analyse de la vidéo de football. L’analyse de la vidéo de football est une étape très importante dans la reconnaissance des événements importants. A ce propos, nous avons présenté les différents types de descripteurs dans la vidéo de football. De plus, nous avons exposé un ensemble d’outils de classification de plans. Cette opération permet de classifier les images clés des séquences vidéos. Le chapitre courant parle de la modélisation des séquences vidéos de football afin de reconnaitre les événements importants. Ainsi, nous présentons dans la première section les deux grandes classes d’approches pour modéliser les événements importants dans la vidéo de football. Ensuite, nous exposons les MMCs dans la deuxième section. Ils représentent un bon outil de modélisation des événements de football grâce à leur habilité à modéliser les événements spatiaux temporels. Et dans la troisième et dernière section, nous proposons un ensemble de techniques de reconnaissance des événements importants dans la vidéo de matches de football, que nous avons trouvé dans la littérature. 3.1 Classes d’approches de modélisation des séquences vidéos La reconnaissance des événements importants nécessite la modélisation des séquences vidéo. Dans la littérature, nous trouvons deux grandes classes d’approches pour modéliser les séquences vidéos de football [14] : les approches basées sur les règles et les approches statistiques. 25 Chaptire 3. Modélisation des séquences vidéos de matches de football 3.1.1 26 Approches basées sur les règles Les approches basées sur les règles utilisent le domaine de connaissance pour définir un ensemble de règles de classification sémantique des séquences vidéos [15, 16]. A ce sujet, Xu et al. [15] ont défini des règles heuristiques pour étudier les transitions d’images dans les séquences vidéos en vue d’en extraire des informations dites de structure. Ces informations de structure permettent de définir les états de jeu play et break. L’état play correspond à un segment vidéo où le jeu est en cours tandis que l’état break répond à un segment où le jeu est arrêté. Encore, Duan et al. [16] ont défini des règles pour tracer une carte de caractéristiques visuelles et audio des séquences vidéos. Au fait, les approches basées sur les règles sont distinguées par la facilité de gestion des règles cà-d en cas d’ajout d’une nouvelle règle, de suppression et de modification des règles existantes. Cependant, quand le type de la vidéo traité change, les règles doivent être refaites manuellement. 3.1.2 Approches statistiques Les approches statistiques représentent la deuxième classe d’approches de modélisation des séquences de football. Ces approches utilisent des méthodes d’apprentissage pour classifier les séquences de la vidéo de sport [43]. Nous citons dans ce qui suit quelques techniques trouvées dans la littérature. 3.1.2.1 Les Machines à Vecteurs de Supports (SVMs) Les SVMs ont été annoncés dans les années 1990 par V ladimir V apnik qui a développé une théorie statistique d’apprentissage appelée la Théorie de Vapnik-Chervonenkis. Les SVMs ont rapidement été adoptés pour leur capacité à manipuler des données de grandes dimensions et à leur propriété de généralisation des résultats de la classification des données multimédia. A ce propos, plusieurs études ont été réalisées pour analyser la vidéo de sports avec les SVMs. Nous citons l’étude de Y. Ma et al. [44] qui ont utilisé les SVMs pour modéliser les caractéristiques du mouvement dans la vidéo afin de distinguer les différents types de clips. Et dans [16, 45], L.-Y. Duan et al. et M. Xu et al. ont exploité les SVMs pour créer des mid − level sports audio keywords. En liaison avec les SVMs, l’extension SVMs hiérarchiques est développée pour traiter le cas où un simple SVM ne peut pas distinguer toutes les classes requises en une seule étape [45]. De manière générale, les SVMs peuvent être utilisés dans la résolution des problèmes de discrimination pour décider à quelle classe appartient un échantillon. De même, les SVMs traitent des problèmes de régression pour prédire la valeur numérique d’une variable. Chaptire 3. Modélisation des séquences vidéos de matches de football 3.1.2.2 27 Les réseaux de neurones (RNs) Les réseaux de neurones représentent une deuxième approche statistique pour classifier les événements de la vidéo de football. Les RNs sont utilisés dans divers domaines tels que le traitement du signal, le traitement d’image et de la parole, la robotique, etc. Les réseaux de neurones utilisent l’algorithme perceptron multicouche, développé en 1985 [46]. L’algorithme perception multicouche est un algorithme de rétro propagation du gradient. Ce dernier détermine l’erreur commise par chaque neurone du réseau lors de la phase d’apprentissage et il modifie la valeur du poids de chaque neurone pour minimiser cette erreur. Les rétro propagations sont itérées jusqu’à ce que l’erreur quadratique moyenne devienne inférieure à un certain seuil. Diverses études sur le traitement de la vidéo de sport avec les réseaux de neurones ont été réalisés. J. Assfalg et al. [12] ont utilisé deux RNs pour classifier les plans de la vidéo de football. Les RNs permettent la reconnaissance des bords du terrain et de la couleur verte. Aussi, V. Kobla et al. [47] ont employé les réseaux de neurones pour segmenter la région du texte dans la vidéo de sport. 3.1.2.3 Les Modèles de Markov Cachés (MMCs) D’autres approches statistiques de modélisation des séquences vidéos reposent sur les MMCs. Les MMCs sont utilisés lors de l’apprentissage et la reconnaissance des événements importants dans la vidéo de football. Leur popularité est due à leur habilité à modéliser les motifs spatiaux temporels dans les séquences vidéos. Les MMCs seront détaillés à la section 3.2. 3.1.2.4 Autres algorithmes En plus des algorithmes déjà cités, il y’a d’autres approches statistiques telles que les Chaînes de Markov Contrôlées [48], le maximum d’entropie [49], le classifieur bayesien naïf [50] et le réseau de confiance bayesien [51]. 3.2 Les Modèles de Markov Cachés La manipulation des données avec les MMCs entre dans le cadre de la programmation dynamique, introduite par Bellman en 1960 [52]. La programmation dynamique permet de résoudre une catégorie particulière de problèmes d’optimisation sous contraintes. La plupart des systèmes de reconnaissance automatique des événements importants dans Chaptire 3. Modélisation des séquences vidéos de matches de football 28 la vidéo de football utilisent la théorie des MMCs. Dans un MMC, et contrairement aux Modèles de Markov Discrets [52], les observations ne sont pas reliées à une seule classe bien déterminée mais à des fonctions statistiques liées aux classes du modèle. Les modèles de Markov sont dits "cachés" parce que les classes du MMC ne sont pas observées directement. Ces observations sont produites par les états du MMC à travers une fonction statistique différente pour chaque classe du modèle [52]. 3.2.1 Les paramètres du MMC Un MMC est défini par [53, 54] : – N états d’entrée réunis dans un vecteur d’états S = (s1 , s2 , ..., sN ). On note qt (qt S), l’état observé à l’instant t ; – Un vecteur de symboles observés dans chaque état du modèle. L’ensemble des observations possibles est noté par O = (o1 , o2 , ..., oT ). Avec ot (ot O) le symbole observé à l’instant t et T correspond au nombre d’observations dans la séquence O. – Une matrice de transitions a. Elle est calculée par l’équation (3.1) : (3.1) aij = P (st+1 = j/st = i) pour 1 ≤ i, j ≤ N et 1 ≤ t ≤ T avec PN j=1 aij = 1 et aij ≥ 0. La matrice a est de taille N ∗ N . L’élément aij représente la probabilité d’atteindre l’état j dans la prochaine transition sachant que le système est à l’état i. L’équation (3.1) montre que l’état observé à l’instant t + 1 ne dépend que de son passé immédiat, c-à-d de l’état st ; La figure 3.1 illustre ce phénomène : Fig. 3.1: Représentation d’un MMC par un réseau bayesien. Chaptire 3. Modélisation des séquences vidéos de matches de football 29 – Un vecteur de probabilités initiales π. Il représente la probabilité d’avoir l’état i au début du MMC. π est calculé par l’équation (3.2) : (3.2) πi = P (s1 = i) avec 1 ≤ i ≤ N , πi ≥ 0 , PN = 1; i=1 πi – Une matrice de probabilités d’observations b de chaque état du MMC. bj est la probabilité d’observer l’état l alors que le modèle est à l’état j. La matrice b est calculée par l’équation (3.3) : bj (l) = P (ot = l/st = j) avec 1 ≤ j ≤ N , 1 ≤ l ≤ T , – Un ou plusieurs états finals. PT l=1 bj (l) (3.3) = 1 et bj (l) ≥ 0 De manière générale, un MMC peut être spécifié par le triplet λ = (a, b, π). 3.2.2 Les inférences du MMC Les inférences liées aux MMCs peuvent être classifiées en : a) une inférence en ligne, recensée en même temps que le système évolue. Et elle est calculée à chaque moment où une nouvelle observation est disponible et b) une inférence hors ligne. Elle est calculée à la terminaison du phénomène observé. 3.2.2.1 Les inférences en ligne Les inférences en ligne sont particulièrement utilisées dans les applications en ligne où il est nécessaire de faire des choix en même temps que les objets se déplacent. 3.2.2.2 Les inférences hors ligne Les inférences hors ligne sont calculées après la collecte de la dernière observation. Elles sont utilisées dans l’apprentissage, le diagnostique et la classification. Les inférences hors ligne traitent toutes les T observations de la séquence. Bien que le coût de l’inférence croisse exponentiellement en fonction de la longueur N de la séquence, la programmation dynamique calcule l’inférence en exactement o(T N 2 ). Chaptire 3. Modélisation des séquences vidéos de matches de football 3.2.3 30 Les algorithmes de manipulation des paramètres du MMC Les MMCs utilisent principalement les algorithmes Forward, Backward et Viterbi dans le calcul de la probabilité d’une séquence d’observation sachant les paramètres d’un modèle et dans la recherche de la séquence d’états qui correspond le plus à une séquence d’observation. Ces algorithmes calculent des inférences hors ligne. 3.2.3.1 L’algorithme Forward-Backward L’algorithme Forward-Backward est proposé par Leonard E. Baum en 1970 [55]. Cet algorithme utilise la programmation dynamique pour éviter les calculs redondants lors de l’estimation de la probabilité Forward [9]. Ainsi, la solution naïve à ce problème consiste à calculer la probabilité conditionnelle P (O/λ) en utilisant l’équation (3.4) : P (O/λ) = X P (O/s, λ)P (s/λ) (3.4) s Avec P (O/s, λ) = T Y P (ot /s, λ) = bs1 (o1 )bs2 (o2 )...bsT (oT ) (3.5) t=1 Les observations sont indépendantes. Et P (s/λ) = πs1 as1 s2 as2 s3 ...asT −1 sT (3.6) Donc, P (O/λ) est calculée par l’équation (3.7) : P (O1:T /λ) = X P (s1 )P (s2 /s1 )P (o2 /s2 )...P (sT /sT −1 )P (oT /sT ) (3.7) s1 ,...,sT Cette équation est de complexité o(N T ) ce qui est infaisable. D’où l’utilité des probabilités Forward αt (i) qui factorise les probabilités de sous séquences communes à plusieurs séquences. Les probabilités Forward sont calculées de manière récursive par l’équation (3.8), [9] : Chaptire 3. Modélisation des séquences vidéos de matches de football N X αt (j)P ([st = i]/[st−1 = j])]P (ot /[st = i]) αt (i) = [ 31 (3.8) j=1 En effet, pour chaque unité de temps t, l’algorithme itère pour tous les états N du modèle λ. De plus, pour chaque état de λ, l’algorithme itère pour tous ses prédécesseurs. Le calcul total est de complexité o(T N 2 ). A ce propos, l’algorithme Forward répond à une question souvent reliée aux MMCs à savoir : Quelle est la probabilité d’une séquence d’observation complète sachant les paramètres d’un modèle ? Cette probabilité P (O1:T /λ) peut être calculée efficacement avec la probabilité Forward en utilisant l’équation (3.9) : P (O1:T /λ) = N X P (O1:T , sT = i/λ) = i=1 N X αT (i) (3.9) i=1 L’algorithme Forward est présenté plus en détails ci-dessous [9] : Algorithme 1 : Algorithme F orward (O1:T , λ) Require: Une séquence d’observation O1:T Les paramètres d’un MMC : λ = (a, b, π) Ensure: Les probabilités Forward 1: for i = 1 to N do 2: α1 (i) = πi bi (o1 ) 3: end for 4: for t = 1 to T − 1 do 5: 6: 7: for j = 1 to N do P αt+1 (j) = N i=1 αt (i)aij bj (ot+1 ) end for 8: end for 9: return all αt (i) A l’instar des probabilités Forward, les probabilités Backward βt (i) = P (Ot+1:T /[st = i]λ) sont calculées récursivement par l’équation (3.10) : βt (i) = N X j=1 P ([st+1 = j]/[st = i])P (ot+1 /[st+1 = j])βt+1 (j) (3.10) Chaptire 3. Modélisation des séquences vidéos de matches de football 32 A l’opposé des probabilités Forward, les probabilités Backward dépendent des unités de temps suivantes. En effet, elles sont calculées à partir de la dernière observation. L’algorithme Backward est détaillé ci-dessous [9] : Algorithme 2 : Algorithme Backward (O1:T , λ) Require: Une séquence d’observation O1:T Les paramètres d’un MMC : λ = (a, b, π) Ensure: Les probabilités Backward 1: for i = 1 to N do 2: βT (i) = 1 3: end for 4: for t = T − 1 down to 1 do 5: 6: 7: for i = 1 to N do P βt (i) = N j=1 aij bj (ot+1 )βt+1 (j) end for 8: end for 9: return all βt (i) 3.2.3.2 L’algorithme Viterbi Le calcul des inférences des MMCs est réalisé via les algorithmes Forward, Backward et Viterbi. De son côté, l’algorithme Viterbi maximise la probabilité jointe arg max P (s1:T /O1:T ). Et du fait qu’une seule séquence d’états peut correspondre à différentes séquences d’observation, Viterbi est utilisé pour répondre à la question suivante : "Quelle est la séquence d’états qui correspond le plus à une séquence d’observation ?". Les traitements réalisés par les algorithmes Forward et Viterbi se ressemblent. Toutefois, la sommation de l’algorithme Forward est remplacée par une maximisation dans Viterbi selon l’équation (3.11) : δt+1 (j) = max[δt (i)aij ]bj (ot+1 ) i (3.11) Où δt (j) représente le maximum de vraisemblance d’avoir la séquence d’observation partielle O1:t et d’être à l’état j à l’instant t. Viterbi mémorise aussi, à chaque instant t et pour chaque état j, l’état précédent ψt (i) qui conduit à j avec une probabilité maximale. L’état ψt (i) est calculé par l’équation (3.12) : N ψt (j) = arg max(δt−1 aij ) i=1 (3.12) Chaptire 3. Modélisation des séquences vidéos de matches de football 33 Ainsi, l’algorithme Viterbi calcule le meilleur chemin par la recherche de l’état qui maximise s∗T = arg maxj ψT (j). Ensuite, il fait un retour en arrière pour calculer ses prédécesseurs : s∗T −1 = ψ(s∗T ). L’algorithme Viterbi est présenté en détails ci-dessous [9] : Algorithme 3 : Algorithme V iterbi (O1:T , λ) Require: Une séquence d’observation O1:T Les paramètres d’un MMC : λ = (a, b, π) Ensure: La séquence d’état la plus probable s∗1:T 1: for i = 1 to N do 2: δ1 (i) = πi bi (o1 ) 3: ψ1 (i) = 0 4: end for 5: for t = 2 to T do 6: for j = 1 to N do 7: δt (j) = maxi1,...,N [δt−1 (i)aij bj (ot )] 8: ψt (j) = arg maxi1,...,N (δt−1 aij ) 9: end for 10: end for 11: s∗T = arg maxi1,...,N [δT (i)] 12: for t = T − 1 down to 1 do 13: s∗t = ψt+1 (s∗t+1 ) 14: end for 15: return s∗1:T La complexité de l’algorithme Viterbi est o(N 2 T ). 3.2.4 L’apprentissage des paramètres du MMC L’opération d’apprentissage permet d’estimer les valeurs des paramètres du MMC. Le calcul de ces paramètres est toujours accompagné par des erreurs d’estimation. A ce propos, si on note les paramètres que l’on cherche à apprendre par θ et les paramètres b estimés en fonction des données X par θ(X). Alors, l’erreur commise en estimant les b paramètres est (X) = θ(X) − θ. Cette erreur est utilisée comme critère d’évaluation de la qualité d’apprentissage. Les critères les plus utilisés dans l’apprentissage des MMCs [56] sont : le critère Maximum de vraisemblance (MV) et le critère Maximum a posteriori (MAP). Chaptire 3. Modélisation des séquences vidéos de matches de football 3.2.4.1 34 L’apprentissage avec le critère MV L’optimisation du critère MV est réalisée par l’algorithme Baum-Welch. Cet algorithme, originellement introduit par Leonard E. Baum [55], est une instance de l’algorithme EM. L’algorithme Baum-Welch part d’un modèle grossier, puis il optimise le critère de vraisemblance jusqu’à convergence [56]. L’apprentissage d’un MMC consiste à encoder une séquence d’observation pour que le MMC puisse identifier une observation similaire dans le futur. L’apprentissage permet de trouver le modèle λ qui maximise P (O/λ). Nous calculons ζt (i, j), la probabilité d’être à l’état i à l’instant t et à l’état j à l’instant t + 1 sachant λ et une séquence O. αt (i)aij bj (ot+1 )βt+1 (j) ζt (i, j) = PN PN i=1 j=1 αt (i)aij bj (ot+1 )βt+1 (j) (3.13) Ensuite, nous calculons γt (i), la probabilité d’être à l’état i à l’instant t sachant O. γt (i) = N X ζt (i, j) (3.14) j=1 Après, nous passons à l’apprentissage des paramètres de λ : π, a et b. (3.15) π bi = γ1 (i) PT −1 ζt (i, j) b aij = Pt=1 T −1 t=1 γt (i) bbj (k) = PT −1 t=1,ot =k PT −1 t=1 γt (j) γt (j) (3.16) (3.17) L’algorithme Baum-Welch, décrit ci-dessous, manipule les probabilités Forward-Backward pour éviter les calculs redondants [9, 57]. Algorithme 4 : Algorithme Baum − W elch (O1:M , λ) Require: Une séquence d’observations O1:M Apprentissage des paramètres du MMC : λ = (a, b, π) Ensure: Les paramètres du MMC : λ = (b a, bb, π b) Chaptire 3. Modélisation des séquences vidéos de matches de football 35 1: for t = 1 to T − 1 do 2: ζt (i, j) = 3: end for αt (i)aij bj (ot+1 )βt+1 (j) PN i=1 j=1 αt (i)aij bj (ot+1 )βt+1 (j) PN 4: for t = 1 to T − 1 do 5: 6: 7: for i = 1 to N do P γt (i) = N j=1 ζt (i, j) end for 8: end for 9: for i = 1 to N do 10: π bi = γ1 (i) 11: end for 12: for j = 1 to N do 13: for i = 1 to N do b ai,j = 14: 15: end for P T −1 ζt (i,j) Pt=1 T −1 t=1 γt (i) 16: end for 17: n = size(b) 18: N cb = n(2) 19: for j = 1 to N do 20: 21: for k = 1 to cb do P TN −1 t=1,ot =k γt (j) b bj (k) = P T −1 t=1 22: γt (j) end for 23: end for 3.2.4.2 L’apprentissage avec le critère MAP Le deuxième critère dans l’apprentissage des paramètres des MMCs est le maximum a posteriori. La probabilité a posteriori est calculée par la formule de Bayes : P (θ/X) = P (X/θ)P (θ) P (X) avec P (θ), la probabilité a priori. Ainsi, l’optimisation de la probabilité P (θ/X) permet de calculer l’estimateur a posteriori θbM AP (X) par l’équation (3.18) [56] : θbM AP (X) = arg max P (θ/X) = arg max P (X/θ)P (θ) θ 3.2.5 θ (3.18) La structure du MMC La structure d’un MMC décrit les transitions possibles entre les états du modèle. Nous citons : 1) La structure "ergodique", où chaque état est accessible à partir de tous les Chaptire 3. Modélisation des séquences vidéos de matches de football 36 autres états du MMC et 2) La structure "gauche-droite" dont les coefficients de transitions obéissent à la contrainte suivante : aij = 0, ∀j < i. Les figures 3.2(a) et 3.2(b) illustrent les deux structures précitées [9]. (a) Ergodique (b) Gauche-droite Fig. 3.2: Exemples de deux structures des MMCs [9]. En plus des structures ou topologies "ergodique" et "gauche-droite", il y’a la topologie "tableau de listes chaînées". Cette dernière est utilisée lorsque la matrice A est creuse, c.-à-d. elle contient plusieurs zéros. 3.3 Techniques de reconnaissance des événements importants dans la vidéo de matches de football La reconnaissance des événements importants dans la vidéo de football est une opération importante. Car, elle permet d’identifier les séquences vidéo intéressantes c-à-d, les séquences qui illustrent des événements importants tels que les buts, les fautes directes, les corners, les penalties, etc. Plusieurs recherches ont été réalisées pour reconnaitre les événements importants dans la vidéo de football. Certaines recherches statistiques utilisent les capacités d’apprentissage automatiques pour obtenir la connaissance, d’autres utilisent des règles pour reconnaître ces événements importants. Nous citons : 1) La technique proposée par C.-L. Huang et al. [10] qui utilisent les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques, 2) La technique suggérée par L.-Y. Duan et al. [17] qui se servent d’une représentation de niveau intermédiaire, 3) La technique de S. Lao et al. [18] qui usent d’une unité sémantique de Chaptire 3. Modélisation des séquences vidéos de matches de football 37 base et des réseaux de Petri, 4) La technique qui se sert des P lay et des Break présentée par D. Tjondronegoro et al. [11], 5) La technique conçue par J. Assfalg et al. [12] qui emploient les MMCs et les positions des joueurs sur le terrain de jeu et finalement 6) La technique basée sur les mots clés et les MMCs et suggérée par J. Wang et al. [13]. 3.3.1 Reconnaissance des événements importants avec les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques (BNs/DBNs) C.-L. Huang et al. [10] utilisent les BNs et les DBNs pour reconnaitre les événements importants. Ces deux réseaux codent les relations temporelles entre les noeuds (les plans de la vidéo de football) pour analyser la sémantique des événements importants. C.-L. Huang et al. définissent trois types de noeuds : 1) Les noeuds "événements importants", 2) Les noeuds cachés qui représentent les rediffusions (replay), la légende, les plans proches, l’audio, le public et l’arbitre et 3) Les noeuds preuves, qui regroupent les descripteurs de l’énergie, le logo, la texture, le mouvement, les lignes parallèles et la couleur dominante. Les noeuds du réseau sont initialement déconnectés. Ensuite, les probabilités de transitions entre eux sont calculées lors de la phase d’apprentissage. L’apprentissage des BNs/DBNs est une étape primordiale dans la modélisation des événements importants dans la vidéo des matches de football. Les figures 3.3(a) et 3.3(b) montrent un exemple de BN et de DBN de l’événement important corner. (a) Réseau bayesien de l’événement corner (b) Réseau bayesien dynamique de l’événement corner Fig. 3.3: Exemples de BN et de DBN de l’événement corner [10]. Chaptire 3. Modélisation des séquences vidéos de matches de football 3.3.2 38 Reconnaissance des événements importants avec une représentation de niveau intermédiaire : mid − level L.-Y. Duan et al. [17] présentent une autre technique de reconnaissance des événements importants. Cette technique utilise une représentation de niveau intermédiaire. Elle sépare les segments vidéos In P lay Segment (IPS), où le jeu est en cours des segments Out of P lay Segment (OPS), où le jeu est arrêté. L.-Y. Duan et al. utilisent la couleur du terrain pour créer une carte de suivi des probabilités de cette couleur (FPMT) en vue de détecter les IPS et OPS. La FPMT trace des formes géométriques sur le terrain. Or, cette carte réalise une perception stable de la couleur malgré la variation des conditions d’éclairage du terrain. La FPMT calcule le ratio entre les histogrammes de couleurs d’une image modèle et l’image en cours de traitement. Par exemple, l’événement "but" est caractérisé par l’excitation de la voix du commentateur et celle du public avec un long OPS. Tandis que l’événement "coup de corner" est distingué par la détection d’un sifflement dans les deux derniers plans d’un OPS avec l’apparition des plans du goal et des plans médium des joueurs. Cependant, si le "coup de corner" n’est pas effectué alors il s’agit d’un "coup de penalty" si l’OPS est long ou bien il s’agit d’un "coup libre" si l’OPS est court. 3.3.3 Reconnaissance des événements importants avec l’unité sémantique de base et les réseaux de Pétri (BSUCPN) S. Lao et al. [18] représentent les événements importants dans la vidéo de matches de football par des unités sémantiques et les réseaux de Pétri. Et ils caractérisent l’événement "but", par exemple, par des plans de la zone du goal, suivis d’OPSs ou d’OFSs avec une grande énergie dans le discours du commentateur et un grand bruit des spectateurs. L’OFS (Out of F ield Segment) est un segment qui ne contient pas d’herbe. Ensuite, des répétitions qui dépassent les 30 secondes sont diffusées. Les répétitions du but contiennent des OPSs ou des OFSs avec l’affichage de la table du score. Par contre, l’événement "corner" est distingué par des plans médiums du terrain de football avec l’apparition de l’arc du corner et de la zone du goal. 3.3.4 Reconnaissance des événements importants avec les segments play et break D. Tjondronegoro et al. [11] ont développé une autre technique pour reconnaitre les événements importants. Cette technique traite les segments play et break. En effet, l’examen Chaptire 3. Modélisation des séquences vidéos de matches de football 39 de plusieurs séquences de l’événement "but" a montré que la durée du break après l’événement doit être entre 30 et 120 secondes. Le segment break reporte les célébrations des supportaires et garde l’attention des téléspectateurs en attendant que le jeu soit repris. De plus, des répétitions de l’événement important sont diffusées après la visualisation d’un ou de plusieurs plans proches. De même, un "coup de corner" est reconnu si un sifflement est détecté dans les deux derniers plans d’un segment break avec l’apparition des plans de "la région du goal". La figure 3.4 illustre les séquences play − break dans une vidéo de football. Fig. 3.4: Les séquences play − break dans une vidéo de football [11]. D. Tjondronegoro et al. [11] ont produit des statistiques pour chaque événement important par l’utilisation d’un ensemble de variables telles que : – Le SqD qui représente la durée de la séquence play−break. Le domaine de connaissance a montré qu’une séquence de l’événement "but" est plus longue qu’une séquence ne contenant pas d’événements intéressants. – Et le BR qui est le rapport break SqD . Il mesure la longueur d’un break. Le calcul de ce ratio est important puisqu’une séquence "but", par exemple, a un grand BR. Cela est dû aux célébrations des supportaires et aux rediffusions de l’événement. 3.3.5 Reconnaissance des événements importants avec les MMCs et les positions des joueurs sur le terrain de jeu J. Assfalg et al. [12] utilisent les MMCs, le suivi des mouvements de la caméra et des informations sur les positions des joueurs sur le terrain de jeu pour reconnaitre les événements importants. J. Assfalg et al. traitent quelques descripteurs tels que le mouvement de la caméra qui a une forte corrélation avec le mouvement du ballon. Aussi, ils [12] effectuent une description quantitative des positions des joueurs sur le terrain de jeu. Ils définissent trois zones dans chaque demi-terrain : la petite zone du gardien du goal (f1), Chaptire 3. Modélisation des séquences vidéos de matches de football 40 la zone du goal (f2) et la zone entre le goal et le centre du terrain (f3). Ainsi, les positions des joueurs sont décrites par trois qualifieurs fuzzy, un pour chaque zone. Les trois zones sont illustrées sur la figure 3.5 : Fig. 3.5: A gauche, un schéma qui montre les positions des joueurs sur le terrain et à droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs des zones f1, f2 et f3 [12]. J. Assfalg et al. [12] utilisent aussi les MMCs pour reconnaitre les événements importants. Ils supposent que l’espace des événements est composé de M classes E1 , ...EM . Où chacune d’elles correspond à un événement important particulier. J. Assfalg et al. attribuent à chaque classe Ei un MMC λi . Et ils décomposent l’événement "penalty", par exemple, en trois phases : Dans la phase 1, le joueur se prépare pour tirer le ballon et la caméra est en état de pause. Dans la phase 2, la caméra se déplace rapidement vers le goal pour suivre le coup du joueur. Et dans la troisième et dernière phase, la caméra se ralentit. J. Assfalg et al. [12] utilisent les trois phases précédentes pour présenter tout événement important. Aussi, ils emploient des MMCs de topologies gauche-droite et de trois états d’entrée chacun : loin, médium et proche. 3.3.6 Reconnaissance des événements importants avec les mots clés et les MMCs J. Wang et al. [13] proposent un modèle de trois niveaux pour reconnaitre les événements importants dans la vidéo de football. Dans le niveau bas, la vidéo est divisée en flux visuel et audio pour extraire les descripteurs de bas niveau. Ensuite, ces derniers sont envoyés au niveau moyen pour les assembler dans des groupes étiquetés par des mots clés. Cet étiquetage est réalisé par des classifieurs SVMs. J. Wang et al. [13] définissent Chaptire 3. Modélisation des séquences vidéos de matches de football 41 un ensemble de mots clés visuels tels que le plan loin du milieu du terrain, le plan loin de la zone du goal, le plan proche, le public et la répétition. De plus, ils [13] emploient les mots clés audio : applaudissements, discours du rapporteur, sifflements et silence. Par conséquent, les séquences de mots clés sont appelées vecteurs de mots clés. Après, ce flux de vecteurs est traité par les MMCs au niveau haut du modèle pour reconnaitre les sémantiques des événements importants. La figure 3.6 illustre un diagramme pour reconnaitre les événements importants avec les mots clés et les MMCs. Fig. 3.6: Diagramme pour la reconnaissance des événements importants avec les mots clés et les MMCs [13]. 3.3.7 Résumé Le tableau 3.1 présente un sommaire des recherches réalisées dans le cadre de la reconnaissance des événements importants dans la vidéo de football. Chaptire 3. Modélisation des séquences vidéos de matches de football 3.4 42 Conclusion Nous avons présenté dans la première section de ce chapitre les deux grandes approches de modélisation des événements importants dans la vidéo de football. Il s’agit des approches qui utilisent des règles et les approches qui emploient des outils statistiques. Ensuite et dans la deuxième section, nous avons parlé en détails des MMCs qui représentent un outil statistique. Nous avons présenté aussi leurs six paramètres et les algorithmes d’estimation de leurs valeurs : Forward-Backward et Viterbi. A la fin de cette même section, nous avons montré les critères d’apprentissage des paramètres des MMCs et quelques structures physiques de ces modèles. Dans la troisième et dernière section, nous avons exposé quelques techniques de reconnaissance des événements importants dans la vidéo de football que nous avons trouvé dans la littérature. Dans les chapitres 4 et 5, nous allons présenter les quatre contributions pour reconnaitre les événements importants dans la vidéo de football et proposées dans ce rapport. Chaptire 3. Modélisation des séquences vidéos de matches de football 43 Références Descripteurs utilisés Classifieurs/Algorithmes C.-L. Hang et al. [10] Logo, couleur dominante, texture Réseaux Bayesiens/ rediffusin, légende, audio, lignes Réseaux Bayesiens parallèles, plan proche, audience, Dynamiques arbitre, mouvement des objets L.-Y. Duan et al. [17] S. Lao et al. [18] Couleur dominante, audio, plan Représentation de niveau du goal, plan médium, IPS, OPS interdédiaire : mid-level Couleur dominante, plan du goal, Unité sémantique de base plan médium, plan du corner et les réseaux de audio, répétition, table Petri (BSUCPN) du score, OPS, OFS D. Tjondronegoro et al. [11] Segment play, segment break Algorithme personalisé audio, répétition, plan proche, plan du goal J. Assfalg et al. [12] Mouvement du ballon, zone du MMC gardien, zone du goal, zone entre le goal et le centre du terrain J. Wang et al. [13] Couleur dominante, audio, mots MMC clés, plan loin, plan proche, zone du goal, audience, répétition S.-C. Chen et al. [58] Couleur du terrain, déplacement Data Minig et des objets, plan loin, plan proche, les règles de classification plan médium, audio M. Luo et al. [59] Couleur du terrain, plan loin, Structure plan proche, plan médium, pyramidal répétition Y.-L. Kang et al. [60] Couleur du terrain, texture, Règles de détection mouvement, mots clés, plan loin, et les arbres plan proche, plan médium, plan du goal, plan audience X.-F. Tong et al. [2] Couleur du terrain, texture, bords, Réseaux Bayesiens mouvement, plan proche, plan loin, plan médium J. Li et al. [61] Mots clés, plan loin, Réseaux Bayesiens plan médium, plan proche plan hors du terrain, position du jeu, répétition, audio Tab. 3.1: Sommaire des techniques de reconnaissance des événements importants. Chapitre 4 Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes Dans ce chapitre, nous allons proposer deux études qui emploient les MMCs pour reconnaitre les événements importants dans la vidéo de football. Dans la première section, nous allons avancer l’approche qui utilise un seul MMC. Ensuite et dans la deuxième section, nous allons présenter l’approche qui exploite les MMCs et le théorème de Bayes. Nous présentons aussi les résultats expérimentaux associés aux deux approches précitées. Lors de l’expérimentation, nous utilisons des bases d’apprentissage et de reconnaissance. Elles sont construites de séquences vidéos extraites de différents matches de football pour avoir différentes conditions d’herbe, de luminance et d’enregistrement de la vidéo de football. Une séquence vidéo est de 5 secondes environ et de format MPEG 352*288 avec un débit de 1150 kbps. Les résultats des expériences seront présentés sous forme de tableaux. Ils vont montrer le nombre et le pourcentage des séquences vidéos bien et mal classées. De plus, nous allons calculer certains critères d’évaluation des résultats obtenus tels que la précision, la spécificité et la sensibilité ou le rappel. Et vers la fin, nous allons présenter la courbe de ROC associée à chaque technique de reconnaissance d’événements importants présentée dans ce chapitre. 44 Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 45 4.1 Contribution 1 : Reconnaissance des événements importants dans la vidéo de football avec un seul MMC Dans cette section, nous présentons une première approche de reconnaissance des événements importants dans la vidéo de football. Cette approche utilise un seul MMC d’événements importants de trois états d’entrée et deux états de sortie. Les états d’entrée sont les classes de plans de la vidéo de football : loin, médium et proche et les états de sortie sont : événement important et événement non important. La méthode de classification de plans employée dans les quatre contributions de cette thèse sera détaillée dans la première sous section. Dans la deuxième sous section, nous allons modéliser les séquences vidéos avec un MMC d’événements importants. En fait, le traitement de ces séquences avec un MMC est effectué en deux phases. Une première phase d’apprentissage des paramètres du MMC en utilisant une base d’apprentissage d’événements importants et l’algorithme d’estimation des paramètres du MMC : Baum-Welch. Cet algorithme est déjà traité dans la sous section 3.2.4.1. La base d’apprentissage d’événements importants comprend un ensemble de segments vidéos importants issus de différents matches de football. Ensuite, nous classifions les images clés de ces segments selon leurs types de plans. Puis, nous effectuons un apprentissage des paramètres du MMC. Après, nous passons à la phase de reconnaissance des événements importants où nous calculons la probabilité d’avoir un segment vidéo important en utilisant le MMC et les algorithmes d’estimation Forward et Backward précédents. Les résultats de cette approche donne une précision de 80%. 4.1.1 Classification visuelle des plans La classification des plans est une opération essentielle pour reconnaitre les événements importants dans la vidéo de football. En outre, le domaine de connaissance a montré qu’un événement important est caractérisé par une succession de plans loins suivis par des plans médiums et à la fin il y’a plusieurs plans proches. Nous avons présenté dans la section 2.3 plusieurs techniques de classification de plans que nous avons trouvées dans la littérature. Ces techniques utilisent un ensemble de descripteurs de bas niveau tels que : la couleur du terrain, la texture, le logo, etc. Nous avons utilisé la propriété de la couleur dominante du terrain (vert) pour classifier les plans dans les quatre contributions de cette thèse. En effet, l’emploi de ce descripteur donne une bonne classification. Dans le même contexte, Y. Tabii et al. [62] propose une approche de classification de plans basée sur la couleur verte du terrain. Leur approche classifie les plans en deux étapes : l’apprentissage et la classification. Dans la première étape, Y. Tabii et al. extraient manuellement des images à partir de diverses vidéos de football et ils les nomment Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 46 "images d’apprentissage". Ensuite, ils classifient ces images selon leurs types de plans : loin, médium ou proche pour construire une base d’apprentissage de plans. Après, ils calculent le ratio de la couleur dominante pour chaque type de plans dans l’espace Teinte, Saturation et Valeur (HSV). Et finalement, ils calculent les valeurs moyennes des différentes composantes de la couleur verte pour chaque type de plans. Et dans l’étape de classification, Y. Tabii et al. [62] comparent les valeurs des composantes de la couleur verte des images clés d’une séquence de test avec celles de la base d’apprentissage. Ils [62] utilisent la règle du Golden-Section Spatial Composition (GSSC) qui divise les images en 3 :5 :3 dans les deux directions [7, 63]. Le découpage des plans en neuf portions permet de différencier les trois classes de plans puisque le caméraman met toujours l’action du jeu au milieu de l’image. La figure 4.1 illustre les trois types de plans et l’application de la GSSC sur les correspondants binaires des plans. Nous remarquons que le plan loin 4.1(d) est caractérisé par des lignes supérieures noires. Et le plan médium 4.1(e) comprend deux colonnes blanches (les colonnes droite et gauche) et une ligne supérieure noire à 50%. Enfin, le plan proche 4.1(f) est caractérisé par une colonne médium noire. (a) Plan loin (b) Plan médium (c) Plan proche (d) Plan loin en binaire (e) Plan médium en binaire (f) Plan proche en binaire Fig. 4.1: Les trois classes de plans et l’application de la GSSC sur leur correspondants en binaire. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 47 La figure 4.2 illustre le processus de segmentation de la vidéo de football et la classification des images clés en utilisant la GSSC. Fig. 4.2: Processus de segmentation de la vidéo de football et la classification des images clés en utilisant la GSSC. 4.1.2 Modélisation et reconnaissance des événements importants avec un MMC La reconnaissance des événements importants dans la vidéo de football en utilisant un MMC d’événements importants λ1 est réalisée en deux phases : l’apprentissage et la reconnaissance [64, 65]. Dans la phase d’apprentissage, nous commençons par la construction de λ1 en utilisant une base d’apprentissage d’événements importants et les algorithmes d’estimation des paramètres des MMCs précédents. Ainsi, la construction de λ1 se fait via : 1) la collecte des états du modèle. Les états de λ1 sont les classes de plans : loin (L), médium (M) et proche (P), 2) la création d’un ensemble de vecteurs d’états à partir de la base d’apprentissage des séquences importantes. Le vecteur est représenté de la manière suivante : [LLLMMMPPP] et 3) l’apprentissage et l’optimisation itérative des paramètres de λ1 [64, 66] pour calculer leurs valeurs finales avec l’algorithme Baum-Welch. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 48 Donc, le MMC λ1 est défini par [67] : – N états d’entrée groupés dans l’ensemble S = {s1 , s2 , ..., sN }. λ1 comprend 3 états c à d S = {”loin”, ”medium”, ”proche”}. – Un vecteur de symboles observés dans chaque état du modèle. Il s’agit de la séquence vidéo O. – Une matrice de probabilités de transitions a1 (équation 4.1) : a1ij = P [st+1 = j/st = i], 1 ≤ i, j ≤ N. N X 1 ≤ t ≤ T, avec (4.1) a1ij = 1 et a1ij ≥ 0. j=1 T est la durée de la séquence vidéo O. Les transitions entre les états sont initialisées par une distribution uniforme (équation 4.2). a1ij = a1iu , ∀i, j, u = 1, 2, ..., N. (4.2) La matrice de transitions a1 après apprentissage est illustrée par l’équation 4.3. 0 1 0 a1 = 0 1 0 0 0 1 (4.3) La figure 4.3 montre les états de λ1 avec leurs probabilités de transitions : 0 1 1 0 L M 0 0 0 0 P 1 Fig. 4.3: Les états et les probabilités de transitions de λ1 des événements importants. Avec L : Loin, M : Médium et P : Proche. L est un état initial et M et P sont deux états finaux. – Une matrice de probabilités d’observation b1 pour chaque état du modèle. b1j est la probabilité d’observer l’état l quand λ1 est à l’état j (équation 4.4) : b1j (l) = P [ot = l/st = j], 1 ≤ j ≤ N. 1 ≤ l ≤ T, T X l=1 b1j (l) = 1, b1j (l) ≥ 0 (4.4) Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 49 M est le nombre d’observations dans la séquence O. Les probabilités d’observations sont initialisées par les données de la base d’apprentissage. L’initialisation est réalisée par la distribution régulière d’une séquence d’observation quelconque O dans les différents états du modèle. Cette procédure est appelée "segmentation uniforme". L’initialisation permet d’estimer les probabilités d’observation de chaque état. Ainsi, nous estimons la probabilité b1j (ot ) de chaque symbole ot (vecteur d’observation) à t sachant l’état j. La matrice de probabilités d’observations b1 après apprentissage est illustrée par l’équation 4.5. 1 0 0 b1 = 0.294 0.272 0.432 0 0 1 (4.5) – Un vecteur de probabilités initiales π1 qui calcule la probabilité d’avoir l’état i au premier état de λ1 (équation 4.6) : π1i = P (s1 = i), 1 ≤ i ≤ N. π1i ≥ 0, ∀i, N X (4.6) π1i = 1. i=1 Dans la plupart des cas, nous initialisons π11 à 1 où les transitions entre les états du modèle commencent du premier état. Le vecteur de probabilités initiales π1 après apprentissage est illustrée par l’équation 4.7. 1 π1 = 0 0 (4.7) – Un ou plusieurs états finaux. Le MMC proposé comprend deux états finaux : événement important et événement non important. La phase d’apprentissage de λ1 donne les valeurs finales aux matrices a1, b1 et au vecteur π1 et elle est réalisée par l’algorithme d’estimation Baum-Welch. La phase de reconnaissance est la deuxième opération dans le processus de reconnaissance des événements importants dans la vidéo de football. Cette phase permet de calculer une valeur de probabilité pour une séquence vidéo O. Cette valeur classifie O en un événement important ou non important. Sachant un ensemble de MMCs d’événements importants et un vecteur quelconque O, la phase de reconnaissance permet de rechercher le modèle qui maximise la vraisemblance P (O/λ) par l’équation 4.8 : Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 50 λ = arg max P. (4.8) Ensuite, nous calculons la probabilité d’une séquence d’observation partielle à l’état i par l’équation 4.9 [64] : αt (i) = P (o1 , o2 ...ot , qt = i/λ). (4.9) Puis, nous calculons la probabilité d’occurrence par un calcul récursif de la probabilité Forward en utilisant l’équation 4.10 : P (O/λ) = N X αt (i). (4.10) i=1 Avec 1 ≤ i ≤ N , 1 ≤ t ≤ T N est le nombre d’états du modèle et T est la durée de la séquence O. Après, nous utilisons l’algorithme Viterbi [66, 68] pour estimer la séquence d’états optimale du MMC. Le traitement d’une séquence vidéo par le MMC des événements importants λ1 délivre une probabilité de vraisemblance. Et finalement, nous comparons cette probabilité avec un certain seuil pour classifier O en un événement important ou non important. 4.1.3 Résultats expérimentaux Nous utilisons, dans cette première approche, une base d’apprentissage de 70 segments vidéos d’événements importants et deux bases de test de 541 segments vidéos. Cette dernière base comprend 301 segments d’événements importants et 240 segments d’événements non importants. Le traitement d’une séquence vidéo O avec λ1 revient à calculer la probabilité pour que O soit un événement important. Ensuite, nous comparons cette dernière probabilité avec le seuil Θ=0.001. Si la probabilité est supérieure à Θ, alors la séquence O est un événement important, sinon elle correspond à un événement non important. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 51 Le tableau 4.1 montre les résultats de classification des séquences vidéos avec λ1 d’événements importants. Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=241 b=60 301 c=191 d=49 240 432 109 N=541 importants Evénements non importants Total Tab. 4.1: Résultats de classification des séquences vidéos avec λ1 d’événements importants. La précision, la spécificité et la sensibilité ou le rappel sont calculés par les équations (4.11), (4.12) et (4.13) suivantes : P recision = a/a + b = 0.800 (4.11) Specif icite = d/b + d = 0.449 (4.12) Sensibilite = Rappel = c/c + d = 0.795 (4.13) Le tableau 4.2 présente les résultats de classification des séquences vidéos de la base de test selon le type d’événement important : but, corner, faute directe, carton jaune/ rouge, penalty ou tentative pour marquer un but. Ce traitement utilise λ1 d’événements importants : Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 52 Séquences vidéos Détectées Correctes Fausses But 50 45(90%) 5(10%) Corner 12 10(83,33%) 2(16,66%) Faute directe 66 55(83,33%) 11(16,66%) Carton jaune 23 21(91,30%) 2(8,70%) Penalty 4 4(100%) 0(0%) Tentative pour marquer 146 106(72,6%) 40(27,39%) /rouge un but Tab. 4.2: Résultats de reconnaissance des événements importants avec λ1. Ils sont classés par type d’événement. Aussi, les résultats de classification des séquences vidéo de la base de test avec λ1 d’événements importants sont représentés par la courbe de ROC 4.4 suivante : True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 4.4: La courbe de ROC des résultats de classifcation des séquences vidéo avec λ1. 4.1.4 Conclusion Dans cette première section, nous avons présenté une approche de reconnaissance des événements importants dans la vidéo de football. Elle se base sur la modélisation temporelle des séquences vidéos importantes avec un MMC d’événements importants λ1. Ainsi, nous avons utilisé la couleur verte du terrain pour classifier les images clés des séquences vidéos en types de plans. Cette opération permet de formater les séquences vidéos en vecteurs de plans. Nous avons exposé aussi les résultats expérimentaux de cette approche. Dans la section suivante, nous allons présenter une approche de reconnaissance des événements importants en utilisant deux MMCs d’événements importants et d’événements non importants avec l’emploi du théorème de Bayes. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 53 4.2 Contribution 2 : Reconnaissance des événements importants avec deux MMCs et le théorème de Bayes Nous présentons dans cette deuxième section une autre approche d’apprentissage et de reconnaissance des événements importants dans la vidéo de matches de football. Cette approche combine les inférences du modèle bayesien et les probabilités des MMCs. Ainsi, nous construisons deux MMCs : un MMC d’événements importants λ1 et un autre MMC d’événements non importants λ2. Les deux MMCs permettent de calculer les probabilités d’appartenance, d’une séquence vidéo O, à chacune des deux classes d’événements. Par la suite, nous appliquons le modèle de Bayes pour estimer la probabilité d’appartenance de la séquence O à la classe des événements importants. Cette méthode donne des résultats avec une précision de 91.3%. 4.2.1 Modélisation des séquences vidéos avec deux MMCs A l’instar de l’approche 1, la reconnaissance des événements importants avec les MMCs est réalisée en deux étapes : l’apprentissage et la reconnaissance. Dans la phase d’apprentissage, nous découpons le flux numérique en segments. Par la suite, nous classifions les images clés de ces segments selon leurs types de plans : loin, médium ou proche. Ensuite, nous construisons deux MMCs en utilisant les algorithmes d’estimation ForwardBackward, Baum-Welch et Viterbi et deux bases d’apprentissage. Nous utilisons une base de séquences vidéos d’événements importants et une autre base de séquences vidéos d’événements non importants. L’apprentissage des séquences vidéos avec deux MMCs utilise un ensemble fini d’états d’entrée, un vecteur d’observations O, deux matrices de transitions a1 et a2, deux matrices d’observations b1 et b2 et deux vecteurs de probabilités initiales π1 et π2. Les deux MMCs ont trois états d’entrée chacun : loin (L), médium (M) et proche (P). a1, b1 et π1 sont les paramètres du MMC d’événements importants λ1 et a2, b2 et π2 sont les paramètres du MMC d’événements non importants λ2. Les valeurs initiales des matrices a1, a2, b1 et b2 et des vecteurs π1 et π2 sont prédites manuellement en utilisant les connaissances du domaine. Ensuite, les bases d’apprentissage et l’algorithme BaumWelch [66, 68] sont employés dans l’estimation des valeurs finales des paramètres de λ1 et λ2. Les états de sortie des MMCs sont au nombre de deux : événement important et événement non important. Les paramètres du λ1 sont déjà calculés dans l’approche 1. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 54 La matrice de transitions a2 de λ2 est définie par l’équation (4.14) : a2 = 0.9556 0.0444 0 0 1 0 0 0 0 (4.14) La figure 4.5 présente les états du MMC d’événements non importants λ2 et ses probabilités de transitions après apprentissage : 0.95 1 0.05 0 L 0 0 M 0 0 P 0 Fig. 4.5: Les états et les probabilités de transitions de λ2. La matrice de probabilités d’observations b2 et le vecteur de probabilités initiales π2 de λ2 sont définis par les équations (4.15) et (4.16) : 0.2663 0.7337 0 b2 = 0.5316 0.2231 0.2453 0 0 0 1 (4.15) π2 = 0 0 (4.16) Puis, nous passons à l’étape de reconnaissance. Nous calculons alors P (O/λ1 et P (O/λ2 les probabilités d’avoir un événement important et un événement non important respectivement. La reconnaissance de l’événement important se fait par les MMCs après apprentissage et les deux algorithmes Forward-Backward et Viterbi. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 55 La figure 4.6 illustre le processus de reconnaissance des événements importants avec les MMCs et le théorème de Bayes. O λ1 λ2 P 1(O/EImp ) P 1(O/¬EImp ) Théorème de Bayes P Fig. 4.6: Schéma pour reconnaître les événements importants avec les MMCs et le théorème de Bayes. avec : – O : séquence vidéo formatée en un vecteur de plans. – λ1 : le MMC d’événements importants. – P 1(O/EImp ) : probabilité conditionnelle de O sachant un événement important. Elle est calculée par le λ1. – λ2 : le MMC d’événements non importants. – P 1(O/¬EImp ) : probabilité conditionnelle de O sachant un événement non important. Elle est calculée par le λ2. – P : probabilité finale d’avoir un événement important. Elle est calculée par le théorème de Bayes. Ainsi, la phase de reconnaissance délivre deux probabilités de vraisemblance pour une séquence vidéo O. Les deux probabilités seront manipulées par la formule de Bayes pour calculer une seule probabilité, celle d’avoir un événement important. 4.2.2 Utilisation du théorème de Bayes dans la reconnaissance des événements importants L’inférence bayésienne calcule la distribution a posteriori sur une séquence vidéo en utilisant une distribution a priori (données des bases d’apprentissage) et une séquence vidéo en entrée. La distribution a posteriori combine l’information initiale avec l’information apportée par la séquence vidéo [69]. Distribution a priori + Séquence vidéo en entrée → Distribution a posteriori Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 56 L’utilisation du théorème de Bayes dans la reconnaissance des événements importants consiste à calculer un ensemble de probabilités. P 1(O/EImp ) est la probabilité pour qu’une séquence vidéo O soit un événement important et P 1(O/¬EImp ) est la probabilité pour que la même séquence soit un événement non important. Le calcul de ces deux probabilités utilise les paramètres des MMCs après apprentissage, les données des deux bases d’apprentissage et les algorithmes d’estimation précédents. De plus, nous calculons P (EImp ), la probabilité d’avoir un événement important et P (¬EImp ), la probabilité d’avoir un événement non important. Ces deux probabilités sont calculées par les équations (4.17), (4.18) et (4.19) : P (EImp ) = N EImp /(N EImp + N ¬EImp ) (4.17) P (¬EImp ) = N ¬EImp /(N EImp + N ¬EImp ) (4.18) P (¬EImp ) = 1 − P (EImp ) (4.19) Ou N EImp dénote le nombre d’événements importants et N ¬EImp est le nombre d’événements non importants dans les bases d’apprentissage. Ensuite, nous employons les probabilités précédentes pour calculer l’inférence bayésienne en utilisant l’équation (4.20). Cette inférence calcule la probabilité d’avoir un événement important sachant une séquence vidéo O donnée : P (EImp /O) = P 1(O/EImp ) ∗ P (EImp ) P 1(O/EImp ) ∗ P (EImp ) + P 1(O/¬EImp ) ∗ P (¬EImp ) (4.20) Enfin, la valeur de probabilité P (EImp /O) est comparée à un seuil particulier 0 < Θ < 1. La séquence O est un événement important si P > Θ et non important autrement. 4.2.3 Résultats expérimentaux Nous employons dans cette deuxième approche deux bases d’apprentissage et deux bases de test. Les bases d’apprentissage comprennent 150 segments vidéos avec 70 segments d’événements importants et 80 segments d’événements non importants. Et la base de test contient 541 segments vidéos avec 301 segments importants et 240 segments non importants. Nous employons deux MMCs et le théorème de Bayes pour reconnaitre les événements importants dans la vidéo de football. En fait, nous comparons l’inférence Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 57 bayesienne avec un seuil Θ égal à 0.9. La séquence de test est un événement important si l’inférence est supérieure à Θ et non important autrement. Le tableau 4.3 montre les résultats de classification des séquences vidéos avec deux MMCs et le théorème de Bayes. Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=275 b=26 301 c=190 d=50 240 465 76 N=541 importants Evénements non importants Total Tab. 4.3: Résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes. La précision, la spécificité et le rappel sont calculés par les équations (4.21), (4.22) et (4.23) suivantes : P recision = a/a + b = 0.913 (4.21) Specif icite = d/b + d = 0.657 (4.22) Sensibilite = Rappel = c/c + d = 0.791 (4.23) Le tableau 4.4 présente les résultats de classification de différents types d’événements importants : but, corner, faute directe, carton jaune/rouge, penalty et tentative pour marquer un but. Il présente aussi les pourcentages des séquences vidéos bien et mal classées. Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 58 Séquences vidéos Détectées Correctes Fausses But 50 47(94%) 3(6%) Corner 12 11(91,66%) 1(8,33%) Faute directe 66 58(87,87%) 8(12,12%) Carton jaune 23 22(95,65%) 1(4,34%) Penalty 4 4(100%) 0(0%) Tentative pour marquer 146 133(91,1%) 13(8,90%) /rouge un but Tab. 4.4: Résultats de classification des événements importants avec les MMCs et le théorème de Bayes, classés par type d’événement. Aussi, les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et le théorème de Bayes sont représentés par la courbe de ROC 4.7 suivante : True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 4.7: La courbe de ROC des résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes. 4.2.4 Conclusion Dans cette deuxième section, nous avons présenté une autre approche de reconnaissance des événements importants dans la vidéo des matches de football. Cette approche utilise les MMCs, une technique d’apprentissage supervisée et de reconnaissance robuste et efficace. Nous avons effectué aussi une classification des images clés des séquences vidéos en plans : loin, médium ou proche. De plus, nous avons employé le modèle probabiliste bayesien qui donne de bons résultats de classification. Le modèle bayesien permet de calculer les probabilités conditionnelles entre les événements importants ou non importants et les séquences vidéos. Ainsi, cette approche utilise la variabilité temporelle dans les scènes Chaptire 4. Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 59 vidéos et les inférences du modèle bayesien pour améliorer la précision de reconnaissance des événements importants dans la vidéo des matches de football. 4.3 Discussion Nous avons présenté dans ce chapitre deux approches de reconnaissance des événements importants dans la vidéo de football. D’abord, nous avons exposé l’approche de reconnaissance des événements importants en utilisant un MMC d’événements importants λ1. Le traitement des séquences vidéos avec les MMCs est réalisé en deux étapes : l’apprentissage des paramètres et la reconnaissance des événements importants. L’apprentissage des paramètres utilise des bases d’apprentissage d’événements importants et non importants et l’algorithme Baum-Welch. Ensuite, nous avons présenté la deuxième approche de reconnaissance des événements importants. Elle emploie deux MMCs et le théorème de Bayes. Nous avons utilisé dans cette deuxième approche deux MMCs : un MMC d’événements importants λ1 et un MMC d’événements non importants λ2. Ainsi, le traitement d’une séquence vidéo quelconque avec les deux MMCs donne deux probabilités qui seront utilisées par le théorème de Bayes. Chapitre 5 Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football Nous avons présenté dans le chapitre précédent deux approches de reconnaissance des événements importants dans la vidéo de football utilisant les MMCs et le théorème de bayes. Dans ce chapitre, nous allons exposer deux autres approches pour reconnaitre ces événements spéciaux. Ainsi, nous allons expliquer l’approche de reconnaissance des événements importants avec les MMCs et le théorème de Gauss. De plus, nous allons présenter l’approche de reconnaissance des événements importants avec les MMCs et les MMGs. En fait, nous allons utiliser des MMGs avec deux, six et dix gaussiennes. Nous allons effectuer aussi des comparaisons entre les résultats des trois types de mélanges. 5.1 Contribution 3 : Reconnaissance des événements importants avec les MMCs et le modèle gaussien Nous présentons dans cette section une troisième approche d’apprentissage et de reconnaissance des événements importants dans la vidéo de football. A l’instar des approches précédentes, nous utilisons une modélisation statistique basée sur les MMCs pour traiter les dépendances temporelles entre les données. De plus, nous utilisons un modèle gaussien qui est fréquemment utilisé dans la classification automatique des motifs. Avec cette approche, les résultats de classification des segments vidéos de football en événements importants ou non importants atteignent une précision de 87%. 60 Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 61 5.1.1 Modélisation des événements de football avec deux MMCs Dans cette approche, nous utilisons deux MMCs pour modéliser les événements importants et non importants dans la vidéo de football. La phase d’apprentissage des MMCs est réalisée de la même façon qu’à la sous section 4.2.1. Lors de la phase de reconnaissance, nous utilisons les deux MMCs des événements importants λ1 et non importants λ2 précédents et les algorithmes d’estimation des paramètres des MMCs pour calculer deux probabilités de vraisemblance. Ces probabilités seront utilisées par le modèle gaussien pour calculer la probabilité d’avoir un événement important. La figure 5.1 montre un schéma pour reconnaitre les événements importants dans la vidéo de football avec les MMCs et la loi de Gauss. O Loi de Gauss λ1 λ2 P 1(O/EImp ) P 1(O/¬EImp ) ΣImp , µImp ¬ΣImp , ¬µImp P 2(O/EImp ) / P 2(O/¬EImp ) P Fig. 5.1: Schéma de reconnaissance des événements importants avec les MMCs et la loi de Gauss. avec : – ΣImp : variance des événements importants. – µImp : moyenne des événements importants. – ¬ΣImp : variance des événements non importants. – ¬µImp : moyenne des événements non importants. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 62 – P 2(O/EImp ) : probabilité conditionnelle de O sachant un événement important. Elle est calculée par la formule de Gauss. – P 2(O/¬EImp ) : probabilité conditionnelle de O sachant un événement non important. Elle est calculée par la formule de Gauss. – P : probabilité finale d’avoir un événement important sachant O. 5.1.2 Utilisation du modèle gaussien pour la reconnaissance des événements importants dans la vidéo de football La reconnaissance des événements importants dans la vidéo de football avec les MMCs peut être réalisée en conjonction avec le modèle gaussien. La formule de Gauss effectue une synthèse entre l’hypothèse d’avoir un événement important ou non important et l’événement enregistré dans une séquence vidéo O quelconque. Le modèle gaussien calcule les paramètres suivants : 1) la moyenne de la densité de la classe d’événements importants µImp et d’événements non importants ¬µImp par les équations (5.1) et (5.2) et 2) la variance de la densité de la classe d’événements importants ΣImp et d’événements non importants ¬ΣImp par les équations (5.3) et (5.4). µImp = ¬µImp = P 1(O/EImp ) P 1(O/EImp ) + P 1(O/¬EImp ) (5.1) P 1(O/¬EImp ) P 1(O/EImp ) + P 1(O/¬EImp ) (5.2) A ∗ t (A) A ∗ t (A) + B ∗ t (B) (5.3) ΣImp = ¬ΣImp = B ∗ t (B) A ∗ t (A) + B ∗ t (B) (5.4) Avec A = P 1(O/EImp ) − µImp et B = P 1(O/¬EImp ) − ¬µImp P (EImp ) et P (¬EImp ) sont les probabilités d’un événement important et non important respectivement. Elles sont calculées à partir des bases d’apprentissage des événements importants et non importants respectivement. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 63 Ensuite, nous calculons, par les équations (5.5) et (5.6), les vraisemblances de O. Les vraisemblances sont des densités de O. Ainsi, nous calculons la densité de la séquence vidéo O sachant un événement important P 2(O/EImp ) et non important P 2(O/¬EImp ) : P 2(O/EImp ) = P 2(O/¬EImp ) = 1 1 t exp(− ∗ (A) ∗ Σ−1 Imp ∗ (A)) 1/2 2 2π ∗ |ΣImp | 1 1 t exp(− ∗ (B) ∗ ¬Σ−1 Imp ∗ (B)) 2 2π ∗ |¬ΣImp |1/2 (5.5) (5.6) Les probabilités P 1(O/EImp ) et P 1(O/¬EImp ) sont calculées par λ1 et λ2 respectivement. Par la suite, nous calculons la probabilité finale d’avoir un événement important en utilisant les probabilités P 2(O/EImp ), P 2(O/¬EImp ), P (EImp ) et P (¬EImp ). De là, la probabilité finale P d’un événement important sachant O est calculée par l’équation (5.7). P = P 2(O/EImp ) ∗ P (EImp ) P 2(O/¬EImp ) ∗ P (¬EImp ) (5.7) Finalement, nous comparons P avec un certain seuil 0 < Θ < 1. La séquence vidéo O est un événement important si P > Θ et un événement non important autrement. 5.1.3 Résultats expérimentaux A l’exemple de la deuxième contribution, nous employons deux bases d’apprentissage : une pour les événements importants (70 séquences) et une autre pour les événements non importants (80 séquences). Nous utilisons aussi deux bases de test : une première base d’événements importants (301 séquences) et une deuxième base d’événements non importants (240 séquences). Nous comparons la probabilité P , calculée par l’équation (5.7), avec le seuil Θ= 0.35. La séquence O est un événement important si P est supérieure à Θ et non important autrement. Le tableau 5.1 présente le nombre de séquences vidéos bien et mal classées en appliquant les MMCs et le théorème de Gauss. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 64 Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=262 b=39 301 c=184 d=56 240 446 95 N=541 importants Evénements non importants Total Tab. 5.1: Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss. La précision, la spécificité et le rappel sont calculés par les équations (5.8), (5.9) et (5.10) suivantes : P recision = a/a + b = 0.870 (5.8) Specif icite = d/b + d = 0.589 (5.9) Sensibilite = Rappel = c/c + d = 0.766 (5.10) Le tableau 5.2 présente les résultats de classification des différents types d’événements importants : but, corner, faute directe, carton jaune/rouge, penalty et tentative pour marquer un but. Il présente aussi le pourcentage des séquences bien et mal classées. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 65 Séquences vidéos Détectées Correctes Fausses But 50 49(98%) 1(2%) Corner 12 11(91,66%) 1(8,33%) Faute directe 66 62(93,93%) 4(6,06%) Carton jaune 23 22(95,65%) 1(4,34%) Penalty 4 4(100%) 0(0%) Tentative pour marquer 146 114(78,08%) 32(21,91%) /rouge un but Tab. 5.2: Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss classés par catégorie de l’événement important. En plus, les résultats de la classification des séquences vidéos avec deux MMCs et le théorème de Gauss sont représentés par la courbe de ROC 5.2 suivante : True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 5.2: La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et le théorème de Gauss. 5.1.4 Conclusion Nous avons présenté, dans cette section, une troisième approche de reconnaissance des événements importants dans la vidéo de football. Elle utilise les MMCs et le modèle gaussien. Nous avons réalisé un apprentissage des MMCs en utilisant des bases d’apprentissage d’événements importants et non importants et les algorithmes d’estimation des paramètres des MMCs. De plus, nous avons utilisé la classification des plans pour formater les séquences vidéos en vecteurs de plans. Aussi, nous avons employé le théorème de Gauss via le calcul de la variance et de la moyenne. Ces deux paramètres représentent les données des bases d’apprentissage. Dans la section suivante, nous allons avancer une Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 66 quatrième approche d’apprentissage et de reconnaissance des événements de football avec les MMCs et les Modèles de Mélanges de Gaussiennes. 5.2 Contribution 4 : Reconnaissance des événements importants avec les MMCs et les MMGs Dans cette section, nous présentons une quatrième approche d’apprentissage et de reconnaissance des événements importants dans la vidéo de matches de football. Cette approche utilise les MMCs et les Modèles de Mélanges de Gaussiennes. De plus, nous employons la classification de plans en loin, médium ou proche par le traitement de la couleur verte du terrain. Aussi, nous utilisons des MMGs avec des mélanges de deux, six et dix gaussiennes. Nous avons eu des résultats très satisfaisants en comparaison avec d’autres études dans le même sujet. 5.2.1 Schéma général de l’étude La reconnaissance des événements importants est réalisée via l’analyse de certaines caractéristiques des séquences vidéos de football. Nous pouvons distinguer trois types de caractéristiques classées par niveaux et illustrés sur la figure 5.3. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts, les penalties, les corners, les fautes, les cartons jaune/rouge et les tentatives pour marquer un but. L’analyse de ces événements importants nous a permis de définir les deux caractéristiques suivantes : la classification des plans et leur ordonnancement dans les séquences vidéos importantes. La classification des plans est réalisée par le traitement de la couleur dominante du terrain. Niveau 2 Evénements importants Niveau 1 Traitement intermédiaire Niveau 0 Descripteur de bas niveau Vidéo de football Fig. 5.3: Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football avec trois types de descripteurs. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 67 5.2.2 Analyse des propriétés de la vidéo de football La reconnaissance des événements importants dans la vidéo de football nécessite une analyse des éléments du schéma 5.3. Les éléments des niveaux 0 et 2 sont déjà étudiés dans les sous sections 2.2.2.1 et 2.2.4. Nous allons effectuer une classification de plans et nous allons traiter leur ordonnancement dans les séquences importantes. Classification des plans Nous avons employé la technique de classification de plans proposée par Y. Tabii et al. [62] et expliquée dans la sous section 4.1.1. Ordonnancement des plans dans les séquences vidéos importantes Le domaine de connaissance a montré que l’ordonnancement des plans dans les séquences importantes suit certaines règles. En effet, les événements importants commencent par l’apparition de plusieurs plans loins suivis par quelques plans médiums et à la fin, plusieurs plans proches sont diffusés. Cette succession de plans permet de reconnaître toutes sortes d’événements importants dans la vidéo de football. 5.2.3 Modélisation des événements de football avec les MMCs La quatrième approche de reconnaissance des événements importants dans la vidéo de football utilise les MMCs et les MMGs. La reconnaissance est précédée par une phase d’apprentissage des deux types de modèles. D’abord, nous construisons deux MMCs en utilisant l’algorithme Baum-Welch et deux bases d’apprentissage différentes. Nous utilisons une première base pour les séquences vidéos d’événements importants et une deuxième base pour les séquences vidéos d’événements non importants. Les segments vidéos des deux bases d’apprentissage sont rassemblées dans deux vecteurs après la classification de leurs images clés selon leurs types de plans. Nous utilisons aussi les deux bases d’apprentissage précédentes et l’algorithme EM pour effectuer l’apprentissage des deux MMGs : MMG1 d’événements importants et MMG2 d’événements non importants. La phase de reconnaissance des événements importants avec les MMCs est déjà expliquée dans la sous section 4.2.1. 5.2.4 Modélisation des événements de football avec les MMGs Les MMGs sont utilisés dans de nombreux domaines tels que le traitement d’images et de la parole. Les MMGs construisent des classifieurs en utilisant un apprentissage supervisé. Et ils permettent d’approximer toute densité de probabilité, pourvu qu’elle présente Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 68 certains caractères de régularité. De plus, les MMGs sont distingués par leur robustesse et leur facilité d’utilisation. Enfin, la loi gaussienne et les MMGs ont profité de la popularité des MMCs, auxquels ils sont traditionnellement attachés. En effet, les MMGs peuvent être vus comme un cas particulier des modèles à structure cachée comme les MMCs. Cependant, les variables des MMGs sont supposées indépendantes en comparaison avec les MMCs [70]. 5.2.4.1 Paramètres des MMGs Soit y = [y1 , ..., yN ], un vecteur de variables aléatoires à densité de dimension N . Les MMGs sont utilisés pour modéliser la densité de probabilité conditionnelle étant donné le paramètre θ qui représente une classe : p(y/θ). De là, un MMG correspond à une densité ou une fonction de vraisemblance présentée dans l’équation 5.11 [71] : p(y/θ) = K X prm p(y/θm ) (5.11) m=1 K est le nombre de mélanges. Avec ∀m, prm ≥ 0 et PK m=1 prm = 1. p(y/θm ) = p(y/µm , Σm ) (5.12) La probabilité p(y/µm , Σm ), dans l’équation 5.13 [70], représente la loi gaussienne de moyenne µm et de matrice de covariance Σm évaluée en y. prm est la probabilité a priori pour que y soit produite par la mieme composante du mélange. p(y/µm , Σm ) = 5.2.4.2 1 2π|Σm | 1 2 ∗ exp[ −1 t (y − µm )Σ−1 m (y − µm )] 2 (5.13) Apprentissage des paramètres du MMG avec l’algorithme EM L’apprentissage des paramètres des MMGs se fait à l’aide de l’algorithme EM qui calcule de manière itérative le maximum de vraisemblance. Chaque itération de l’algorithme consiste en une étape de calcul de l’espérance E suivie par une étape de la maximisation M, d’où son nom d’algorithme EM (Expectation-Maximization). Cet algorithme est remarquable pour sa simplicité. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 69 Depuis sa formalisation sous le nom d’algorithme EM par A. P. Dempster et al. [72], il est utilisé dans beaucoup de domaines de recherche : en signal [73, 74], en reconnaissance d’activités [75] et en reconnaissance de formes [76]. Le but de l’algorithme EM est de déterminer pour chaque point sa probabilité d’appartenance aux gaussiennes du modèle. Ensuite, il effectue une réestimation des paramètres du MMG. EM réalise ces deux opérations en maximisant la vraisemblance de manière itérative. L’algorithme EM peut être décrit en trois étapes : une initialisation, un calcul de probabilité et une mise à jour de l’estimation des paramètres de chaque gaussienne du MMG. Le dernier point que nous aborderons est le critère d’arrêt de cet algorithme [77]. Initialisation L’initialisation de l’algorithme EM permet de choisir des matrices de covariance Σ0m , m ∈ [1, K]. Cette étape est réalisée par l’algorithme k-moyennes. Ce dernier partitionne une collection d’objets en K classes, K étant un nombre fixé par l’utilisateur. Le déroulement de l’algorithme k-moyennes est expliqué par G. Cleuziou [78]. Soient yj (1 6 j 6 N ) les objets de la base d’apprentissage, alors le principe de kmoyennes est le suivant : – 1. Définition d’un nombre K de classes sur un ensemble d’objets. (R1 , ..., RK ) sont les représentants de K classes (C1 , ..., CK ) qui sont pour l’instant vides. – 2. Initialisation aléatoire des K centres de classes (centroïdes). – 3. Affectation de chaque échantillon au centre le plus proche suivant la métrique choisie. arg minm,16m6K d(yj , Rm ) où d est une distance ou une similarité entre les objets. – 4. Calculer de nouveaux représentants pour les classes. Ces nouveaux représentants corP respondent à la moyenne des objets de la classe : ∀m, 1 6 m 6 K, Rm = |C1m | j,yj ∈Cm yj – 5. Retourner en 3 tant que la différence ∆(R) entre les anciens et les nouveaux représentants est supérieure à un seuil fixé (et arbitrairement petit). La complexité de l’algorithme des k − moyennes est de l’ordre de O(KN Is), où K est le nombre de classes, N est le nombre d’objets à classer, I est le nombre d’itérations de l’algorithme et s la complexité du calcul de la distance/similarité. La cohésion des classes obtenues est mesurée par : D = PK m=1 P j,yj ∈Cm d(yj , Rm ) Calcul de probabilité Les données y = (y1 , ..., yN ) ont la fonction de densité (pdf) (5.14) suivante : Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 70 P (yi ; θ) = K X (5.14) prm ϕm (yi ; αm ) m=1 K : est le nombre de composants. ϕm : sont les densités de paramètre αm de chacun des composants. prm : les proportions du mélange. θ = (pr1 , ..., prK , α1 , ..., αK ) : le vecteur des paramètres du modèle de mélange. L’objectif de l’algorithme EM est donc la maximisation de la log-vraisemblance L(θ). Son principe, qui repose sur la notion de données complétées, est de maximiser de manière itérative l’espérance de la log-vraisemblance complétée conditionnellement au paramètre courant θ (c) et aux données observées y. Pour le modèle de mélange, les données complétées correspondent tout naturellement au vecteur (y, z) où z est le label de chacun des yi . z est un vecteur binaire. La log-vraisemblance des données complétées, aussi appelée log-vraisemblance classifiante, s’écrit alors : Lc (z, θ) = X (5.15) zim log prm ϕm (yi ; αm ) i,m L’algorithme EM est un algorithme itératif alternant une étape d’estimation E et une étape de maximisation M. Dans l’étape E, on calcule l’espérance conditionnelle de Lc (z; θ) notée Q(θ, θ (c) ) qui s’écrit : Q(θ, θ (c) ) = X (c) sim {log(prm ) + log ϕm (yi αm )} (5.16) i,m où (c) (c) prm ϕm (yi ; αm ) (c) sim = P (zim = 1/y, θ (c) ) = P (c) (c) K k 0 =1 prk 0 ϕk 0 (yi ; αk 0 ) (5.17) Sachant le théorème de Bayes : P (zim /y) = et P (y/zim )P (zim ) P (y) (5.18) Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 71 P (y) = K X prm ϕm (yi ; αm ) (5.19) m=1 (c) sim correspond à la probabilité que yi provienne du mieme composant connaissant les (c) données y et le paramètre θ (c) . Cette étape se réduit donc au calcul des probabilités sim . Mise à jour de l’estimation des paramètres La dernière étape de l’algorithme EM est la maximisation M de la vraisemblance. Cette étape calcule les valeurs finales des paramètres de chaque gaussienne du modèle. Ces nouveaux paramètres servent de valeurs initiales pour l’itération suivante de l’algorithme EM. De cette façon, les étapes de calcul de la probabilité et de la mise à jour des paramètres sont réitérées jusqu’à convergence de l’algorithme. On calcule θ (c+1) en maximisant en θ l’espérance conditionnelle Q(θ, θ (c)). – Optimisation de la moyenne : ∂Q(θ, θ c ) =0 ∂µm (5.20) ⇒ PK µm = Pi=1 K τ (zim )yi i=1 τ (zim ) (5.21) – Optimisation de la covariance : Σ m = PK 1 i=1 τ (zim ) K X τ (zim )(ym − µm ) t (ym − µm ) (5.22) i=1 – Optimisation du terme de mélange par un multiplicateur de Lagrange : prm = PK i=1 τ (zim ) K (5.23) Dans la pratique, des problèmes apparaissent souvent lors de l’apprentissage des modèles de mélanges, notamment pour des données de "grande" dimension. Les matrices de covariance obtenues ne sont pas toujours bien conditionnées et leur inversion pose problème. Une technique répandue consiste à régulariser les solutions. Dans notre implémentation, à chaque étape de l’algorithme EM et après l’étape de ré-estimation, nous régularisons les matrices de covariances en ajoutant à celles-ci une faible valeur sur la diagonale comme présenté dans l’équation (5.24) : Σyk = Σyk + ωId (5.24) Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 72 où ω est, en général, choisi en fonction des valeurs sur la diagonale Id de la matrice. Cette approche est appelée le Maximum de Vraisemblance régularisé. Critères d’arrêt Le critère le plus utilisé pour stopper l’algorithme est le calcul de la vraisemblance présentée dans l’équation 5.25 après chaque itération de EM [77]. ϑ= k n X Y ϑm i (5.25) i=1 m=1 Ainsi, si la différence entre le log-vraisemblance de deux itérations successives est inférieure à un donné, l’algorithme est arrêté. 5.2.5 La reconnaissance des événements importants dans la vidéo de football avec les MMCs et les MMGs La figure 5.4 montre le processus de reconnaissance des événements importants dans la vidéo de football en utilisant les MMCs et les MMGs. O λ1 MMG1 MMG2 Loi de Gauss P 1(O/EImp ) P 2(O/EImp ) / λ2 P 1(O/¬EImp ) P 2(O/¬EImp ) P Fig. 5.4: Schéma de reconnaissance des événements importants avec les MMCs et les MMGs. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 73 avec : – M M G1 : Modèle de Mélanges de Gaussiennes des événements importants. Il a les paramètres suivants : 1) la matrice de covariance du MMG1 : ΣM M GImp , 2) le vecteur de la moyenne du MMG1 : µM M GImp et 3) le vecteur des probabilités a priori des mélanges du MMG1 : prImp . – M M G2 : Modèle de Mélanges de Gaussiennes des événements non importants. Il a les paramètres suivants : 1) la matrice de covariance du MMG2 : ¬ΣM M GImp , 2) le vecteur de la moyenne du MMG2 : ¬µM M GImp et 3) le vecteur des probabilités a priori des mélanges du MMG2 : ¬prImp . Ainsi, la reconnaissance des événements importants dans la vidéo de football commence par l’utilisation des MMCs pour calculer P 1(O/EImp ), la probabilité conditionnelle de la séquence O sachant un événement important et P 1(O/¬EImp ), la probabilité conditionnelle de la même séquence O sachant un événement non important. P 1(O/EImp ) et P 1(O/¬EImp ) sont calculées à partir des paramètres des MMCs après apprentissage et des bases d’apprentissage d’événements importants et d’événements non importants. Ensuite, nous calculons les paramètres du MMG1 d’événements importants : prImp , µM M GImp et ΣM M GImp et les paramètres du MMG2 d’événements non importants : ¬prImp , ¬µM M GImp et ¬ΣM M GImp . Puis, nous calculons les probabilités d’avoir un événement important et d’avoir la séquence vidéo O sachant un événement non important : P 2(O/EImp ) et P 2(O/¬EImp ). Elles sont calculées par la fonction de vraisemblance : p(y/θ) = K X prm p(y/θm ) (5.26) m=1 Avec p(y/µm , Σm ) = 1 2π|Σm | 1 2 ∗ exp[ −1 t (y − µm )Σ−1 m (y − µm )] 2 (5.27) Ces deux probabilités utilisent le théorème de Gauss, les bases d’apprentissage et les paramètres des MMCs et des MMGs après apprentissage. Elles sont calculées par les équations 5.28 et 5.29. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 74 P 2(O/EImp ) = K X prImp (m) ∗ m=1 exp(− 12 ∗ C(m) ∗ ΣM M GImp (m)−1 ∗ t (C(m))) , 2π ∗ |ΣM M GImp (m)|1/2 (5.28) Avec K le nombre de gaussiennes utilisé. et C(m) = P 1(O/EImp ) − µM M GImp (m) P 2(O/¬EImp ) = K X ¬prImp (m) ∗ m=1 exp(− 21 ∗ D(m) ∗ ¬ΣM M GImp (m)−1 ∗ t (D(m))) , 2π ∗ |¬ΣM M GImp (m)|1/2 (5.29) avec D(m) = P 1(O/¬EImp ) − ¬µM M GImp (m) Par la suite, nous calculons P (EImp ) et P (¬EImp ), les probabilités d’avoir un événement important et un événement non important respectivement par les équations 5.30, 5.31 et 5.32. P (EImp ) = N EImp /(N EImp + N ¬EImp ). (5.30) P (¬EImp ) = N ¬EImp /(N EImp + N ¬EImp ). (5.31) P (¬EImp ) = 1 − P (EImp ). (5.32) et N EImp dénote le nombre d’événements importants et N ¬EImp , le nombre d’événements non importants dans les bases d’apprentissage. Finalement, nous calculons la probabilité finale d’un événement important par l’équation 5.33. Puis, nous comparons la valeur de probabilité P avec un certain seuil 0 < Θ < 1. La séquence vidéo O est un événement important si P > Θ et un événement non important autrement. P = 5.2.6 P 2(O/EImp ) ∗ P (EImp ) P 2(O/¬EImp ) ∗ P (¬EImp ) (5.33) Résultats expérimentaux Nous utilisons les mêmes bases d’apprentissage et de test de l’approche précédente. Nous utilisons deux MMCs et deux MMGs. Lors de la phase d’apprentissage des paramètres des Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 75 MMGs, nous utilisons l’algorithme EM pour mettre à jour les paramètres des mélanges des MMGs. De plus, nous employons un seuil égal à 1e−10 pour stopper les opérations E et M. Et nous régularisons les matrices de covariance, après chaque réestimation des paramètres des MMGs, en leur ajoutant la valeur ω = 1e−5 . Nous allons présenter les résultats expérimentaux de reconnaissance des événements importants avec des mélanges de deux, six et dix gaussiennes. Les résultats de classification montrent que plus le nombre de mélanges de gaussiennes augmente, plus la classification des séquences vidéos est bonne. 5.2.6.1 Résultats de reconnaissance des événements importants avec un mélange de deux gaussiennes Les figures 5.5 et 5.6 représentent les données des bases d’apprentissage d’événements importants et d’événements non importants respectivement avec une distribution de deux Probabilités calculées par le MMC des événements importants gaussiennes. 0.1 0.05 0 20 40 60 20 40 60 0.1 0.05 0 Données de la base d’apprentissage des événements importants Fig. 5.5: Représentation des données de la base d’apprentissage d’événements importants avec une distribution en deux gaussiennes. Probabilités calculées par le MMC des événements non importants Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 76 0.1 0.05 0 20 40 60 80 20 40 60 80 0.1 0.05 0 Données de la base d’apprentissage des événements non importants Fig. 5.6: Représentation des données de la base d’apprentissage d’événements non importants avec une distribution en deux gaussiennes. Le tableau 5.3 présente le nombre les séquences vidéos bien et mal classées en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=258 b=43 301 c=182 d=58 240 440 101 N=541 importants Evénements non importants Total Tab. 5.3: Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. La précision, la spécificité et le rappel sont calculés par les équations (5.34), (5.35) et (5.36) : P recision = a/a + b = 0.857 (5.34) Specif icite = d/b + d = 0.574 (5.35) Sensibilite = Rappel = c/c + d = 0.758 (5.36) Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 77 Le tableau 5.4 présente les résultats de classification de divers événements importants : but, corner, faute directe, carton jaune/rouge, penalty et tentative pour marquer un but. Il présente aussi les pourcentages des séquences d’événements importants bien et mal classées. Séquences vidéos Détectées Correctes Fausses But 50 48(96%) 2(4%) Corner 12 10(83%) 2(17%) Faute directe 66 61(92%) 5(8%) Carton jaune 23 23(100%) 0(0%) Penalty 4 4(100%) 0(0%) Tentative pour 146 112(77%) 34(23%) /rouge marquer un but Tab. 5.4: Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. Aussi, nous utilisons la courbe de ROC sur la figure 5.7 pour représenter les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec un mélange de deux gaussiennes True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 5.7: La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec deux gaussiennes. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 78 5.2.6.2 Résultats de reconnaissance des événements importants avec un mélange de six gaussiennes Les figures 5.8 et 5.9 représentent les données des bases d’apprentissage des événements importants et des événements non importants respectivement ainsi que leur distribution Probabilités calculées par le MMC des événements importants en six gaussiennes. 0.1 0.05 0 20 40 60 20 40 60 0.1 0.05 0 Données de la base d’apprentissage des événements importants Probabilités calculées par le MMC des événements non importants Fig. 5.8: Représentation des données de la base d’apprentissage des événements importants avec une distribution en six gaussiennes. 0.1 0.05 0 20 40 60 80 20 40 60 80 0.1 0.05 0 Données de la base d’apprentissage des événements non importants Fig. 5.9: Représentation des données de la base d’apprentissage des événements non importants avec une distribution en six gaussiennes. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 79 Le tableau 5.5 présente le nombre de séquences vidéos bien et mal classées en utilisant deux MMCs et deux MMGs avec six mélanges de gaussiennes. Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=252 b=49 301 c=194 d=46 240 446 95 N=541 importants Evénements non importants Total Tab. 5.5: Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. La précision, la spécificité et le rappel sont calculés par les équations (5.37), (5.38) et (5.39) : P recision = a/a + b = 0.837 (5.37) Specif icite = d/b + d = 0.484 (5.38) Sensibilite = Rappel = c/c + d = 0.808 (5.39) Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 80 Le tableau 5.6 présente les résultats de classification de divers événements importants. Il présente aussi les pourcentages des séquences importantes bien et mal classées. Séquences vidéos Détectées Correctes Fausses But 50 46(92%) 4(8%) Corner 12 10(83%) 2(17%) Faute directe 66 57(86%) 9(14%) Carton jaune 23 23(100%) 0(0%) Penalty 4 4(100%) 0(0%) Tentative pour 146 112(77%) 34(23%) /rouge marquer un but Tab. 5.6: Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. Les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec six gaussiennes sont représentés par la courbe de ROC sur la figure 5.10 suivante : True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 5.10: La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec six gaussiennes. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 81 5.2.6.3 Résultats de reconnaissance des événements importants avec un mélange de dix gaussiennes Les figures 5.11 et 5.12 représentent les données des bases d’apprentissage d’événements importants et d’événements non importants respectivement avec une distribution en dix Probabilités calculées par le MMC des événements importants gaussiennes. 0.1 0.05 0 20 40 60 20 40 60 0.1 0.05 0 Données de la base d’apprentissage des événements importants Probabilités calculées par le MMC des événements non importants Fig. 5.11: Représentation des données de la base d’apprentissage des événements importants avec une distribution en dix gaussiennes. 0.1 0.05 0 20 40 60 80 20 40 60 80 0.1 0.05 0 Données de la base d’apprentissage des événements non importants Fig. 5.12: Représentation des données de la base d’apprentissage des événements non importants avec une distribution en dix gaussiennes. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 82 Le tableau 5.7 présente le nombre de séquences vidéos bien et mal classées en utilisant deux MMCs et deux MMGs avec un mélange de dix gaussiennes. Séquences Bonne Mauvaise Total vidéos classification classification Evénements a=260 b=41 301 c=203 d=37 240 463 78 N=541 importants Evénements non importants Total Tab. 5.7: Résultats de classification des séquences vidéos en utilisant les MMCs et deux MMGs avec un mélange de dix gaussiennes. La précision, la spécificité et le rappel sont calculés par les équations (5.40), (5.41) et (5.42) : P recision = a/a + b = 0.863 (5.40) Specif icite = d/b + d = 0.474 (5.41) Sensibilite = Rappel = c/c + d = 0.845 (5.42) Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 83 Le tableau 5.8 présente les résultats de classification des événements importants et le pourcentage des séquences importantes bien et mal classées. Séquences vidéos Détectées Correctes Fausses But 50 49(98%) 1(2%) Corner 12 11(92%) 1(8%) Faute directe 66 62(94%) 4(6%) Carton jaune 23 22(96%) 1(4%) Penalty 4 4(100%) 0(0%) Tentative pour 146 112(77%) 34(23%) /rouge marquer un but Tab. 5.8: Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de dix gaussiennes. Les résultats de classification des séquences vidéos avec deux MMCs d’événements importants et d’événements non importants et deux MMGs avec un mélange de dix gaussiennes sont représentés par la courbe de ROC sur la figure 5.13 suivante : True positive rate (Sensibilité) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 5.13: La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec dix gaussiennes. 5.2.6.4 Comparaison des résultats de reconnaissance des événements importants avec différents mélanges de gaussiennes Le tableau 5.9 montre les résultats de classification des événements importants en utilisant les MMCs et des mélanges de deux, six et dix gaussiennes. Nous présentons sur le même tableau les valeurs de la précision, la spécificité et le rappel pour chaque méthode. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 84 MMCs et MMGs 2 MMCs et MMGs 6 MMCs et MMGs 10 Détectées Correctes Correctes Correctes But 50 48(96%) 46(92%) 49(98%) Corner 12 10(83%) 10(83%) 11(92%) Faute directe 66 61(92%) 57(86%) 62(94%) Carton jaune 23 23(100%) 23(100%) 22(96%) Penalty 4 4(100%) 4(100%) 4(100%) Tentative pour 146 112(77%) 112(77%) 112(77%) Précision X 0.857 0.837 0.863 Spécificité X 0.574 0.484 0.474 Rappel X 0.758 0.808 0.845 /rouge marquer un but Tab. 5.9: Résultats de classification de divers types d’événements importants en utilisant les MMCs et les MMGs. Nous allons tracer sur la figure 5.14 les courbes de ROC des trois mélanges de gaussiennes pour comparer les résultats de classification des séquences vidéos. Ainsi, la figure présente les résultats de classification des séquences vidéo avec deux MMCs et deux MMGs avec True positive rate (Sensibilité) un mélange de deux, six et dix gaussiennes : 1 0.8 0.6 0.4 0.2 0 0 MMC et MMG avec 2 gaussiennes MMC et MMG avec 6 gaussiennes MMC et MMG avec 10 gaussiennes 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 5.14: La courbe de ROC de classification des séquences vidéos avec l’utilisation de deux MMCs et deux MMGs avec deux, six et dix gaussiennes. L’analyse du tableau 5.9 et la figure 5.14 montre que plus le nombre de mélanges de gaussiennes utilisés augmente, plus la classification est bonne. Chaptire 5. Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 85 5.2.7 Conclusion Dans cette section, nous avons présenté une nouvelle technique d’apprentissage et de reconnaissance des événements importants dans la vidéo de football. Cette technique utilise les MMCs grâce à leur capacité à modéliser les événements spatiaux temporels, propriété de la vidéo de football. De plus, nous avons employé les MMGs qui : 1) approchent correctement les distributions alternatives, 2) sont simple à manipuler et 3) calculent certaines propriétés pour représenter les données observées telles que la moyenne et la variance. L’utilisation des MMCs en conjonction avec les MMGs donnent de bons résultats lors de la reconnaissance des événements importants dans la vidéo de football. Nous avons utilisé des mélanges de deux, six et dix gaussiennes lors de la phase d’apprentissage et de reconnaissance des événements importants. Encore, nous avons effectué des traitements sur les images clés des segments vidéos. Nous les avons classifiés en trois types : loin, médium et proche. En effet, l’ordonnancement des plans d’un segment vidéo joue un rôle important dans la reconnaissance des événements importants dans la vidéo de football. 5.3 Discussion Dans ce chapitre, nous avons exposé deux approches gaussiennes pour reconnaitre les événements importants dans la vidéo de football. La troisième approche de reconnaissance des événements importants utilise deux MMCs et le théorème de Gauss. En fait, les deux probabilités calculées par les MMCs sont traitées par le théorème de Gauss. Dans la quatrième approche, nous avons employé deux MMCs et deux MMGs pour reconnaitre les événements importants dans la vidéo de football. Nous avons utilisé un MMG1 d’événements importants et un MMG2 d’événements non importants. Le traitement des séquences vidéos avec les MMGs nécessite une opération d’apprentissage des paramètres de ces derniers. L’apprentissage est réalisé par les algorithmes K-moyennes et EM. Nous avons présenté aussi les résultats expérimentaux des deux approches gaussiennes. Et finalement, nous avons présenté des tableaux et des figures récapitulatifs des résultats de classification des événements de football. Les résultats montrent que la technique de reconnaissance des événements de football avec les MMCs et le théorème de Bayes donne une meilleure classification. Chapitre 6 Conclusions et perspéctives 6.1 Objectifs et domaines d’exploitation de la thèse L’objectif principal des recherches présentées dans cette thèse est la reconnaissance des événements importants dans la vidéo de football. Nous essayons via ces recherches de : 1) Faciliter la gestion de la vidéo de football par un filtrage de contenus non importants tels que les événements réguliers. De là, ce filtrage permet de fournir aux utilisateurs des contenus intéressants, 2) Créer des résumés vidéos qui constituent un bon moyen d’indexation des vidéos de match de football. Ainsi, les outils de reconnaissance des événements importants dans la vidéo de football peuvent être utilisés dans la création des résumés vidéos pour une courte diffusion du match de football lors des journaux télévisés ou émissions sportives. Aussi, ils peuvent être exploités par les opérateurs de télécommunication pour envoyer aux intéressés les séquences vidéos importantes par téléphone. Nous avons développé quatre différentes approches pour reconnaître les événements importants dans la vidéo de football dans le but d’améliorer la précision de bonne classification et pour réduire la complexité de calcul. 6.2 Contributions majeures Nous avons proposé dans cette thèse quatre approches de reconnaissance d’événements importants dans la vidéo de football. Elles utilisent toutes les MMCs pour modéliser les séquences vidéos. Les MMCs classifient les séquences vidéos avec un apprentissage supervisé. Les MMCs sont connus par leur capacité à modéliser les structures spatiotemporelles. En plus des MMCs, nous avons employé le théorème de Bayes, le théorème de 86 Chaptire 6. Conclusions et perspéctives 87 Gauss et les MMGs pour faire une meilleure approximation lors du calcul des probabilités associées à chaque séquence vidéo. Le traitement des séquences vidéos nécessite une analyse des images clés de ces séquences. Aussi, nous avons réalisé une opération de classification de ces images représentatives en plans : loin, médium et proche. La classification des plans se base sur la couleur verte du terrain. Nous avons utilisé l’espace de couleur HSV qui fait une discrimination entre les propriétés : luminance et chrominance. De plus, nous avons représenté les séquences vidéos par des vecteurs de plans pour faciliter leur manipulation. L’originalité de nos travaux réside dans l’exploitation conjointe des classes de plans et des MMCs dans la modélisation des séquences vidéos de football. La figure 6.1 illustre les approches de reconnaissance des événements importants avancées dans cette thèse ainsi que les outils employés pour cette fin. Fig. 6.1: Processus de classification d’une séquence vidéo O avec quatre techniques utilisant les MMCs. Chaptire 6. Conclusions et perspéctives 88 Le tableau 6.1 réalise une comparaison des résultats de classification des événements dans la vidéo de football avec les MMCs. La comparaison est réalisée via le calcul de la précision, la spécificité et le rappel pour déterminer les performances de classification. Critères Un seul MMCs et MMCs et MMCs et MMCs et MMCs et MMC Bayes Gauss MMGs 2 MMGs 6 MMGs 10 Précision 0.8 0.913 0.870 0.857 0.837 0.863 Spécificité 0.449 0.657 0.589 0.574 0.484 0.474 Rappel 0.795 0.791 0.766 0.758 0.808 0.845 Tab. 6.1: Comparaison des résultats de classification des événements de football avec les MMCs. La comparaison des résultats de classification des séquences vidéos avec les MMCs peut être effectuée avec la courbe de ROC sur la figure 6.2 suivante : 1 True positive rate (Sensibilité) 0.9 0.8 0.7 0.6 MMC + Mélange de 2 Gaussiennes MMC + Mélange de 6 Gaussiennes MMC + Mélange de 10 Gaussiennes MMC seul MMC + Bayes MMC + Gauss 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 False positive rate (1−Spécificité) 1 Fig. 6.2: La courbe de ROC des résultats de classification des séquences vidéos avec six techniques de reconnaissance des événements importants avec les MMCs. Le tableau 6.1 et la figure 6.2 montre que les MMCs réalisent une bonne modélisation des événements de football. De plus, le théorème de Bayes et les MMCs constituent la meilleure technique de classification des séquences vidéos. 6.3 Travaux en cours et perspectives Nous travaillons actuellement sur la reconnaissance des événements importants par l’analyse de l’audio. En effet, les événements importants sont accompagnés par l’excitation de la voix du présentateur et du public. Chaptire 6. Conclusions et perspéctives 89 Les perspectives de notre thèse se résument en quatre axes : – Essayer d’extraire le texte sur les légendes par des méthodes de reconnaissance de caractères optiques (OCR) pour reconnaître les événements but, carton jaune/rouge et changement de joueur. En effet, l’emploi des données textuelles, audio et visuelles pourrait améliorer la précision de détection d’événements importants en comparaison avec les techniques qui utilisent l’audio et les informations visuelles seulement. Ainsi, une technique qui fusionne les trois types de données donnera des résultats très satisfaisants. – La classification des plans joue un rôle très important dans toutes les approches présentées dans cette thèse. Ainsi, nous pouvons améliorer la méthode de classification de plans. – De plus, nous pouvons réaliser un framework qui traite en ligne la vidéo de football. Ce framework pourrait segmenter le flux vidéo. Ensuite, il va analyser les séquences vidéos pour reconnaître les événements importants en utilisant une des quatre approches proposées dans ce rapport. – La réduction du temps de traitement des séquences vidéos reste un défit dans tous les logiciels. Annexe A Publications Les travaux réalisés dans le cadre de cette thèse ont donné naissance aux publications suivantes : Journaux : [1] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage des événements importants dans les vidéos des matches de football en utilisant le modèle gaussien et les Modèles de Markov Cachés. Numéro Spécial du journal Marocain d’Automatique, d’Informatique et de Traitement du Signal (AMADEIA) (accepté). [2] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning in soccer video by using Hidden Markov Models and the bayesian theorem. International Journal of Computing and Information Technology (IJCIT), Vol. 2 N. 2. (Soumis). Conférences : [1] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage des événements importants dans les vidéos des matches de football en utilisant le modèle gaussien et les Modèles de Markov Cachés. 1ère édition Journées Doctorales en Technologies de l’Information et de la Communication (JDTIC’09), Maroc, Juillet 2009. [2] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning in soccer video by using Hidden Markov Models and the bayesian theorem. International Conference on Multimedia Computing and Systems (ICMCS’09). IEEE Digital Library, pages 304-308, Maroc, Avril 2009. [3] Rajae El Ouazzani et Rachid Oulad Haj Thami. Highlights’recognition and learning in soccer video by using the shots’classification and Hidden Markov Models. 9ème Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées (CARI’08), pages 169-176, Maroc, Octobre 2008. 90 Appendice. Publications 91 [4] Rajae El Ouazzani et Rachid Oulad Haj Thami. Reconnaissance et apprentissage des événements importants dans les vidéos des matches de football en utilisant le modèle bayesien et les Modèles de Markov Cachés. 2ème édition des Journées d’Informatique et Mathématiques Décisionnelles (JIMD), pages 33-34, Maroc, Juillet 2008 [5] Rajae El Ouazzani et Rachid Oulad Haj Thami. Détection des évènements importants dans les vidéos des matches de Football en utilisant la classification des plans et les Modèles de Markov Cachés. Cinquième Conférence sur les Systèmes Intelligents : Théories et Applications (SITA’08). pages 51-57, Maroc, Mai 2008 Bibliographie [1] Xiaofeng Tong, Qingshan Liu, and Hanqing Lu. Semantic units based events detection in soccer videos. In ICIP, pages 1621–1624, 2004. [2] Xiaofeng Tong, Hanqing Lu, and Qingshan Liu. A three-layer event detection framework and its application in soccer video. In ICME, pages 1551–1554, 2004. [3] Richard O. Duda, Peter E. Hart, and David G. Stork. Pattern Classification. WileyInterscience Publication, 2000. [4] Yi-Hua Zhou, Yuan-Da Cao, Long-Fei Zhang, and Hong-Xin Zhang. An svm-based soccer video shot classification. In Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, Guangzhou, pages 18–21, 2005. [5] Nan Nan, Guizhong Liu, Xueming Qian, and Chen Wang. An svm-based soccer video shot classification scheme using projection histograms. In PCM. [6] Ahmet Ekin and A. Murat Tekalp. A framework for tracking and analysis of soccer video. In VCIP, pages 763–774, 2002. [7] Ahmet Ekin and A. Murat Tekalp T. Automatic soccer video analysis and summarization. IEEE Trans. on Image Processing, 12 :796–807, 2003. [8] Ling-Yu Duan, Min Xu, Xiao-Dong Yu, and Qi Tian. A unified framework for semantic shot classification in sports videos. In MULTIMEDIA ’02 : Proceedings of the tenth ACM international conference on Multimedia, pages 419–420, 2002. ISBN 1-58113-620-X. [9] Dizan Alejandro Vasquez Govea. Incremental Learning for Motion Prediction of Pedestrians and Vehicles. PhD thesis, Institut National Polytechnique de Grenoble, Grenoble (Fr), February 2007. [10] Chung-Lin Huang, Huang-Chia Shih, and Chung-Yuan Chao. Semantic analysis of soccer video using dynamic bayesian network. IEEE Transactions on Multimedia, 8 (4) :749–760, 2006. 92 Bibliographie 93 [11] Dian Tjondronegoro, Yi-Ping Phoebe Chen, and Binh Pham. A statistical-driven approach for automatic classification of events in afl video highlights. [12] Jurgen Assfalg, Marco Bertini, Alberto Del Bimbo, Walter Nunziati, and Pietro Pala. Soccer highlights detection and recognition using hmms. In Proc. of IEEE International Conference on Multimedia & Expo (ICME), Lausanne, Switzerland, August 2002. IEEE Computer Society. [13] Jinjun Wang, Changsheng Xu, Chng Eng Siong, and Qi Tian. In Proceedings of the 2004 IEEE International Conference on Multimedia and Expo, ICME 2004, Teipei, Taiwan. [14] W. H. Adams, G. Iyengar, M. R. Naphade, C. Neti, H. J. Nock, and J. R. Smith. Semantic indexing of multimedia content using visual, audio and text cues. EURASIP Journal on Applied Signal Processing, 2 :170–185, 2003. [15] Peng Xu, Lexing Xie, and Shih fu Chang. Algorithms and system for segmentation and structure analysis in soccer video. In In Proc. IEEE International Conference on Multimedia and Expo (ICME, pages 928–931, 2001. [16] Ling-Yu Duan, Min Xu, Tat-Seng Chua, Qi Tian, and Changsheng Xu. A mid-level representation framework for semantic sports video analysis. In ACM Multimedia, pages 33–44, 2003. [17] Ling yu Duan, Min Xu, Tat seng Chua, Qi Tian, and Chang sheng Xu. A mid-level representation framework for semantic sports video analysis. pages 33–44. ACM Press, 2003. [18] Songyang Lao, Alan F. Smeaton, Gareth J. F. Jones, and Hyowon Lee. A query description model based on basic semantic unit composite petri-nets for soccer video analysis. In Multimedia Information Retrieval, pages 143–150, 2004. [19] Ilkoo Ahn, Youngwoo Kim, and Changick Kim. Customizing ground color to deliver better viewing experience of soccer video. ETRI Journal, 30(1) :101–112, February 2008. [20] Xiaofeng Tong, Qingshan Liu, and Hanqing Lu. Shot classification in broadcast soccer video. ELCVIA, 7(1), 2008. [21] Ying Yang, Shouxun Lin, Yongdong Zhang, and Sheng Tang. Statistical framework for shot segmentation and classification in sports video. In ACCV (2), pages 106– 115, 2007. Bibliographie 94 [22] Kongwah Wan and Changsheng Xu. Efficient multimodal features for automatic soccer highlight generation. In ICPR ’04 : Proceedings of the Pattern Recognition, 17th International Conference on (ICPR’04) Volume 3, pages 973–976, 2004. ISBN 0-7695-2128-2. [23] Kongwah Wan and Changsheng Xu. Robust soccer highlight generation with a novel dominant-speech feature extractor. In ICME, pages 591–594, 2004. [24] Ziyou Xiong, R. Radhakrishnan, A. Divakaran, and T. S. Huang. Comparing mfcc and mpeg-7 audio features for feature extraction, maximum likelihood hmm and entropic prior hmm for sports audio classification. In ICME ’03 : Proceedings of the 2003 International Conference on Multimedia and Expo - Volume 3 (ICME ’03), pages 397–400, Washington, DC, USA, 2003. IEEE Computer Society. ISBN 07803-7965-9. [25] Molau Sirko, Michael Pitz, Schlüter Ralf, and Ney Hermann. Computing melfrequency cepstral coefficients on the power spectrum. In IEEE International Conference on Acoustics, Speech, and Signal Processing, pages 73–76, Salt Lake City, Utah, May 2001. [26] Perfecto Herrera, Xavier Serra, and Geoffroy Peeters. Audio descriptors and descriptor schemes in the context of mpeg-7. In Proceedings of the 1999 ICMC, 1999. [27] D. Zhang and D. Ellis. Detecting sound events in basketball video archive. 2001. [28] Min Xu, Numunu C. Mudduge, Changsheng Xu, Mohan Kunkunhulli, and Qi Tian. Creating audio keywords for event detection in soccer video. In ICME ’03 : Proceedings of the 2003 International Conference on Multimedia and Expo, pages 281–284, Washington, DC, USA, 2003. IEEE Computer Society. ISBN 0-7803-7965-9. [29] V. Mihajlovic and M. Petrovic. Automatic annotation of formula 1 races for contentbased video retrieval. In In : Tech. report, TR-CTIT-01-41, 2001. [30] Datong Chen, Kim Shearer, and Hervé Bourlard. Video ocr for sport video annotation and retrieval, 2001. [31] Huang-Chia Shih and Chung-Lin Huang. A robust superimposed caption box content understanding for sports videos. In ISM ’06 : Proceedings of the Eighth IEEE International Symposium on Multimedia, pages 867–872, Washington, DC, USA, 2006. IEEE Computer Society. [32] Hakan Güray Senel. Topological gradient operators for edge detection. In ICIP (3), pages 61–64. IEEE, 2007. Bibliographie 95 [33] Mohamed Roushdy. Comparative study of edge detection algorithms applying on the grayscale noisy image using morphological filter. ICGST International Journal on Graphics, Vision and Image Processing, 06 :17–23, 2007. [34] John Canny. A computational approach to edge detection. IEEE Trans. on Pattern Analysis and Machine Intelligence, 8(6) :679–698, 1986. [35] Jean-Christophe Terrillon, Hideo Fukamachi, Shigeru Akamatsu, and Mahdad N. Shirazi. Comparative performance of different skin chrominance models and chrominance spaces for the automatic detection of human faces in color images. In FG ’00 : Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition 2000, page 54, Washington, DC, USA, 2000. IEEE Computer Society. ISBN 0-7695-0580-5. [36] Christian Wolf, Jean michel Jolion, and Françoise Chassaing. Text localization, enhancement and binarization in multimedia documents. In Proceedings of the International Conference on Pattern Recognition (ICPR) 2002, pages 1037–1040, 2002. [37] Dennis Yow, Boon lock Yeo, Minerva Yeung, and Bede Liu. Analysis and presentation of soccer highlights from digital video. In Proc. of 2nd Asian Conf. on Computer Vision (ACCV’95), pages 499–503, 1995. [38] Nitin Aggarwal and William Clement Karl. Line detection in images through regularized hough transform. 15(3) :582–591, March 2006. [39] K. Wan, X. Yan, and C. Xu. Automatic mobile sports highlights. In Multimedia and Expo, 2005. ICME 2005. IEEE International Conference, pages 638–641, 2005. [40] Lexing Xie, Shih-Fu Chang, Ajay Divakaran, and Huifang Sun. Structure analysis of soccer video with hidden markov models. In IEEE Interational Conference on Acoustic, Speech and Signal Processing (ICASSP-2002), volume 4, pages 4096–4099, May 2002. [41] Lei Wang, Michael Lew, and Guangyou Xu. Offense based temporal segmentation for event detection in soccer video. In Multimedia Information Retrieval, pages 259–266, 2004. [42] Yu-Lin Kang, Joo-Hwee Lim, Qi Tian, Mohan S. Kankanhalli, and Chang-Sheng Xu. Visual keywords labeling in soccer video. International Conference on Pattern Recognition (ICPR’04), 3 :850–853, 2004. [43] Wang Jinjun. Content-Based Sports Video Analysis and Composition. PhD thesis, 2006. Bibliographie 96 [44] Y. Ma and H. Zhang. Motion pattern based video classification using support vector machines. In Proc. of IEEE International Symposium on Circuits and Systems, Theme :Circuits and Systems for Ubiquitous Computing (ISCAS’02), 2002. [45] Min Xu, Numunu C. Mudduge, Changsheng Xu, Mohan Kunkunhulli, and Qi Tian. Creating audio keywords for event detection in soccer video. In Proc. of IEEE ICME, pages 281–284, 2003. [46] Y. LeCun. Une procédure d’apprentissage pour réseau a seuil asymmetrique (a learning scheme for asymmetric threshold networks). In Proceedings of Cognitiva 85, pages 599–604, Paris, France, 1985. [47] Vikrant Kobla, Daniel Dementhon, and David Doermann. Identifying sports videos using replay, text and camera motion features. In Proc. of SPIE Conf. on Storage and Retrieval for Media Databases, volume 3972, pages 332–343, 2000. [48] Riccardo Leonardi, Pierangelo Migliorati, and Maria Prandini. Semantic indexing of soccer audio-visual sequences : a multimodal approach based on controlled markov chains. IEEE Trans. Circuits Syst. Video Techn., 14(5) :634–643, 2004. [49] Mei Han, Wei Hua, Wei Xu, and Yihong Gong. An integrated baseball digest system using maximum entropy method. In Proc. of ACM MultiMedia’02, pages 347–350, 2002. [50] Jurgen Assfalg, Marco Bertini, Carlo Colombo, Alberto Del Bimbo, and Walter Nunziati. Automatic extraction and annotation of soccer video highlights, September 2003. [51] Huang-Chia Shih and Chung-Lin Huang. A semantic network modeling for understanding baseball video. In Proc. of IEEE ICASSP’03, 2003. [52] René Boite, Hervé Bourlard, Thierry Dutoit, Joêl Hancq, and Henri leich. traitement de la parole. [53] M. Abed Chaib. Etude et mise en oeuvre des modèles de markov cachés en vue de la reconnaissance de trajet, Décembre 2004. [54] Cheng Lu, Mark S. Drew, and James Au. International journal of smart engineering system design, 2002 an automatic video classification system based on a combination of hmm and video summarization. [55] Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A maximization technique occurring in the statistical analysis of probabilistic functions of markov chains. The Annals of Mathematical Statistics, 41(1) :164–171, 1970. Bibliographie 97 [56] Henri Binsztok. Apprentissage de Modèles Markoviens pour l’Analyse de Séquences. PhD thesis, 2007. [57] Jeff Bilmes. A gentle tutorial on the em algorithm and its application to parameter estimation for gaussian mixture and hidden markov models. Technical Report ICSITR-97-021, University of California at Berkeley, 1997. [58] Shu ching Chen, Mei ling Shyu, Chengcui Zhang, Lin Luo, and Min Chen. Detection of soccer goal shots using joint multimedia features and classification rules. In Reules, Proceedings of the Fourth International Workshop on Multimedia Data Mining (MDM/KDD2003), pages 36–44, 2003. [59] Ming Luo, Yu-Fei Ma, and Hong-Jiang Zhang. Pyramidwise structuring for soccer highlight extraction. Fourth IEEE Pacific-Rim Conference On Multimedia, pages 945 – 949, December 2003. [60] Yu lin Kang, Joo hwee Lim, Qi Tian, and Mohan S. Kankanhalli. Soccer video event detection with visual keywords. In in Proceedings of IEEE Pacific-Rim Conference on Multimedia, pages 1796–1800, 2003. [61] Jianguo Li, Tao Wang, Wei Hu, Mingliang Sun, and Yimin Zhang. Soccer highlight detection using two-dependence bayesian network. IEEE International Conference on Multimedia and Expo. [62] Youness Tabii, Mohamed Ould Djibril, Youssef Hadi, and Rachid Oulad Haj Thami. A new method for video soccer shot classification. In VISAPP (1), pages 221–224, 2007. [63] Ahmet Ekin, A. Murat Tekalp, and Rajiv Mehrotra. Automatic soccer video analysis and summarization. IEEE Transactions on Image Processing, 12(7) :796–807, 2003. [64] Quynh T. Le Ba Tarik Al-Ani and Eric Monacelli. On-line automatic detection of human activity in home using wavelet and hidden markov models scilab toolkits. 16th IEEE International Conference on Control Applications Part of IEEE Multiconference on Systems and Control Singapore, pages 485–490, 2007. [65] Rajae El Ouazzani and Rachid Oulad Haj Thami. Highlights’ recognition and learning in soccer video by using the shots’ classification and hidden markov models. 9e Colloque Africain sur la Recherche en Informatique et en Mathematiques Appliquees (CARI’08), Morocco, pages 169–176, 2008. [66] Rakesh Dugad and U. B. Desai. A tutorial on hidden markov models. In Proc. IEEE, 77(2) :267–296, 1989. Bibliographie 98 [67] Cheng Lu, Mark S. Drew, and James Au. An automatic video classification system based on a combination of hmm and video summarization. International Journal of Smart Engineering System Design, 5(1) :33–45(13), January-March 2003. [68] Monika ten Bruggencate and Suresh Chalasani. Parallel implementations of the power system transient stability problem on clusters of workstations. booktitle : Supercomputing ’95 : Proceedings of the 1995 ACM/IEEE conference on Supercomputing (CDROM), New York, USA, 1995. [69] Bruno Lecoutre. Et si vous étiez un bayésien qui s’ignore ? Number 32, pages 92– 105, ERIS, Laboratoire de Mathématiques Raphael Salem UMR 6085 C.N.R.S. et Université de Rouen Mathématiques Site Colbert, 76821 Mont-Saint-Aignan Cedex, 2005. Revue MODULAD. [70] C. Bérard, M-L Martin-Magniette, A. To, F. Roudier, V. Colot, and S. Robin. Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée. La revue MODULAD, (40) :53–68, 2009. [71] T. M. T. Do and T Artières. Apprentissage de mélanges de gaussiens par maximisation de la marge avec smo. In Conférence Francophone d’Apprentissage (CAP), 2007. [72] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. JOURNAL OF THE ROYAL STATISTICAL SOCIETY, SERIES B, 39(1) :1–38, 1977. [73] T.K. Moon. The expectation maximization algorithm. In IEEE Signal Processing Magazine, volume 13, pages 47–60, 1996. [74] C. Hory. Mélanges de distributions du x2 pour l’interprétation d’une représentation temps-fréquence. PhD thesis, Institut National Polytechnique de Grenoble, 2002. [75] Nebojsa Jojic, Barry Brumitt, Brian Meyers, Steve Harris, and Thomas Huang. Detecting and estimating of pointing gestures in dense disparity maps. In IEEE International Conference on Face and Gesture Recognition CFGR’00, pages 28–30, 2000. [76] B. Cooper. Automated identification of southern right whales. PhD thesis, University of Western Australia, 1995. [77] M. Pingault. Estimations fréquentielle et temporelle du mouvement en transparence additive dans les séquences d’images. PhD thesis, Université Joseph Fourier de Grenoble, Octobre 2003. Bibliographie 99 [78] Guillaume Cleuziou. Okm : une extension des k-moyennes pour la recherche de classes recouvrantes. In EGC, pages 691–702, 2007.