Résumé final public

Transcription

Résumé final public
 Compte-rendu de
fin de projet
Projet ANR-09-BLAN-0170
PERSEE
Programme blanc 2009
A IDENTIFICATION ............................................................... 2 B RESUME CONSOLIDE PUBLIC ................................................. 2 B.1 Résumé consolidé public en français ......................................... 2 B.2 Résumé consolidé public en anglais .......................................... 4 C MEMOIRE SCIENTIFIQUE ...................................................... 6 C.1 Résumé du mémoire .............................................................. 6 C.2 Enjeux et problématique, état de l’art ....................................... 6 Approche scientifique et technique................................................... 6 C.3 Résultats obtenus .................................................................. 9 C.4 Exploitation des résultats ........................................................ 9 C.5 Discussion .......................................................................... 10 C.6 Conclusions ......................................................................... 10 C.7 Références .......................................................................... 10 D LISTE DES LIVRABLES ........................................................ 10 E IMPACT DU PROJET ........................................................... 12 E.1 Indicateurs d’impact ............................................................. 12 E.2 Liste des publications et communications. ............................... 14 E.3 Liste des éléments de valorisation .......................................... 21 E.4 Bilan et suivi des personnels recrutés en CDD (hors stagiaires) .. 23 Référence du formulaire : ANR-FORM-090601-01-01
A IDENTIFICATION
Acronyme du projet
Titre du projet
Coordinateur du projet
(société/organisme)
Date de début du projet
Date de fin du projet
Site web du projet, le cas échéant
PERSEE
PERceptual Scheme for 2D&3D vidE(E)o coding
Vincent Ricordel
Laboratoire IRCCyN (UMR 6597)
01/10/2009
30/09/2013
persee.irccyn.ec-nantes.fr
Rédacteur de ce rapport
Civilité, prénom, nom
Téléphone
Adresse électronique
Date de rédaction
M. Vincent Ricordel
02 40 68 30 41
[email protected]
Octobre 2013
Liste des partenaires présents à la
fin du projet (société/organisme et
responsable scientifique)
IRCCyN - Nantes
INRIA - Rennes
IETR - Rennes
LTCI - TelecomParisTech
B RESUME CONSOLIDE PUBLIC
B.1 RESUME CONSOLIDE PUBLIC EN FRANÇAIS
PERSEE : Schémas perceptuels & codage vidéo 2D et 3D Objectif général et problématique : une représentation perceptuelle adaptée au 2D et à la 3D, et son exploitation pour piloter le codage vidéo. Notre ère numérique a vu le déploiement à grande échelle des normes de codage vidéo, ainsi que l'ʹémergence des nouveaux formats haute définition permettant l'ʹimmersion du spectateur, avec des affichages panoramiques (HDTV), interactifs ou la 3DTV (vidéo omnidirectionnelle, celle stéréoscopique ou la multi-­‐‑vue). Cependant nous remarquions en 2009 que la norme H.264/AVC pour le codage vidéo suivait un schéma classique et n’avait pas été conçu pour ces nouveaux formats et services. Un bond en avant pour une meilleure qualité subjective était alors nécessaire, afin que ces formats offrent une vraie expérience immersive pour le spectateur. Dans ce contexte le projet visait, à faire avancer les connaissances en modélisation de la perception, pour le traitement et le codage de la vidéo, et pour la vision par ordinateur. Le projet avait aussi pour but de mettre au point une représentation de l'ʹinformation-­‐‑vidéo qui soit basée sur le contenu perçu, et qui puisse donc servir de paradigme pour un codage basé qualité perceptuelle des contenus 2D et 3D. Méthodes utilisées Référence du formulaire : ANR-FORM-090601-01-01
2/24
Pour aller vers ce codage de nouvelle génération, nous avons travaillé pour déterminer une représentation basée contenu perceptuel améliorant le codage. Une combinaison riche de modèles perceptuels, d'ʹanalyse/synthèse de textures, de représentations de contenus, et d'ʹoptimisation débit/qualité-­‐‑perceptuelle, a été mise en œuvre. Un des objectifs scientifiques du projet a donc été de définir une représentation des contenus visuels 2D et 3D, dans le but de mieux prendre en compte les modèles perceptuels et la qualité visuelle, plutôt que d'ʹutiliser l'ʹomniprésente erreur quadratique moyenne pour mesurer la distorsion. Le cadre obtenu a servi de base pour un système de codage perceptuel des contenus visuels 2D et 3D (multi-­‐‑vues plus profondeur). Le projet organisé en 6 tâches, a impliqué 4 partenaires académiques complémentaires ayant chacun une expertise reconnue dans le domaine : l'ʹIRCCyN-­‐‑Nantes, équipe IVC (modélisation perceptuelle) ; l'ʹINRIA-­‐‑Rennes, équipe TEMICS (analyse des textures spatio-­‐‑
temporelles) ; l'ʹIETR-­‐‑Rennes, équipe IMAGE (représentation et compression des contenus 3D) ; et le LTCI-­‐‑TelecomParisTech, groupe Multimédia (représentation et compression des contenus 2D). Résultats majeurs Le projet a permis la définition de méthodes et d’outils algorithmiques efficaces pour la compression de vidéos 2D et 3D (multi-­‐‑vues et multi-­‐‑vues plus profondeur). A titre d’exemple, nous pouvons citer la définition de nouveaux modèles d’attention visuelle 2D et 3D, l’amélioration de la qualité visuelle de vues synthétisées en vidéo 3D, la mise au point de techniques de codage efficace de la vidéo 2D. Certains de ces outils ont été intégrés dans une architecture logicielle de codage vidéo complet afin d’être valorisés en normalisation (contexte : HEVC conçu d’abord pour le codage de la vidéo 2D, puis étendu pour inclure la vidéo 3D). Deux contributions à la normalisation et issues de travaux menés dans le cadre du projet ont été adoptées en normalisation pour la spécification du standard 3DV-­‐‑HEVC. Production scientifique Ces travaux scientifiques ont conduit à la soutenance de 4 thèses, à la publication de 10 articles dans des revues internationales, et à plus d’une trentaine de communications lors de conférences internationales. Certains des outils développés ont été valorisés en normalisation (dont 2 propositions acceptées pour le standard HEVC et son extension pour la 3D). Les collaborations entre équipes ont été renforcées, et des collaborations internationales ont été nouées (Japon, USA, Italie, Suisse, Espagne). Illustration Référence du formulaire : ANR-FORM-090601-01-01
3/24
Informations factuelles Le projet PERSEE est un projet de recherche fondamentale coordonné par l’IRCCyN-­‐‑ Nantes. Il associe aussi les laboratoires INRIA-­‐‑Rennes, IETR-­‐‑Rennes et LTCI-­‐‑TelecomParisTech. Le projet a commencé en octobre 2009 et a duré 48 mois. Il a bénéficié d’une aide ANR de 724 k€ pour un coût global de l’ordre de 2 431 k€. B.2 RESUME CONSOLIDE PUBLIC EN ANGLAIS
PERSEE : PERceptual Scheme for 2D&3D vidE(E)o Coding General purpose and problem: a perceptual representation adapted to 2D and 3D, and its exploitation to control the video coding. Our digital age has seen a large deployment of video coding standards. A new impulse to research has been brought by the emergence of new formats beyond HDTV towards formats for immersive displays allowing panoramic viewing, interactive and 3DTV (omni-­‐‑directional video, free viewpoint video and stereoscopic or multi-­‐‑view video). We also noticed that the standard H.264/AVC followed a classical coding model and that it wasn’t designed for these new video formats and services. A quantum leap in subjective quality was required in other that these formats could enable a truly immersive experience for the viewer. In this competitive context, the project aimed first at advancing the knowledge in perceptual modeling, in video processing and coding, and in computer vision, and second, at developing a content-­‐‑based and perceptually driven representation and coding paradigm for 2D and 3D visual content. Used methods To achieve the required next generation coding performance, we proposed to work in the direction of a content-­‐‑based and perceptually driven representation and coding paradigm using a clever combination of perceptual models, texture analysis/synthesis, content representation, and rate-­‐‑visual quality optimization framework. A scientific objective of the project was thus to define a representation of 2D and 3D visual content with the goal of best taking into account perceptual models and quality rather than the ubiquitous mean square Référence du formulaire : ANR-FORM-090601-01-01
4/24
error distortion measure. The obtained framework has set the foundations for a perceptual coding scheme for 2D and 3D (multi-­‐‑view plus depth) visual content. The project was organized in 6 work packages and 4 complementary academic partners were involved, each having a recognized expertise in the field: IRCCyN-­‐‑Nantes, IVC team (perceptual modeling); INRIA-­‐‑Rennes, TEMICS team (analysis of spatio-­‐‑temporal textures); IETR Rennes, IMAGE team (3D content representation and compression); and LTCI-­‐‑
TelecomParisTech, Multimedia group (2D content representation and compression). Main results The result of the project is the definition of methods and algorithmic tools for efficient compression of 2D and 3D video (multi-­‐‑view and multi-­‐‑view plus depth). For example, we can give the definition of new 2D and 3D visual attention models, the improved visual quality of synthesized views (3D video), the development of efficient 2D coding methods. Some of these tools have been integrated into a complete software architecture of video coding, and have been proposed for the standardization (context : HEVC designed first for the 2D video coding, and then expanded to include the 3D video coding). Two contributions have been adopted by the standard 3DV-­‐‑HEVC. Scientific production These research works led to the defense of 4 PhD thesis, the publication of 10 articles in international journals and more than 35 communications at international conferences. Some of the developed tools were proposed to the HEVC standard and its 3D extension (2 applications have been already accepted). The collaborations between teams have been strengthened, and some international collaborations have been established (Japan, USA, Italy, Swiss, Spain). Illustration Factual information The PERSEE project is a fundamental research project coordinated by IRCCyN-­‐‑Nantes. It associates 3 other laboratories : INRIA-­‐‑Rennes, IETR-­‐‑Rennes and LTCI-­‐‑TelecomParisTech. The project began in October 2009 for a duration of 48 months. It was financed by ANR by an amount of 724 k€ for a total cost of around 2 431 k€. Référence du formulaire : ANR-FORM-090601-01-01
5/24
C MEMOIRE SCIENTIFIQUE
Mémoire scientifique confidentiel : non C.1 RESUME DU MEMOIRE
Notre ère numérique a vu le déploiement des normes de codage vidéo, ainsi que l'ʹémergence des nouveaux formats HD permettant l'ʹimmersion du spectateur, avec des affichages panoramique, interactifs ou la 3DTV. Cependant en 2009 la norme H.264/AVC pour le codage vidéo suivait un schéma classique et n’avait pas été conçu pour ces nouveaux formats et services, un bond en avant pour une meilleure qualité subjective était nécessaire. Dans ce contexte, PERSEE a visé alors à mettre au point une représentation de l'ʹinformation-­‐‑vidéo basée sur le contenu perçu qui puisse servir de paradigme pour un codage basé qualité perceptuelle des contenus 2D et 3D. Pour aller vers ce codage de nouvelle génération, nous avons travaillé pour déterminer une représentation basée contenu perceptuel déterminant et améliorant le codage. Une combinaison riche de modèles perceptuels, d'ʹanalyse/synthèse de textures, de représentations de contenus, et d'ʹoptimisation débit/qualité-­‐‑perceptuelle, a été mise en œuvre. Ce cadre a servi de base pour un système de codage perceptuel des contenus visuels 2D et 3D (multivues plus profondeur). Le projet a impliqué 4 laboratoires : l'ʹIRCCyN-­‐‑
Nantes, l'ʹINRIA-­‐‑Rennes, l'ʹIETR-­‐‑Rennes, et le LTCI-­‐‑TelecomParisTech. C.2 ENJEUX ET PROBLEMATIQUE, ETAT DE L’ART
L'ʹémergence de nouveaux formats vidéo haute définition s'ʹest accompagnée de nouveaux services immersifs (affichage panoramiques HDTV, et interactif avec la vidéo omnidirectionnelle) ou 3DTV (avec la vidéo stéréo et celle multivue). En 2009, les efforts de recherche en codage vidéo visaient à améliorer la compression de séquences multivues, et une activité de standardisation 3DVC « 3D Video Coding » [2] était organisée depuis 2007 par MPEG. Le standard initial MVC « MultiView Coding » [3] (2008) basé sur H.264/AVC [4] de l’ISO/MPEG avait des gains de codage insuffisants et souffrait de limitations fonctionnelles lorsque qu'ʹil s'ʹagissait de rendre avec qualité (coté récepteur) des points de vue virtuels, remarquons ici que le rendu de la qualité visuelle est un problème plus crucial en vidéo 3D qu'ʹen vidéo classique 2D. Enfin en 2009, la nouvelle norme de codage vidéo H.265/HEVC [5] n’était qu’en gestation. PERSEE faisait donc le constat qu’il fallait mettre en avant et améliorer la qualité visuelle des vidéos décodées 2D (contenus classiques) et 3D (synthèse coté récepteur de points de vue virtuels). Notre objectif d'ʹune représentation perceptuelle adaptée au 2D et à la 3D, et son exploitation pour piloter le codage vidéo, s'ʹappuyait sur différents modèles prometteurs et sur des techniques émergentes [6], mais qui nécessitaient encore des recherches plus approfondies. APPROCHE SCIENTIFIQUE ET TECHNIQUE
Pour atteindre ses objectifs, PERSEE s’est organisé autour de 6 grandes tâches (plus une de coordination), leurs approches et techniques sont présentées ci-­‐‑après. Tâche 1 : Modélisation perceptuelle (contributeurs : IRCCyN, INRIA) Référence du formulaire : ANR-FORM-090601-01-01
6/24
Nous nous sommes intéressés à la modélisation de l’attention visuelle qui est un mécanisme mis en œuvre par le système visuel humain afin de réduire la quantité d’information que le cerveau a besoin de traiter pour appréhender le contenu d’une scène. Plusieurs études ont été menées, la première concerne la modélisation de l’attention visuelle en image fixe : nous avons analysé la fiabilité de cartes de densité de fixation issues de différentes bases de données oculométriques. Les autres études sont relatives à la modélisation de l’attention visuelle dans des conditions de visualisation 3D. Pour faire face au manque de vérité de terrain exploitable nous avons d’abord créé, via des expérimentations oculométriques binoculaires, une nouvelle base de données avec des images stéréoscopiques 3D. Nous avons ensuite quantifié l’impact du « biais de profondeur » sur l’attention visuelle dans des conditions de visualisations 3D sur écran plat stéréoscopique. Nous avons également proposé un modèle de l’attention visuelle 3D qui repose sur le contraste de profondeur. Nous avons aussi étudié le « biais central » en condition de visualisation 2D ou 3D, et intégré ce biais central à notre modèle de l’attention visuelle 3D. Nous nous sommes aussi intéressés à la relation entre flou et disparité binoculaire, et montrés comment une technique de floutage peut améliorer la qualité d’expérience de la TV3D. Une étude a aussi pris en compte la dimension temporelle pour l’intégrer à la modélisation de l’attention visuelle 2D ou 3D. Tâche 2 : Analyse et synthèse de textures (contributeurs : INRIA, IETR, LTCI) La tâche 2 consistait à investiguer de nouveaux outils pour l’analyse et la synthèse de texture. Ces outils ont été définis pour trois contextes d’applications. La première application concerne la compression d’images et plus particulièrement les méthodes de prédiction. Les études ont été faites dans un contexte de compression H.264. Quatre méthodes ont été développées et testées : TM (Template matching), ATM (Average Template Matching), LLE (Locally Linear Embedding), NMF (Non-­‐‑negative Matrix Factorization). La seconde application porte sur des techniques de rebouchage (inpainting) reposant sur des techniques de copier/coller, encore appelé synthèse de texture basée sur l’exemple. L’approche scientifique considérée a été d’améliorer un algorithme existant. Cette méthode est constituée de deux étapes principales : un calcul de priorité sur la ligne de front (ligne séparant la zone connue de la zone à remplir) et une recherche de candidat. Nous avons amélioré ces deux étapes en considérant des tenseurs de structures et des approches de type k-­‐‑NN respectivement pour la définition de la priorité et de la recherche de candidat. La troisième application concerne la synthèse de vue virtuelle. Il s’agit ici de créer un point de vue virtuelle en utilisant soit une vue existante soit un ensemble de vues. La problématique principale rencontrée concerne la projection d’une vue existante dans un nouveau référentiel et la gestion des zones découvertes. Un algorithme effectuant la projection et le traitant des zones découvertes (ainsi que les craquelures) a été proposé. Tâche 3 : Représentation et codage des contenus 2D (contributeurs LTCI, INRIA, IRCCyN) Nous avons employé une méthodologie qui consiste à concevoir des modèles pertinents du signal à coder. Un premier aspect pris en compte a été la représentation du mouvement, qui est une des sources fondamentales d’information dans la vidéo 2D. Nous avons conçu et implémenté des algorithmes d’estimation du mouvement « denses » (c’est-­‐‑à-­‐‑dire, nous pouvons déterminer la trajectoire de chaque pixel), qui permettent de s’affranchir des artéfacts dus à la représentation traditionnelle par blocs. Nous avons obtenu des réductions de débit (à qualité égale) de l’ordre de 1%, ce qui est considéré un bon gain par rapport aux normes. Un deuxième axe regarde des nouvelles techniques de transformée linéaire. La Référence du formulaire : ANR-FORM-090601-01-01
7/24
transformée linéaire est un outil fondamentale en compression d’images et vidéo, car elle permet de concentrer l’information pertinente d’une image en peu d’échantillons. Toutefois, les performances des techniques de transformée classique se détériorent en proximité des contours des objets ou des structures avec orientations spatiales spécifiques. Nous avons donc conçu et implémenté nouvelles transformées qui permettent de prendre en compte ces caractéristiques fondamentales des images ; nos résultats montrent une amélioration objective et perceptuelle de la qualité. D’autres contributions sur la compression 2D regardent la représentation progressive de la vidéo et le codage par exemplaires. Tâche 4 : Représentation et codage des contenus 3D (contributeurs : IETR, LTCI, INRIA) Dans cette tâche, nous avons proposé des méthodes de représentation et codage de vidéos 3D au-­‐‑delà des standards existants : MPEG-­‐‑3DMC pour la stéréo et H264-­‐‑MVC pour les séquences multi-­‐‑vues. En particulier, nous avons étudié la compression de données MVD (multi-­‐‑vues plus profondeur). A partir des représentations LDI et LDV (Layered Depth Image / Video), nous avons proposé des extensions I-­‐‑LDI et O-­‐‑LDI, et évalué leurs performances pour la compression dans le cadre de la FVV (Free Viewpoint Video). Nous avons proposé plusieurs algorithmes pour la compression de cartes de profondeur, avec des approches destinées à favoriser la qualité perceptuelle lors de la synthèse de vues : approche contours et courbes élastiques, approche quad-­‐‑tree (LAR codec), approche basée sur le paradigme « Don’t Care Regions », et approche par « Depth Fading ». Ces méthodes ont été conjointement évaluées en coopération avec la tâche 6, dans des tests psychovisuels impliquant tous les partenaires du projet. Plusieurs algorithmes ont été intégrés dans les schémas en cours de standardisation 3D-­‐‑HEVC, et les plus performants proposés en normalisation : la modification de la liste MERGE des candidats, une modification de la dérivation du vecteur de disparité, et l’utilisation de la JPF (Joint Projection Filling) pour la prédiction inter-­‐‑vues. Tâche 5 : Intégration dans la plateforme logicielle (contributeurs : tous) Les études menées lors du projet Persée se sont concrétisées par des réalisations logicielles de deux natures : des applications autonomes, ou stand-­‐‑alone, et des intégrations au sein de logiciels de référence mis à la disposition de la communauté par les organismes de normalisations. Les applications « stand-­‐‑alone » concernent le codage des cartes de profondeurs (« Don’t Care Region », codage par diffusion préservant les contours et codage basé LAR), les modèles d’attention visuelle et des techniques d’inpainting. Plusieurs approches étudiées dans les tâches précédentes ont fait l’objet d’une intégration dans les logiciels de références de codage vidéo 2D et 3D. Pour la 2D, le « Weigthed Template Matching » (WTM) a été intégré au « test model HM » de HEVC puis évalué. Les travaux liés à la 3D ont quant à eux été intégrés dans le « test model JM » de H.264 pour le DCR et le HTM, le « test model » basé HEVC et dédié à la 3D, pour les autres travaux. En particulier, cela a concerné les « Layer Depth Image » (LDI), et le « Joint Projection Filling » (JPF). Deux autres intégrations dans le HTM ont fait l’objet d’une adoption en normalisation. Il s ‘agit de l’ajout de candidats dérivés de vecteurs de disparités dans la liste des prédicteurs de mouvement et du codage de carte de profondeur hérité de la décomposition en quadtree des blocs de la texture Elles font désormais partie du standard développé pour la vidéo 3D par le groupe JCT-­‐‑3V. Référence du formulaire : ANR-FORM-090601-01-01
8/24
Parallèlement, à ces logiciels, une base de données de cartes de profondeurs compressées associées à des notes de qualités a été développée. Elle permet d’aider à l’évaluation de métriques de qualité. Tâche 6 : Tests subjectifs (contributeurs : IRCCyN, IETR) Nous avons régulièrement effectué des campagnes de tests subjectifs en lien avec les travaux de recherche menés par les partenaires. Mener des tests de qualité, et des expérimentations autour de la perception visuelle psychophysique, mobilise un ensemble de moyens : salles d’expérimentations normalisées, matériel spécialisé (serveur haut débit, systèmes professionnels d’affichage HD&3D, oculomètres, bases de données… ), panels d’observateurs, maîtrise de protocoles expérimentaux (SAMVIQ, ACR, Pair Comparison… ). Un premier ensemble de tests psychophysiques avait pour cadre la mise au point des modèles de l’attention visuelle 2D et 3D, avec des tests oculométriques sur images 2D de différentes bases, des tests de préférence de l'ʹimpact du flou sur la perception de la profondeur, des tests oculométriques pour l’étude du biais de profondeur (3D) et du biais central (2D et 3D). Un second ensemble de tests avait pour objet l’évaluation de la qualité subjective de contenus décodés et/ou synthétisés avec, des tests de qualité sur images et vidéos visant à évaluer différents algorithmes d'ʹinterpolation de vues (FTV), des tests de qualité d’images codées/décodées, des tests de qualité sur images 3D pour mesurer l'ʹimpact des algorithmes d'ʹinterpolation (visualisation 3D), des tests de la qualité perçue afin d'ʹévaluer l'ʹimpact du codage des cartes de profondeur (3D). C.3 RESULTATS OBTENUS
PERSEE a produit un ensemble de résultats montrant l’intérêt d’un schéma de codage basé qualité perceptuelle. La tâche 1 a proposé de nouveaux modèles de perception, et produit des vérités de terrain. La tâche 2 d’analyse/synthèse de textures, a amélioré des techniques de prédiction et de rebouchage. La tâche 3 a trouvé des gains pour le codage des contenus 2D via des approches d’estimation du mouvement denses, et de nouvelles transformées linéaires orientées. La tâche 4 a étendu les représentations LDI et LDV, et proposé des algorithmes pour la compression des cartes de profondeur afin d’améliorer la synthèse de vue pour le FTV. Une plateforme logicielle de codage a été conçue. Les tests perceptuels psychophysiques et de qualité ont renforcé et validé les approches scientifiques. C.4 EXPLOITATION DES RESULTATS
PERSEE a produit un ensemble de résultats scientifiques qui ont été décrits et diffusés par le biais de livrables (20 rapports), de publications (10 articles de revues, plus de 35 communications à des conférences, 3 chapitres d’ouvrages collectifs), de brevets (3), et de propositions en normalisation internationale (6 soumissions dont 2 définitivement acceptées). Quatre thèses de doctorat ont aussi été conduites et soutenues dans le cadre du projet. Les nouveaux outils et méthodes développés souvent collectivement, et visant un codage basé perceptuel des contenus 2D & 3D, ont donc été largement reconnus par la communauté scientifique. Une plateforme logicielle intégrant les contributions des partenaires a aussi été développée. Enfin une base de données de vidéos stéréoscopiques servant de vérité de terrain a été construite et diffusée. Référence du formulaire : ANR-FORM-090601-01-01
9/24
C.5 DISCUSSION
PERSEE a bien proposé tout un ensemble d’outils et de méthodes où les choix pour améliorer la qualité perceptuelle guident le codage. Un verrou majeur demeure car il manque toujours un modèle de calcul de la distorsion perceptuelle pour la phase d’optimisation débit/qualité, qui soit plus générique et facilement implantable dans le codeur. Une telle métrique perceptuelle est indispensable pour concevoir un schéma de codage optimisé globalement en termes de qualité perçue, schéma qui permettrait de concurrencer les approches plus classiques, ces dernières sont donc encore prépondérantes au niveau des choix faits en normalisation. C.6 CONCLUSIONS
L’objectif de PERSEE, concevoir un nouveau codage vidéo perceptuel basé sur l’amélioration de la qualité perçue, était un objectif ambitieux qui a été soutenu par l’ANR. Les travaux de recherche menés en synergie par les 4 partenaires (IRCCyN, INRIA, IETR, LTCI) ont abouti à un ensemble de méthodes et d’outils montrant l’intérêt de cette approche. La qualité de ces travaux a été reconnue via des publications majeures, des brevets et une application retenue en normalisation. Trois thèses ont aussi été soutenues. Les 4 équipes impliquées ont fortement augmenté leur expertise et leur visibilité dans le domaine grâce au projet ; plusieurs nouvelles thèses ainsi qu’un projet collaboratif ont débuté dans la lignée des travaux de PERSEE. C.7 REFERENCES
[1] « 3D Video and Free Viewpoint Video -­‐‑ Technologies, Applications and MPEG Standards », A. Smolic, A. & al., IEEE International Conference on Multimedia and Expo, Toronto, Canada, 2006. [2] 3DVC, ISO/IEC JTC1/SC29/WG11 “Overview of 3D Video Coding”, Doc. N9784, Archamps, France, Mai 2008. [3] MVC, ISO/IEC 14496-­‐‑10:2008 [4] H.264/AVC, Joint Video Team (JVT) of ISO/IEC MPEG and ITU-­‐‑T VCEG, “Draft ITU-­‐‑T recommendation and final draft international standard of joint video specification (ITU-­‐‑T Rec. H.264jISO/IEC 14496-­‐‑10 AVC),” JVTG050, 2003. [5] « Overview of the High Efficiency Video Coding (HEVC) Standard », G.J. Sullivan, & al. ; IEEE Trans. on Circuits and Systems for Video Technology 22(12), Dec. 2012 [6] O. Le Meur, P. Le Callet, D. Barba and D. Thoreau, “A coherent computational approach to model bottom-­‐‑up visual attention”, IEEE Transactions on Pattern Analysis Machine Intelligence, Vol. 28, No.5, May 2006 D LISTE DES LIVRABLES
Date de
livraison
N°
Titre
Référence du formulaire : ANR-FORM-090601-01-01
Nature (rapport,
logiciel, prototype,
données, …)
Partenaires
(souligner le
responsable)
Commentaires
10/24
Date de
livraison
N°
Titre
04/2010
1
D5.1 Common test
conditions
11/2010
2
11/2010
3
11/2010
4
11/2010
5
04/2011
6
D1.1 Perceptual
modelling for 2D and
3D
D2.1 State of the art in
texture analysis and
synthesis
D3.1 State of the art in
2D content
representation and
compression
D4.1 Representation
and coding of 3D video
data
D5.2 Description of the
codec’s architecture
04/2011
7
10/2011
8
11/2011
9
04/2011
10
11/2011
11
03/2012
12
04/2011
13
10/2011
14
11/2013
15
11/2013
16
11/2013
17
11/2013
18
11/2013
19
11/2013
20
D3.2 2D coding tools
(intermediate version of
the software)
D1.2 Perceptual
Modelling – Definition
of the Models
D2.2 Texture Analysis
and Synthesis –
Technical Definition and
first Results
D3.2 2D Coding Tools –
Intermediate version of
the software
D3.3 2D Coding Tools
and Representation –
First Results
D4.2 3D Coding and
Representation –
Sotware Definition and
Architecture
D5.2 2D 3D Description
of the codec’s
architecture
D6.1 Perceptual
Assessment – Definition
of the Scenarios
D1.3 Perceptual
Modelling – Softwares
results and final report
D2.3 Texture Analysis
and Synthesis –
Softwares results and
final report
D3.4 2D Coding
Representation and
Compression Softwares
results and final report
D4.3 3D Coding
Representation and
Compression –
Softwares results and
final report
D5.3 Intregration within
a Common Platform –
Softwares Coded and
decoded Videos
D6.3 Perceptual
Référence du formulaire : ANR-FORM-090601-01-01
Nature (rapport,
logiciel, prototype,
données, …)
Rapport
[plus :
données
(vidéos
et
indicateurs)]
Rapport
Partenaires
(souligner le
responsable)
IRCCyN, INRIA, IETR,
LTCI
Commentaires
IRCCyN, INRIA, IETR
Rapport
Rapport
LTCI, INRIA, IETR
Rapport
Rapport
IRCCyN, LTCI, INRIA
Rapport
Rapport
IETR, INRIA
Rapport
Rapport
IRCCyN, INRIA, IETR,
LTCI
Rapport
[plus : codec 2D]
LTCI, INRIA, IRCCyN
Rapport - Délai de
6 mois demandé et
accordé
Codec INRIA
Rapport
IRCCyN, INRIA, IETR
Rapport
Rapport
INRIA, IETR
Rapport
Rapport
IRCCyN, INRIA, LTCI
Rapport
Rapport
IRCCyN, INRIA, LTCI
Rapport
Rapport
IRCCyN, INRIA, IETR,
LTCI
Rapport
Rapport
IRCCyN, INRIA, IETR,
LTCI
Rapport
Rapport
IRCCyN, INRIA, IETR
Rapport
Rapport
IRCCyN, INRIA, IETR
Rapport
Rapport
LTCI, INRIA
Rapport
Rapport
IRCCyN, LTCI, INRIA
Rapport
Rapport
IETR, INRIA
Rapport
Rapport
IRCCyN, INRIA, IETR,
LTCI
Rapport
Rapport
IRCCyN, INRIA, IETR
Rapport
Rapport et données
11/24
Date de
livraison
N°
Titre
Nature (rapport,
logiciel, prototype,
données, …)
Partenaires
(souligner le
responsable)
Commentaires
Assessment Final tests
and Analysis report
E IMPACT DU PROJET
E.1 INDICATEURS D’IMPACT
Nombre de publications et de communications (à détailler en E.2)
Publications
multipartenaires
Revues à comité de
lecture
INRIA/IETR : 2
(IJ3DR 2011, AT 2013)
IRCCyN/IETR : 1
(IEEE STSP 2011)
Publications
monopartenaires
INRIA : 4
(IEEE IP 2012, CC 2012 ,
IEEE IP 2013, IEEE SPM
2014)
IRCCyN : 2
(IEEE IP 2012, JEMR 2012)
LTCI : 1
(APSIPA)
Ouvrages ou chapitres
d’ouvrage
Communications
(conférence)
IRCCyN/IETR : 1
(Springer 2012)
INRIA/IETR : 3
(3DTV 2011, DSP 2011,
ICIP 2011)
IRCCyN/IETR : 5
(SPIE OP 2011, ICIP
2011, THEMES 2011,
3DTV 2012, SPIE EI
2013)
International
IRCCyN : 10
(SPIE EI 2010, DSP 2011,
SPIE EI 2011, ECEM 2011,
SIFWICT 2011, QoMEX
2011, EUVIP 2011, ICIP
2012, VCIP 2013, QoMEX
2013)
INRIA : 9
(MMSP 2010, 3DTV 2011,
ICME 2011, ICIP 2011,
PCS 2012, ICIP 2012,
ECCV 2012, ICASSP 2013,
ACM-MM 2013)
IETR : 6
(PCS 2010, DSP 2011, PCS
2012, SIFWICT 2011, SPIE
EI 2012, 3DTV 2012)
LTCI : 6
(VCIP 2010, VPQM 2010,
DSP 2011, PCS 2012, ICIP
2013, MMSP 2013)
France
Revues à comité de
lecture
Ouvrages ou chapitres
d’ouvrage
Communications
(conférence)
INRA/IETR : 1
(HERMES 2013)
IETR/INRIA : 2
(CORESA 2010)
LTCI : 2
(HERMES 2013)
IETR : 1
(ORASIS 2011)
LTCI : 1
(CORESA 2012)
Référence du formulaire : ANR-FORM-090601-01-01
12/24
Articles vulgarisation
Actions de
diffusion
INRIA : 1 keynote
(ISIVC,2012)
IRCCyN : 1 thèse 2012
INRIA : 1 thèse 2012
IETR : 1 thèse 2012
Conférences
vulgarisation
Autres
Autres valorisations scientifiques (à détailler en E.3)
Nombre, années et commentaires
(valorisations avérées ou probables)
Brevets internationaux
obtenus
Brevet internationaux en
cours d’obtention
INRIA : 3 T. Guionnet, L. Guillo, C. Guillemot, « Dynamic merge candidates re-­‐‑ordering and adapted context modeling”, INRIA, application: 4/10/2012 C. Guillemot, L. Guillo, J.J. Fuchs, «Device for encoding a digital image stream and corresponding decoding device with approximation of the neighborhood of a block by the widened neighborhood of the block”, PCT/FR2009/001361, Pub. No. WO/2010/063898, international filing number US20110317767, publication date: 29/12/2011 US20110317767 T. Guionnet, L. Guillo, C. Guillemot, “Method and device for motion information prediction refinement”, INRIA, application: 4/10/2012, adoption de la solution au sein du standard HEVC-­‐‑3DV, 07/2013. Brevets nationaux obtenus
Brevet nationaux en cours
d’obtention
Licences d’exploitation
(obtention / cession)
Créations d’entreprises ou
essaimage
Nouveaux projets
collaboratifs
Colloques scientifiques
Autres (préciser)
IRCCyN : 1 présentation invitée au GDR ISIS
Organisation d’une session spéciale sur la compression vidéo 3D,
colloque DSP 2011
INRIA :
2 contributions à la normalisation JCTVC
3 contributions à la normalisation MPEG-3DV avec une adoption.
LTCI : 1 extension PCT d’un brevet antérieur ;
Ouverture internationale : collaboration avec les équipes de G.
Cheung (NII, Tokyo, Japon) et de A. Ortega (USC, Californie,
USA), 1 contribution à la normalisation MPEG-3DV.
IETR : Vulgarisation scientifique (Portes Ouvertes INSA 2011 et
2012, Festival des Sciences 2012)
Normalisation : Participation aux réunions du groupe MPEG-3DV.
IRCCyN : Vulgarisation (Portes Ouvertes à Polytech’Nantes),
collaborations avec l’EPFL (Lausanne, Suisse), l’université de
Rome, Barcelona Media, et le NII (Tokyo, Japon)
Référence du formulaire : ANR-FORM-090601-01-01
13/24
E.2 LISTE DES PUBLICATIONS ET COMMUNICATIONS.
INTERNATIONAL • REVUES A COMITE DE LECTURE o PUBLICATIONS MULTIPARTENAIRES INRIA/IETR Bosc, E., Racapé, F., Jantet, V., Riou, P., Pressigout, M., and Morin, L., “A study of depth/texture bit-­‐‑rate allocation in Multi-­‐‑View Video plus Depth compression,” Annals of Telecommunications, special issue on 3D video technologies and services, volume 8, number 11-­‐‑12, 2013. V. Jantet, C. Guillemot, L. Morin, “Joint Projection Filling method for occlusion handling in Depth-­‐‑Image-­‐‑Based Rendering”, International journal on 3D research, special issue on “3DTV”, Ed. Springer, Vol.2, No.4, Dec. 2011. IRCCyN/IETR Bosc, E., Pepion, R., Le Callet, P., Koppel, M., Ndjiki-­‐‑Nya, P., Pressigout, M., and Morin, L., “Towards a New Quality Metric for 3-­‐‑D Synthesized View Assessment,” IEEE Journal of Selected Topics in Signal Processing 5(7), 1332–1343 (2011). o PUBLICATIONS MONOPARTENAIRES INRIA M. Turkan, C. Guillemot, “Dictionary learning for image prediction”, International Journal on Visual Communication and Image Representation, Vol. 24, No. 3, pp. 426-­‐‑437, April 2013. M. Turkan, C. Guillemot, “Image prediction based on neighbor embedding methods”, IEEE Trans. on Image Processing, Vol.21, No.4, pp. 1885 – 1898, April 2012. J. Gautier and O. Le Meur, “A time-­‐‑dependent saliency model mixing center and depth bias for 2D and 3D viewing conditions”, Cognitive Computation 2012, DOI: 10.1007/s12559-­‐‑012-­‐‑9138-­‐‑3. O. Le Meur, M. Ebdelli, C. Guillemot, «Super-­‐‑resolution based image inpainting», IEEE Trans. On Image Processing, vol. 22 No. 10, pp. 3779-3790, Oct. 2013 C. Guillemot and O. Le Meur, “Image inpainting: Overview and recent advances”, IEEE Signal Processing Magazine, to appear in January 2014. Référence du formulaire : ANR-FORM-090601-01-01
14/24
•
IRCCyN J. Wang, M. Perreira Da Silva, P. Le Callet and V. Ricordel, “A computational model of stereoscopic 3D visual saliency ”, IEEE Trans. on Image Processing, 22 (6), 2151-­‐‑2165, Juin 2013. J. Wang, P. Le Callet, S. Tourancheau, V. Ricordel and M. Perreira Da Silva, « Study of depth bias of observers in free viewing of still stereoscopic synthetic stimuli », Journal of Eye Movement Research, 5(5):1, 1-­‐‑11, Septembre 2012. LCTI E. Mora, J. Jung, M. Cagnazzo, B. Pesquet-­‐‑Popescu. "ʺDepth Video Coding Based on Intra Mode Inheritance From Texture"ʺ, APSIPA Transactions on Signal and Information Processing. À paraître. OUVRAGES OU CHAPITRES D’OUVRAGE o
PUBLICATIONS MULTIPARTENAIRES •
IRCCyN/IETR Bosc, E., Le Callet, P., Morin, L., and Pressigout, M., [Visual Quality Assessment of Synthesized Views in the Context of 3D-­‐‑TV] , in 3D-­‐‑TV System with Depth-­‐‑
Image-­‐‑Based Rendering, C. Zhu, Y. Zhao, L. Yu, and M. Tanimoto, Eds., Springer New York, New York, NY, 439–473 (2012). COMMUNICATIONS (CONFERENCE) o
PUBLICATIONS MULTIPARTENAIRES
INRIA/IETR
Bosc, E., Jantet, V., Pressigout, M., Morin, L., and Guillemot, C., “Bit-­‐‑rate allocation for multi-­‐‑view video plus depth,” in Proc. of 3DTV Conference 2011 (2011). T. Colleu, L.Morin, S. Pateux, C. Labit, “Floating Polygon Soup”, Proceedings of DSP conference, 6-­‐‑8 July 2011, Corfu, Greece. V. Jantet, C. Guillemot, L. Morin, ”Object-­‐‑based layered depth images for improved virtual view synthesis in a rate-­‐‑constrained context” IEEE International Conference on Image Processing, ICIP 2011. IRCCyN/IETR Référence du formulaire : ANR-FORM-090601-01-01
15/24
Bosc, E., Koppel, M., Pepion, R., Pressigout, M., Morin, L., Ndjiki-­‐‑Nya, P., and Le Callet, P., “Can 3D synthesized views be reliably assessed through usual subjective and objective evaluation protocols?,” in ICIP 2011 (2011). E. Bosc, M. Köppel, R. Pépion, M. Pressigout, L. Morin, P. Ndjiki-­‐‑Nya, P. Le Callet, « Towards a new quality metric for 3D synthesized views assessment », IEEE Themes 2011, Bruxelles, Belgique Bosc, E., Pépion, R., Le Callet, P., Köppel, M., Ndjiki-­‐‑Nya, P., Morin, L., and Pressigout, M., “Perceived quality of DIBR-­‐‑based synthesized views,” in Proceedings of SPIE Optics + Photonics, 8135–16 (2011). Bosc, E., Pépion, R., Le Callet, P., Pressigout, M., and Morin, L., “Reliability of 2D quality assessment methods for synthesized views evaluation in stereoscopic viewing conditions,” in 3DTV-­‐‑Conference: The True Vision-­‐‑Capture, Transmission and Display of 3D Video (3DTV-­‐‑CON) (2012). Battisti, F. Bosc, E., Perrugia, S., Carli, M., Le Callet, P., “A wavelet-­‐‑based image quality metric for the assessment of 3D synthesized views”, SPIE Electronic Imaging 2013 o PUBLICATIONS MONOPARTENAIRES
IRCCyN J. Wang, D. M. Chandler, P. Le Callet, “Quantifying the relationship between visual salience and visual importance. ”, Proc. SPIE Electronic Imaging, January 2010, San Jose, California, USA. J. Li, M. Barkowsky, J. Wang, P. Le Callet. “Study on visual discomfort induced by stimulus movement at fixed depth on stereoscopic displays using shutter glasses”, Proceedings of DSP conference, July 2011, Corfu, Greece. J. Wang, M. Barkowsky, V. Ricordel, P. Le Callet, “Quantifying how the combination of blur and disparity affects the perceived depth”, Proceedings of SPIE Electronic Imaging, January 2011, San Jose, California, USA. J. Wang, P. Le Callet, V. Ricordel, S. Tourancheau, “Quantifying depth bias in free viewing of still stereoscopic synthetic stimuli.”, European Conferences on Eye Movements ECEM 2011, Marseille, France, 2011. Junle Wang, Marcus Barkowsky, Vincent Ricordel, Patrick Le Callet, “Quantifying how the combination of blur and disparity affects the perceived depth”, Sino-­‐‑French Workshop on Research Collaborations in Information and Communication Technologies (SIFWICT), Nantes, France, 2011. Référence du formulaire : ANR-FORM-090601-01-01
16/24
Jing Li, Marcus Barkowsky, Patrick Le Callet, “The influence of relative disparity and planar motion velocity on visual discomfort of stereoscopic videos”, QoMEX, Mechelen, Belgium, 7-­‐‑9 September 2011. H. Liu, J. Wang, J. Redi, P. Le Callet, and I. Heynderickx, “An efficient no-­‐‑
reference metric for perceived blur”, 3rd European Workshop on Visual Information Processing (EUVIP), 174-­‐‑179, 2011. Jing Li, Marcus Barkowsky, Patrick Le Callet, “Analysis and improvement of a paired comparison method in the application of 3DTV subjective experiment”, IEEE International Conference on Image Processing ICIP, Orlando, USA, October 2012. Y. Fang, J. Wang, M. Narwaria, P. Le Callet, and W. Lin, "ʺSaliency detection for stereoscopic-­‐‑3D images"ʺ, IEEE Visual Communications and Image Processing (VCIP) 2013. E. Bosc, P. Hanhart, P. Le Callet, T. Ebrahimi, “A quality assessment protocol for free-­‐‑viewpoint video sequences synthesized from decompressed data”, International Workshop on Quality of Multimedia Experience (QoMEX), Autriche, 2013. INRIA A. Drémeau, M. Turkan, C. Herzet, C. Guillemot, J.-­‐‑J. Fuchs, “Spatial intra-­‐‑
prediction based on mixtures of sparse representations”, IEEE International Workshop on Multimedia Signal Processing (MMSP'ʹ10), Saint-­‐‑Malo, France, Oct. 2010. J. Gauthier, O. Le Meur, C. Guillemot, « Depth-­‐‑based image completion for view synthesis”, 3DTV international workshop, 16-­‐‑18 May, 2011. O. Le Meur, J. Gauthier, C. Guillemot, « Examplar-­‐‑based inpainting based on local geometry », IEEE International Conference on Image Processing, ICIP 2011. M. Turkan, C. Guillemot, “Online dictionaries for image prediction”, IEEE International Conference on Image Processing, ICIP 2011, (among the 8 nominated for best student paper award). O. Le Meur, “Predicting saliency using two contextual priors: the dominant depth and the horizon line”, IEEE International Conference on Multimedia & Expo (ICME 2011) 2011. J. Gautier, O. Le Meur, and C. Guillemot, « Efficient depth map compression based on lossless edge coding and diffusion », Picture Coding Symposium, PCS, May 2012. Référence du formulaire : ANR-FORM-090601-01-01
17/24
M. Turkan and C. Guillemot, “Locally Linear Embedding based texture synthesis for image prediction and error concealment”, IEEE Intl. Conf. on Image Processing, ICIP, Oct. 2012. O. Le Meur and C. Guillemot, « Super-­‐‑resolution-­‐‑based inpainting », European Conference on Computer Vision, ECCV 2012. C. Guillemot, M. Turkan, O. Le Meur, M. Ebdelli, « Image inpainting using LLE-­‐‑
LDNR and linear subspace mappings », IEEE Intl. Conf. on Acoustics and Signal Processing (IEEE-­‐‑ICASSP), 2013. D. Wolinski, O. Le Meur, J. Gautier, « 3D view synthesis with inter-­‐‑view consistency », ACM Multimedia, 2013. IETR E. Bosc, M. Pressigout, L. Morin. “Focus on visual rendering quality through content-­‐‑based depth map coding.”, Proceedings of the IEEE Picture Coding Symposium PCS 2010, Nagoya, Japan. Bosc, E., Morin, L., and Pressigout, M., “3D Video: new techniques and challenges,” presented at Sino-­‐‑French Workshop on Research Collaborations in Information and Communication Technologies, SIFWICT 2011, May 2011, Nantes. Bosc, E., Morin, L., and Pressigout, M., “An edge-­‐‑based structural distortion indicator for the quality assessment of 3D synthesized views,” in Proceedings of PCS 2012 (2012). Bosc, E., Morin, L., and Pressigout, M., “A content based method for perceptually driven joint color/depth compression,” in Proceedings IS&T/SPIE Electronic Imaging, 8288–82 (2012). Bosc, E., Riou, P., Pressigout, M., and Morin, L., “Bit-­‐‑rate allocation between texture and depth: influence of data sequence characteristics,” in 3DTV Conference: The True Vision -­‐‑ Capture, Transmission and Display of 3D Video (3DTV-­‐‑CON), 2012 (2012). LTCI M. Cagnazzo, B. Pesquet-­‐‑Popescu. "ʺPerceptual impact of transform coefficients quantization for adaptive lifting schemes"ʺ. International Workshop on Video Processing and Quality Metrics for Consumer Electronics , January 2010. Scottsdale, AZ. Référence du formulaire : ANR-FORM-090601-01-01
18/24
M. Cagnazzo, B. Pesquet-­‐‑Popescu. "ʺIntroducing differential motion estimation into hybrid video coders"ʺ. In SPIE Visual Communications and Image Processing Conference, vol. 1, pp. 1-­‐‑4, July 2010. Huang Shan, An Hui, China. M. Cagnazzo, B. Pesquet-­‐‑Popescu. “Depth Map Coding By Dense Disparity Estimation For MVD Compression”. In IEEE Digital Signal Processing, July 2011. Corfu, Greece. G. Valenzise, G. Cheung, R. Galvao, M. Cagnazzo, B. Pesquet-­‐‑Popescu, A. Ortega. "ʺMotion Prediction of Depth Video for Depth-­‐‑Image-­‐‑Based Rendering Using Don'ʹt Care Regions"ʺ. In Picture Coding Symposium, vol. 1, pp. 1-­‐‑4, May 2012. Krakow, Poland. E. Mora, J. Jung, M. Cagnazzo, B. Pesquet-­‐‑Popescu. "ʺModification of the merge candidate list for dependent views in 3D-­‐‑HEVC"ʺ. In IEEE International Conference on Image Processing, September 2013. Melbourne, Australia. E. Mora, J. Jung, B. Pesquet-­‐‑Popescu, M. Cagnazzo. "ʺModification of the disparity vector derivation process in 3D-­‐‑HEVC"ʺ. In IEEE Workshop on Multimedia Signal Processing, vol. 1, September 2013. Cagliari, Italy. NATIONAL • OUVRAGES OU CHAPITRES D’OUVRAGE o PUBLICATIONS MULTIPARTENAIRES
INRIA/IETR
L. Morin, O. Le Meur, C. Guillemot, V. Jantet and J. Gautier, « Synthèse de vues intermédiaires », Chapter in Vidéo 3D: Capture, traitement, diffusion. Hermès, 2013 o
PUBLICATIONS MONOPARTENAIRES
LTCI
Benjamin Battin, Philippe Vautrot, Marco Cagnazzo, Frédéric Dufaux. "ʺCodage vidéo multi-­‐‑vues"ʺ. In Vidéo 3D. Capture, traitement, diffusion. Hermès 2013 Elie Gabriel Mora, Joël Jung, Béatrice Pesquet-­‐‑Popescu, Marco Cagnazzo. « Méthodes de codage de vidéos de profondeur ». In Vidéo 3D. Capture, traitement, diffusion. Hermès 2013 •
COMMUNICATIONS (CONFERENCE) o
PUBLICATIONS MULTIPARTENAIRES
Référence du formulaire : ANR-FORM-090601-01-01
19/24
IETR/INRIA
E. Bosc, V. Jantet, L. Morin, M. Pressigout, C. Guillemot. « Vidéo 3D : quel débit pour la profondeur ? », CORESA 2010. Lyon. o
PUBLICATIONS MONOPARTENAIRES
IETR
E. Bosc, M. Pressigout, L. Morin. “Évaluation de la qualité des vues 3D synthétisées », ORASIS 2011, Praz-­‐‑sur-­‐‑Arly, France. INRIA
Josselin Gautier and Olivier Le Meur, Un modèle de saillance dépendant du temps combinant les biais centré et de profondeur pour la visualisation en 2D et 3D, CORESA, 2012 LTCI E. Mora, J. Jung, M. Cagnazzo, B. Pesquet-­‐‑Popescu. "ʺCodage de vidéos de profondeur basé sur l'ʹhéritage des modes Intra de texture"ʺ. In Compression et Représentation des Signaux Audiovisuels, vol. 1, pp. 1-­‐‑4, May 2012. Lille, France •
ACTIONS DE DIFFUSION o AUTRES IRCCyN J. Wang, « Saillance Visuelle, de la 2D à la 3D Stéréoscopique: Examen des Méthodes Psychophysiques et Modélisation Computationnelle », Thèse de Doctorat, Université de Nantes Angers Le Mans, Novembre 2012. IETR Emilie Bosc, « Compression de données Multi-­‐‑View-­‐‑plus-­‐‑Depth (MVD) : de l’analyse de la qualité perçue à l’élaboration d’outils pour le codage de données MVD. Thèse de Doctorat, INSA de Rennes, Octobre 2012. INRIA Vincent Jantet, « Compression multi-­‐‑vues par représentation LDI (Layered Depth Images) ». Thèse de Doctorat. Université de Rennes 1, Novembre 2012. Référence du formulaire : ANR-FORM-090601-01-01
20/24
Josselin Gautier, «Un modèle d'ʹattention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-­‐‑vues ». Thèse de Doctorat. Université de Rennes 1, Décembre 2012. E.3 LISTE DES ELEMENTS DE VALORISATION
Contributions à la normalisation INRIA C. Guillemot, L. Guillo, T. Poirier. “Intra Prediction by a linear combination of Template Matching predictors”, 2010, Joint Collaborative Team on Video Coding, JCTVC-­‐‑B078. R. Boitard, L. Guillo, T. Poirier. « Integration into the TMuC of an Intra Prediction based on a linear combination of Template Matching predictors”, 2011, Joint Collaborative Team on Video Coding, JCTVC-­‐‑D193. T. Guionnet, L. Guillo. « Intra prediction based on weigthed template matching predictors (WTM) , 2011, Join Collaborative Team On Video Coding, JCTVC-­‐‑G598. T. Guionnet, L. Guillo, C. Guillemot. « Merge candidate list for disparity compensated prediction”, 2012, Join Collaborative Team On 3D Video Coding Extension Development, JCT3V-­‐‑B0080. C. Guillemot, L. Guillo. « Additional merge candidates derived from shifted disparity candidate predictors”, 2013 , Join Collaborative Team On 3D Video Coding Extension Development, JCT3V-­‐‑C148. V. Thirumalai, L. Zhang, Y. Chen, M. Karczewicz (Qualcomm), T. Guionnet, C. Guillemot, L. Guillo(INRIA). « Merge candidates derivation from vector shifting », Join Collaborative Team On 3D Video Coding Extension Development, JCT3V-­‐‑D0178. V. Thirumalai, L. Zhang, Y. Chen, M. Karczewicz (Qualcomm), C. Guillemot, L. Guillo (INRIA), J.-­‐‑L. Lin, Y.-­‐‑W. Chen, Y.-­‐‑L. Chang(MediaTek). « Merge candidates derivation from vector shifting », Join Collaborative Team On 3D Video Coding Extension Development, JCT3V-­‐‑E0126. LTCI E. Mora, B. Pesquet, M. Cagnazzo and J. Jung. Modification of the Merge Candidate List for Dependant Views in 3DV-­‐‑HTM. Document JCT3V-­‐‑B0069 for Shanghai meeting (MPEG number m26793). Shangai (PRC), October 2012. Extension PCT d’un brevet antérieur au projet mais en relation avec le projet : Référence du formulaire : ANR-FORM-090601-01-01
21/24
INRIA C. Guillemot, J-­‐‑J. Fuchs, L. Guillo, “Spatial and temporal prediction methods”, Brevet INRIA, Nov. 2008. LTCI Logiciels : Implémentation des algorithmes optimisés d’estimation et compensation du mouvement pour vidéo « classique » (2D) dans le codeur standardisé JM12.1. Présentation au GDR ISIS IRCCyN P. Le Callet, « TV3D un nouveau défi pour l’évaluation de la qualité perceptuelle », Réunion scientifique « Imagerie stéréo et 3D : problématique de compression, perception et mesure de qualité », Mars 2011. Référence du formulaire : ANR-FORM-090601-01-01
22/24