Représentations PPC pour la fouille de grands ensembles
Transcription
Représentations PPC pour la fouille de grands ensembles
Représentations PPC pour la fouille de grands ensembles de données Encadrants : P. Boizumault, A. Lallouet et S. Loudni Equipe CoDaG du GREYC L’utilisation de la Programmation par Contraintes (PPC) pour l’extraction de motifs est un domaine de recherche récent. Il a été initié par Luc de Raedt et al en 2008 qui ont proposé une première approche permettant l’extraction de motifs locaux [3]. Depuis, cette approche [4] a été étendue aux ensembles de motifs, que ce soient : – les n-ary patterns dans la thèse de M. Khiari [7], – ou les k-patterns sets de Guns et al [6]. Ces travaux possèdent deux points communs : 1. Les problèmes d’extraction de motifs sont modélisés sous forme de problèmes de satisfaction de contraintes (CSP) dont la résolution produit l’ensemble complet des motifs solutions. 2. Leur mise en oeuvre repose sur l’encodage booléen proposé dans [3]. A chaque transaction du dataset est associée une contrainte réifiée portant sur l’ensemble des items. Ces contraintes permettent d’établir le lien entre les motifs recherchés et leur couverture. Même si l’approche PPC a ouvert de nouvelles voies pour l’extraction de motifs en fouille de données, (comme par exemple les travaux de W. Ugarte concernant l’introduction de la souplesse (softness) dans l’extraction de motifs [10, 11, 12]), l’encodage utilisé est un frein important pour le passage à l’échelle. En effet, pour des datasets, même de taille moyenne, le nombre de contraintes réifiées devient prohibitif pour le solveur L’objectif de cette thèse est de proposer des représentations plus concises permettant de traiter des datasets de grande taille. Etapes du travail : 1. Pour les datasets qui doivent être importés en mémoire, nous proposons de définir une contrainte globale appelée data-link qui remplacera les contraintes réifiées. Cette contrainte permettra de représenter un dataset sous forme d’une table ou d’une matrice creuse, tout en effectuant le même niveau de filtrage que les contraintes qu’elle remplace. L’usage de grandes tables a été récemment étudié en PPC [8], mais nécessitera d’être adapté pour la mise en œuvre de la contrainte globale data-link. 2. Valider la/les représentation(s) proposée(s) sur des datasets de grande taille. Application au clustering conceptuel. 3. Contrairement à la fouille d’itemsets, les motifs séquentiels permettent d’exprimer des corrélations entre items selon une relation d’ordre. Il s’agira de capturer la notion de sous-séquence avec une approche PPC. La contrainte data-link permettra notamment d’encapsuler dans une même structure la notion de sous-séquence ainsi le mécanisme de génération de candidats, un des points forts des algorithmes de fouille de séquences. 1 Enfin, ce travail s’intègrera dans l’axe "contraintes/fouilles" de l’équipe CoDaG et lui permettra de continuer à développer son savoir-faire dans ce domaine, qui est l’un des axes d’excellence de CoDaG. Références [1] L. De Raedt, A. Zimmermann : Constraint-based pattern set mining. In SIAM Int. Conf. on Data Mining (SDM), pp 1–12, (2007). [2] S. Gilpin, S. Nijssen, I.N. Davidson : Formalizing Hierarchical Clustering as Integer Linear Programming. In Int. Conf. AAAI, July 14-18, 2013, Bellevue, Washington, USA, pp 372378, (2013). [3] De Raedt, L., Guns, T., Nijssen, S. : Constraint programming for itemset mining In : KDD 2008, pp. 204–212. ACM (2008) [4] T. Guns, S. Nijssen, L. De Raedt : Itemset mining : A constraint programming perspective. In Artificial Intelligence, 175(12-13) : 1951-1983, (2011). [5] T. Guns, A. Dries, G. Tack, S. Nijssen, L. De Raedt : MiningZinc : A modeling language for constraint-based mining. Int. Joint Conf. on Artificial Intelligence (IJCAI), pp 1365-1372, (2013). [6] T. Guns, S. Nijssen, L. De Raedt : k-pattern set mining under constraints. In IEEE Transactions on Knowledge and Data Engineering (TKDE), 25(2), pp. 402–418, (2013). [7] M. Khiari, P. Boizumault, B. Crémilleux : Constraint Programming for Mining n-ary Patterns. In 6th Int. Conf. CP, LNCS 6308, Springer, St Andrews, Scotland, pp. 552-567, (2010). [8] C. Lecoutre : STR2 : optimized simple tabular reduction for table constraints. In Constraints 16(4) : 341-371 (2011). [9] J.-P. Métivier, P. Boizumault, B. Crémilleux, M. Khiari, S. Loudni : Constrained Clustering Using SAT. In 11th Int. Symposium on Intelligent Data Analysis (IDA), LNCS 7619, Springer, pp 207-218 (2012). [10] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, A. Lepailleur : Soft Constraints for Pattern Mining. Journal of Intelligent Information Systems, pp. 1-29, (2013). [11] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, A. Lepailleur : Mining (SoftSkypatterns using Dynamic CSP, 11th Int. Conf. CP-AI-OR, LNCS 8451, Springer, Cork, Ireland, pp 71-87, (2014). [12] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, Mining Skypattern cubes, 21 st Int. Conf. on Artificial Intelligence, (ECAI), pp 903-908. Prague, Czech Republic, (2014). [13] A. Kemmar, W. Ugarte, S. Loudni, T. Charnois, Y. Lebbah, P. Boizumault, and B. Crémilleux. Mining relevant sequence patterns with CP-based framework. In 26-th IEEE International Conference on Tools with Artificial Intelligence, (ICTAI’14), pages 552-559, Limassol, Cyprus, 2014. [14] W. Ugarte, P. Boizumault, S. Loudni, and B. Crémilleux. Computing skypattern cubes using relaxation. In 26-th IEEE International Conference on Tools with Artificial Intelligence, (ICTAI’14), pages 859-866, Limassol, Cyprus, 2014. 2