Représentations PPC pour la fouille de grands ensembles

Transcription

Représentations PPC pour la fouille de grands ensembles
Représentations PPC pour la fouille de grands
ensembles de données
Encadrants : P. Boizumault, A. Lallouet et S. Loudni
Equipe CoDaG du GREYC
L’utilisation de la Programmation par Contraintes (PPC) pour l’extraction de motifs est
un domaine de recherche récent. Il a été initié par Luc de Raedt et al en 2008 qui ont proposé
une première approche permettant l’extraction de motifs locaux [3]. Depuis, cette approche
[4] a été étendue aux ensembles de motifs, que ce soient :
– les n-ary patterns dans la thèse de M. Khiari [7],
– ou les k-patterns sets de Guns et al [6].
Ces travaux possèdent deux points communs :
1. Les problèmes d’extraction de motifs sont modélisés sous forme de problèmes de satisfaction de contraintes (CSP) dont la résolution produit l’ensemble complet des motifs
solutions.
2. Leur mise en oeuvre repose sur l’encodage booléen proposé dans [3]. A chaque transaction du dataset est associée une contrainte réifiée portant sur l’ensemble des items. Ces
contraintes permettent d’établir le lien entre les motifs recherchés et leur couverture.
Même si l’approche PPC a ouvert de nouvelles voies pour l’extraction de motifs en fouille
de données, (comme par exemple les travaux de W. Ugarte concernant l’introduction de la
souplesse (softness) dans l’extraction de motifs [10, 11, 12]), l’encodage utilisé est un frein
important pour le passage à l’échelle. En effet, pour des datasets, même de taille moyenne, le
nombre de contraintes réifiées devient prohibitif pour le solveur
L’objectif de cette thèse est de proposer des représentations plus concises permettant de
traiter des datasets de grande taille.
Etapes du travail :
1. Pour les datasets qui doivent être importés en mémoire, nous proposons de définir
une contrainte globale appelée data-link qui remplacera les contraintes réifiées. Cette
contrainte permettra de représenter un dataset sous forme d’une table ou d’une matrice
creuse, tout en effectuant le même niveau de filtrage que les contraintes qu’elle remplace.
L’usage de grandes tables a été récemment étudié en PPC [8], mais nécessitera d’être
adapté pour la mise en œuvre de la contrainte globale data-link.
2. Valider la/les représentation(s) proposée(s) sur des datasets de grande taille. Application
au clustering conceptuel.
3. Contrairement à la fouille d’itemsets, les motifs séquentiels permettent d’exprimer des
corrélations entre items selon une relation d’ordre. Il s’agira de capturer la notion de
sous-séquence avec une approche PPC. La contrainte data-link permettra notamment
d’encapsuler dans une même structure la notion de sous-séquence ainsi le mécanisme de
génération de candidats, un des points forts des algorithmes de fouille de séquences.
1
Enfin, ce travail s’intègrera dans l’axe "contraintes/fouilles" de l’équipe CoDaG et lui
permettra de continuer à développer son savoir-faire dans ce domaine, qui est l’un des axes
d’excellence de CoDaG.
Références
[1] L. De Raedt, A. Zimmermann : Constraint-based pattern set mining. In SIAM Int. Conf.
on Data Mining (SDM), pp 1–12, (2007).
[2] S. Gilpin, S. Nijssen, I.N. Davidson : Formalizing Hierarchical Clustering as Integer Linear
Programming. In Int. Conf. AAAI, July 14-18, 2013, Bellevue, Washington, USA, pp 372378, (2013).
[3] De Raedt, L., Guns, T., Nijssen, S. : Constraint programming for itemset mining In : KDD
2008, pp. 204–212. ACM (2008)
[4] T. Guns, S. Nijssen, L. De Raedt : Itemset mining : A constraint programming perspective.
In Artificial Intelligence, 175(12-13) : 1951-1983, (2011).
[5] T. Guns, A. Dries, G. Tack, S. Nijssen, L. De Raedt : MiningZinc : A modeling language for
constraint-based mining. Int. Joint Conf. on Artificial Intelligence (IJCAI), pp 1365-1372,
(2013).
[6] T. Guns, S. Nijssen, L. De Raedt : k-pattern set mining under constraints. In IEEE Transactions on Knowledge and Data Engineering (TKDE), 25(2), pp. 402–418, (2013).
[7] M. Khiari, P. Boizumault, B. Crémilleux : Constraint Programming for Mining n-ary
Patterns. In 6th Int. Conf. CP, LNCS 6308, Springer, St Andrews, Scotland, pp. 552-567,
(2010).
[8] C. Lecoutre : STR2 : optimized simple tabular reduction for table constraints. In
Constraints 16(4) : 341-371 (2011).
[9] J.-P. Métivier, P. Boizumault, B. Crémilleux, M. Khiari, S. Loudni : Constrained Clustering Using SAT. In 11th Int. Symposium on Intelligent Data Analysis (IDA), LNCS 7619,
Springer, pp 207-218 (2012).
[10] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, A. Lepailleur : Soft Constraints for
Pattern Mining. Journal of Intelligent Information Systems, pp. 1-29, (2013).
[11] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, A. Lepailleur : Mining (SoftSkypatterns using Dynamic CSP, 11th Int. Conf. CP-AI-OR, LNCS 8451, Springer, Cork,
Ireland, pp 71-87, (2014).
[12] W. Ugarte, P. Boizumault, S. Loudni, B. Crémilleux, Mining Skypattern cubes, 21 st Int.
Conf. on Artificial Intelligence, (ECAI), pp 903-908. Prague, Czech Republic, (2014).
[13] A. Kemmar, W. Ugarte, S. Loudni, T. Charnois, Y. Lebbah, P. Boizumault, and B. Crémilleux. Mining relevant sequence patterns with CP-based framework. In 26-th IEEE
International Conference on Tools with Artificial Intelligence, (ICTAI’14), pages 552-559,
Limassol, Cyprus, 2014.
[14] W. Ugarte, P. Boizumault, S. Loudni, and B. Crémilleux. Computing skypattern cubes
using relaxation. In 26-th IEEE International Conference on Tools with Artificial Intelligence, (ICTAI’14), pages 859-866, Limassol, Cyprus, 2014.
2