rapport - Ceremade - Université Paris

Transcription

rapport - Ceremade - Université Paris
Cécile LUANGPHAKDY
Université PARIS – DAUPHINE
Mr. DIDAY
Mai 2006
1
Introduction
Le data mining, discipline jeune mais prometteuse, consiste à extraire et à analyser, par
des méthodes statistiques, un large volume de données puisées dans une base de données
ou un data warehouse.
L’étude data mining que nous allons réaliser porte sur les produits de maquillage allant
du plus classique et bon marché au plus couteux et luxueux. Nous avons construit notre
propre base de données en nous aidant des informations qui proviennent d’un site
consacré aux produits de beauté. Ces derniers sont notés par différents utilisateurs. Les
objectifs de cette étude sont de faire ressortir le profil type des utilisatrices des marques
de produits de maquillage les plus appréciées et de trouver les relations pertinentes avec
les produits qui composent ces marques.
Présentation du data mining et du logiciel Sodas
Le data mining
Depuis l’arrivée des systèmes d’information, les sociétés ont pris conscience de
l’importance du média informatique. Dans un premier temps, les systèmes informatiques
ont permis de remplacer le papier pour stocker l’information. Puis, les données ont été
organisées et structurées sous forme de base de données afin de pouvoir les consulter plus
facilement, d’effectuer des tris, de les lier entre elles et plus récemment de les mettre à
disposition du monde entier.
Les bases de données constituaient déjà une révolution en elle-même puisque toute
information faisait alors partie d’un objet. Les tris à plat, moyenne, projection et autres
statistiques devenaient très utiles pour mieux comprendre la signification des bases de
données. Celles-ci ont d’ailleurs commencé à attirer l’attention des entreprises
commerciales qui prenaient conscience de la valeur des informations dont elles
disposaient. Ainsi naquirent les mailings listes, les bases de clients, les profils internautes
qui devenaient alors de pures valeurs marchandes.
Mais ce n’est que récemment que le data mining est apparu, chose somme toute logique
puisqu’il s’inscrit naturellement dans l’évolution des systèmes d’information.
L’idée est simple : on part du principe que les bases de données renferment des richesses
d’information sous estimées jusqu’alors.
Le principe est lui novateur : il s’appuie sur les dimensions de concepts et d’individus.
On résume les données de base à l’aide de concepts sous-jacents qui sont décrites sous
formes de données symboliques. Les individus, qui sont quant à eux des entités séparées
au départ de l’analyse.
2
L'intensification de la concurrence et de la volatilité de la clientèle doublée du
développement des systèmes d'informations ont permis l'émergence du Data Mining dans
les entreprises.
En effet, le développement des Data Warehouse a entraîné un accroissement de
l'information disponible, le Data Mining intervient alors pour faire parler les données.
Les associations, tendances ou connaissances obtenues par ce processus peuvent se
révéler déterminantes pour la fidélisation de la clientèle, le Data Mining joue donc un
rôle majeur dans la gestion de la relation client.
Le logiciel SODAS
SODAS est l’outil de data mining que nous utiliserons dans notre étude. Ce logiciel a été
conçu pour l’analyse de données symboliques et l’extraction de connaissances à partir
d’une base de données.
SODAS est le fruit d’une collaboration européenne entre des établissements éducatifs et
quelques sociétés commerciales.
Même s’il offre des richesses analytiques d’un niveau équivalent, SODAS n’est pas un
logiciel de statistiques classiques dans la mesure où il manipule des données de type
complexe et permet de les représenter graphiquement. De plus, il est destiné à des
utilisateurs « métier », sans compétences statistiques ou informatiques, ce qui permet de
se concentrer sur ce qui est recherché et non sur la manière d’y parvenir.
Cependant, il ne se contente pas de données des méthodes trop simples et pré formatées :
il laisse à l’utilisateur la possibilité de paramétrer chacune d’elles afin d’obtenir des
résultats plus précis.
L’idée de SODAS est la suivante : à partir d'une base de données, construire un tableau
de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire
des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en
extraire des connaissances par des méthodes d'analyse de données symboliques.
En plus d’être libre, SODAS a le mérite d’être un logiciel polyvalent, permettant de faire
aussi bien de l’analyse symbolique et statistique que de classer les données par hiérarchie
ou encore par arbre de décision.
Dans le cadre de notre étude, SODAS nous permettra d’extraire les données d’une base
ACCESS.
3
Les différentes étapes que nous suivrons pour mener à bien notre étude sont les
suivantes :
1)
2)
3)
4)
5)
Construction de la base de données
Rattacher les entités à un concept et définir les taxonomies
Construire les tableaux nécessaires à DB2SO à partir de requêtes
Importer les données dans DB2SO pour les transformer en tableaux symboliques
Exécuter les méthodes SODAS et interpréter les résultats pour chacune d’elles
Construction de notre base de données
Nous avons recueilli nos données sur le site suivant : www.beaute-test.com
Ce site est entièrement dédié aux consommatrices de produits de beauté qui sont
passionnées des cosmétiques et qui veulent partager leur avis sur les différents produits
de beauté. Nous avons trouvé ce site très intéressant pour implémenter notre base de
données car il contient des notations des produits de différentes marques de vraies
utilisatrices, ce qui ne peut qu’être une base solide pour notre étude sur les produits de
maquillage.
4
En effet, les produits de beauté sont évalués comme suit :
Dans cet exemple, il y a 287 produits différents de la catégorie Mascara. Il y figure pour
chaque produit, sa marque, son prix, sa contenance et sa notation globale. Cependant,
pour des raisons d’homogénéisation des données, nous n’avons pas pu traiter la variable
Contenance car pour certains produits son unité est en gramme et pour d’autres elle est
en ml et contenu des différentes densités des produits, il ne nous a pas été possible de
faire la conversion.
Pour chaque notation globale, nous avons également le détail des notations selon les
critères suivants:
Ainsi, nous avons également des données sur les utilisatrices.
Nous avons donc implémenté notre base de données Access à partir des informations
trouvées sur ce site.
5
Voici le schéma relationnel de notre base de données :
Variables, requêtes et connexion à la base de données
Individus, variables de description et concepts
Nous avons décidé d’analyser deux types d’individus : les produits et les utilisateurs
ayant noté ces produits.
Les variables de description sont les suivantes :
-
le prix du produit
le nombre de commentaires (ou d’avis) qui a été fourni pour un produit donné
la fin de commercialisation du produit (1 si le produit n’est plus sur le marché)
la catégorie du produit
la notation sur l’efficacité du produit (2 types de variables de description)
la notation sur la présentation du produit (2 types de variables de description)
la notation sur la tenue du produit (2 types de variables de description)
la notation sur le rapport qualité/prix du produit (2 types de variables de
description)
le type de peau de l’utilisatrice
la déshydratation de l’utilisatrice
l’âge de l’utilisatrice
le type de cheveux de l’utilisatrice
6
Nous nous expliquons pour les 2 types de variables de description : En effet, concernant
les notations, nous la variable quantitative par exemple une notation sur la tenue de 4, et
la variable intervalle correspondante qui est : 4-4.5.
Les concepts sont les marques des différents produits. Sur le site, nous avons recueilli
169 marques différentes, mais pour faire une analyse pertinente, ce nombre est trop élevé.
Nous avons donc décidé de faire des requêtes restreignant le nombre de concepts à
analyser. Ce nombre s’est ramené à 40. Cependant, dans notre analyse, nous n’avons
considéré que 15 concepts, à savoir les 8 marques les mieux notées et les 7 autres
marques les moins notées.
Marques les mieux notées
Lise Watier
Mac
Guerlain
BeneFit
Nina Ricci
Chanel
Couleur Caramel
La Roche Posay
Marques les moins bien notées notées
Yours
Sisley
Agnès b.
Yves Rocher
Daniel Jouvance
Nivea
Gemey-Maybelline
Création des requêtes
Avant la création de la requête Info_Produit qui sera importée dans SODAS, nous avons
crée plusieurs requêtes intermédiaires pour préparer les données afin qu’elles soient
exploitables.
Nom de la requête
Formulation SQL
Justification de la
requête
Requête 1
Req liste produits avec plus de 4 avis
SELECT T_Produit.idProduit, T_Produit.nbAvis,
T_Produit.idMarque
FROM T_Produit
WHERE (((T_Produit.nbAvis)>=5));
Cette requête liste tous les produits de la base qui ont plus de 4 avis.
La base de données comporte 2 105 individus, soit 2 105 produits.
Cependant, cette requête permet de ramener le nombre potentiel de
produits sur lesquels nous allons travailler, à 1 245 produits, car
nous avons exclu les produits qui n’avaient pas plus de 4 avis. En
effet, nous préférons étudier sur les produits qui ont été notés au
moins 5 fois, pour une question de significativité.
7
Nom de la requête
Formulation SQL
Justification de la
requête
Requête 2
Req Marque avec au moins 5 produits de plus de 4 avis
SELECT T_Marque.idMarque, T_Marque.libMarque, Count([Req
liste produits avec plus de 4 avis].idProduit) AS NbProd
FROM T_Marque INNER JOIN [Req liste produits avec plus de 4
avis] ON T_Marque.idMarque = [Req liste produits avec plus de 4
avis].idMarque
GROUP BY T_Marque.idMarque, T_Marque.libMarque
HAVING (((Count([Req liste produits avec plus de 4
avis].idProduit))>=5));
Cette requête liste les marques de la base ayant au moins 12 produits
qui ont été notés plus de 4 fois.
La base de données comporte 169 marques, et la requête n’en
retient que 40 sur lesquelles nous ferons notre étude.
Requête 3
Nom de la requête
Formulation SQL
Justification de la
requête
Req Moyenne des notes pour un produit avec plus de 4 avis
SELECT T_Produit.idProduit, Avg(T_Notation.rapport) AS MoyRap,
Avg(T_Notation.presentation) AS MoyPres, Avg(T_Notation.tenue)
AS MoyTenue, Avg(T_Notation.efficacite) AS MoyEff
FROM T_Categorie INNER JOIN (((T_Marque INNER JOIN
(T_Produit INNER JOIN [Req liste produits avec plus de 4 avis] ON
T_Produit.idProduit = [Req liste produits avec plus de 4
avis].idProduit) ON (T_Marque.idMarque = T_Produit.idMarque)
AND (T_Marque.idMarque = [Req liste produits avec plus de 4
avis].idMarque)) INNER JOIN [Req Marque avec au moins 5
produits de plus de 4 avis] ON T_Marque.idMarque = [Req Marque
avec au moins 5 produits de plus de 4 avis].idMarque) INNER JOIN
T_Notation ON T_Produit.idProduit = T_Notation.idproduit) ON
T_Categorie.idCategorie = T_Produit.idCategorie
GROUP BY T_Produit.idProduit;
Cette requête calcule les moyennes pour chaque type de notation
(Rapport qualité/prix, Présentation, Tenue et Efficacité) pour
chacun des 1 144 produits ayant plus de 4 avis et dont la marque
comporte au moins 5 produits.
Requête 4
Nom de la requête
Formulation SQL
Justification de la
requête
Req Moyenne totale prod + de 4 avis et marque + de 4 prod
SELECT [Req Moyenne des notes pour un produit avec plus de 4
avis].idProduit, ([MoyRap]+[MoyPres]+[MoyTenue]+[MoyEff])/4
AS MoyTotale
FROM [Req Moyenne des notes pour un produit avec plus de 4 avis];
Cette requête permet d’avoir la moyenne totale des produits ayant
plus de 4 avis et dont la marque comporte au moins 5 produits.
8
Requête 5
Nom de la requête
Formulation SQL
Justification de la
requête
Info_Produit
SELECT [Req Moyenne des notes pour un produit avec plus de 4
avis].idProduit, T_Marque.libMarque, T_Categorie.libCategorie,
T_Produit.finCommercialisation,
IIf([finCommercialisation]='true',1,0) AS finCom, T_Produit.nbAvis,
T_Produit.prix, T_Tranche_Prix.tranchePrix, [Req Moyenne des
notes pour un produit avec plus de 4 avis].MoyEff,
T_Tranche_note_Efficacite.trancheNoteEfficacite, [Req Moyenne
des notes pour un produit avec plus de 4 avis].MoyPres,
T_Tranche_note_Presentation.trancheNotePresentation, [Req
Moyenne des notes pour un produit avec plus de 4 avis].MoyRap,
T_Tranche_note_Rapport.trancheNoteRapport, [Req Moyenne des
notes pour un produit avec plus de 4 avis].MoyTenue,
T_Tranche_note_Tenue.trancheNoteTenue, [Req Moyenne totale
prod + de 4 avis et marque + de 4 prod].MoyTotale,
T_Tranche_note_Totale.trancheNoteTotale
FROM T_Tranche_Prix, T_Tranche_note_Efficacite,
T_Tranche_note_Presentation, T_Tranche_note_Rapport,
T_Tranche_note_Tenue, T_Tranche_note_Totale, T_Categorie
INNER JOIN (T_Marque INNER JOIN (([Req Moyenne des notes
pour un produit avec plus de 4 avis] INNER JOIN T_Produit ON
[Req Moyenne des notes pour un produit avec plus de 4
avis].idProduit = T_Produit.idProduit) INNER JOIN [Req Moyenne
totale prod + de 4 avis et marque + de 4 prod] ON
T_Produit.idProduit = [Req Moyenne totale prod + de 4 avis et
marque + de 11 prod].idProduit) ON T_Marque.idMarque =
T_Produit.idMarque) ON T_Categorie.idCategorie =
T_Produit.idCategorie
WHERE (((T_Produit.prix) Between [T_Tranche_Prix]![prixMin]
And [T_Tranche_Prix]![prixMax]) AND (([Req Moyenne des notes
pour un produit avec plus de 4 avis].MoyEff) Between
[T_Tranche_note_Efficacite]![noteMinEfficacite] And
[T_Tranche_note_Efficacite]![noteMaxEfficacite]) AND (([Req
Moyenne des notes pour un produit avec plus de 4 avis].MoyPres)
Between [T_Tranche_note_Presentation]![noteMinPresentation] And
[T_Tranche_note_Presentation]![noteMaxPresentation]) AND
(([Req Moyenne des notes pour un produit avec plus de 4
avis].MoyRap) Between
[T_Tranche_note_Rapport]![noteMinRapport] And
[T_Tranche_note_Rapport]![noteMaxRapport]) AND (([Req
Moyenne des notes pour un produit avec plus de 4 avis].MoyTenue)
Between [T_Tranche_note_Tenue]![noteMinTenue] And
[T_Tranche_note_Tenue]![noteMaxTenue]) AND (([Req Moyenne
totale prod + de 4 avis et marque + de 4 prod].MoyTotale) Between
[T_Tranche_note_Totale]![noteMinTotale] And
[T_Tranche_note_Totale]![noteMaxTotale]));
Cette requête renvoie les individus de premier ordre, à savoir dans
notre étude, les produits et la majorité des variables de description
d’un produit.
9
Requête 6
Nom de la requête
Formulation SQL
Justification de la
requête
Info_Marque
SELECT T_Marque.libMarque, T_Region.libRegion,
Avg(Info_Produit.prix) AS PrixMoyen,
Count(Info_Produit.idProduit) AS NbProdDifferents,
Sum(Info_Produit.finCom) AS NbProdFinCom,
Sum(Info_Produit.nbAvis) AS NbAvisTot, Avg(Info_Produit.MoyEff)
AS MoyEffMarque, Avg(Info_Produit.MoyPres) AS
MoyPresMarque, Avg(Info_Produit.MoyRap) AS MoyRapMarque,
Avg(Info_Produit.MoyTenue) AS MoyTenueMarque,
Avg(Info_Produit.MoyTotale) AS MoyTotaleMarque
FROM (T_Pays INNER JOIN T_Region ON T_Pays.idPays =
T_Region.idPays) INNER JOIN (T_Marque INNER JOIN
Info_Produit ON T_Marque.libMarque = Info_Produit.libMarque)
ON T_Region.idRegion = T_Marque.idRegion
GROUP BY T_Marque.libMarque, T_Region.libRegion
HAVING (((Count(Info_Produit.idProduit))>=12));
Cette requête renvoie les concepts (marque des produits), les
variables de classe et les variables de description :
 libRegion
 PrixMoyen
 NbProdDifferents
 NbProdFinCom
 NbAvisTot
 MoyEffMarque
 MoyPresMarque
 MoyRapMarque
 MoyTenueMarque
 MoyTotaleMarque
Requête 6
Nom de la requête
Formulation SQL
Justification de la
requête
Taxo_Lieu
SELECT T_Region.libRegion, T_Pays.libPays,
T_Continent.libContinent
FROM T_Continent INNER JOIN (T_Pays INNER JOIN T_Region
ON T_Pays.idPays = T_Region.idPays) ON T_Continent.idContinent
= T_Pays.idContinent;
Cette requête permet d’établir un lien entre la région, le pays et le
continent d’une marque.
10
Connexion à la base de données
Pour utiliser la base de données Access à partir de SODAS, il faut créer une connexion
ODBC.
11
Sur SODAS, j’extrais les individus sur lesquels je veux travailler.
Avec la dernière version de SODAS, il n’est pas nécessaire d’écrire la requête, il suffit de
cliquer sur la requête faite au préalable sur Access. Si nous voulons l’écrire, cela donne :
12
SODAS a bien importé les 16 variables de descriptions dont 8 sont qualitatives et 8 sont
quantitatives. Les assertions (concepts) sont au nombre de 26, ce qui correspond bien aux
26 marques que nous avions obtenues des requêtes établies auparavant :
Nous incorporons à présent les concepts de la façon suivante :
13
Ici aussi, SODAS a reconnu d’après les requêtes les 9 variables de classes obtenues grâce
au « add single »; ce sont les variables uniques décrivant les concepts.
Nous passons aux taxonomies qui auraient été utiles dans notre analyse si les concepts
avaient été les catégories de produits par exemple.
14
La taxonomie de la variable libRegion est crée. SODAS indique qu’il y a 16 régions
différentes pour l’ensemble des concepts.
Ainsi, SODAS a bien importé toutes les variables de descriptions et de classes dans la matrice
de données symboliques. Nous les présentons dans le tableau suivant :
Variables Description des individus
MultiNominale
Intervalle
libCategorie
finCommercialisation
tranchePrix
trancheNoteEfficacite
trancheNotePresentation
trancheNoteRapport
trancheNoteTenue
trancheNoteTotale
finCom
nbAvis
prix
MoyEff
MoyPres
MoyRap
MoyTenue
MoyTotale
Variables Single
Qualitative
Quantitative
libRegion
PrixMoyen
NbProdDifferents
NbProdFinCom
NbAvisTot
MoyEffMarque
MoyPresMarque
MoyRapMarque
MoyTenueMarque
MoyTotaleMarque
15
Vue sur les Objets Symboliques : Analyses statistiques
descriptives des variables
APPROCHE STATISTIQUE CLASSIQUE
Nous allons explorer les données par une approche statistique classique des variables,
afin de nous faire une idée très globale des profils des marques les plus appréciées et les
moins appréciées. Il faut noter que les notes étant notées sur une échelle de 0 à 5, il nous
faut sélectionner des tranches de notes assez précises. Tout d’abord, nous allons étudier
les 6 marques pour lesquelles la moyenne totale est comprise entre 4 et 4.2 :
Tableau A
Ensuite nous verrons les marques pour lesquelles la moyenne totale est comprise entre
3.4 et 3.5 :
Tableau B
Lieu de création de la marque
Cette variable n’est pas exploitable pour a cette étape de notre étude. Les marques
les moins bien notées sont d’origine française et celles les mieux notées viennent de
France, du Canada et des États-Unis. Cependant, nous préférons avancer dans notre
analyse pour explorer davantage cette variable.
Prix moyen des produits de la marque
Le prix moyen étant de 23.7 euros pour les produits des marques bien notées, et de 14.6
euros pour ceux des marques les moins bien notées, nous pouvons supposer que le prix a
une corrélation positive, mais cela reste a étudier (nous le verrons avec d’autres méthodes
16
statistiques de SODAS) car l’écart-type est assez élevé pour les deux ensembles de
marques (cependant la dispersion est plus grande dans l’ensemble des marques moins
bien notées :11.4 vs 8.7). A cette étape, nous pouvons penser que les bonnes notes de
certaines marques pourraient justifier leur prix assez élevé, mais ce n’est pas pour
autant que l’on pourrait dire qu’une marque chère a forcément une bonne notation.
Nombre total de produits et nombre de produits en fin de commercialisation
Pour l’ensemble des 8 marques de produits dont la moyenne totale est comprise entre 4 et
4.2 (meilleure notation), il n’y a que 10 produits qui ne sont plus commercialisés (sur un
total 168 produits référencés), alors que pour l’ensemble des marques dont la moyenne
totale est comprise entre 3.4 et 3.5 (notation la moins bonne), nous avons 86 produits qui
ne sont plus commercialisés (sur un total de 362 produits référencés), dont un peu plus de
la moitié des produits sont de marque Yves Rocher.
Autrement dit, l’ensemble des 8 marques dont la moyenne totale est comprise entre 4 et
4.2 a 6% de produits qui ne sont plus commercialisés, et l’ensemble des 7 marques dont
la moyenne totale est comprise entre 3.4 et 3.5 a 24% de produits qui ne sont plus
commercialisés. Nous pourrions dégager de ces statistiques qu’il existe une corrélation
négative assez significative du pourcentage de produits qui ne sont plus
commercialisés et de l’appréciation de ceux-ci.
En effet, nous pourrions l’interpréter comme tel : « Si un produit n’est pas apprécié des
consommateurs, alors sa période de vie dans le commerce ne sera pas longue ».
Nombre d’avis
Le nombre d’avis n’est pas un facteur corrélé avec la note totale. En effet, nous pourrions
croire que plus il y a d’avis sur un produit, plus celui-ci aurait tendance à être mieux noté,
mais ce n’est pas le cas. Par ailleurs nous ne pouvons pas parler de nombre moyen d’avis
par marque car l’écart-type est élevé, ce qui montre une importante dispersion des
individus par rapport à la moyenne. Ainsi, le nombre d’avis ne semble pas jouer pas
dans la détermination d’une note.
LA METHODE VIEW (Symbolic Objects Viewer)
Cette méthode permet d’afficher à partir d’un tableau à deux dimensions, tous les objets
symboliques qui ont été chargés dans le fichier de SODAS. Cette méthode est pratique à
utiliser car elle offre différentes vues sur les données, telles que les graphiques en 2D et
3D de chaque objet présent dans le tableau : c’est le principe de l’étoile zoom.
L'étoile zoom est une représentation graphique qui permet de visualiser des données
statistiques complexes appelées objets symboliques. L'étoile zoom fournit différents
niveaux de détail de manière interactive, notamment grâce à une représentation en 2D et
3D.
17
Un objet symbolique est généralement le résultat d'une agrégation d'individus multivariés
si bien que chaque objet symbolique figure dans une classe d'individus. Dès lors, il est
représenté par un ensemble de variables dont les valeurs peuvent être soit comprises dans
un intervalle (pour une variable quantitative), soit pondérées (pour une variable
qualitative). Le but du travail est de représenter graphiquement de tels objets.
La visualisation en étoile zoom est basée sur des axes radiaires, où chaque axe représente
une variable. Chaque étoile représente un objet symbolique. Le but de la représentation
est de fournir une image synthétique de l'objet, un profil, et de comparer des profils entre
eux.
Analyse de la marque Lise Watier
Figure 1
Figure 2
A l’aide de ces deux représentations graphiques, nous avons une vue globale des
données, et nous pouvons aussi nous intéresser sur des variables en affichant plus
finement ces données afin d’améliorer l’analyse de notre étude. Dans un premier temps,
nous allons analyser le profil de la marque Lise Watier qui a la meilleure notation
globale. Nous allons analyser les graphiques, puis nous ferons de même pour les autres
marques, mais nous n’afficherons pas tous les graphiques correspondant pour ne pas
encombrer le rapport afin de se focaliser sur l’analyse.
NB : Il faut noter que les informations que nous analysons sont celles obtenues lors de
l’importation des requêtes sur SODAS, nous basons donc notre analyse sur des données
significatives. Par exemple, une marque peut produire des produits de beaucoup de
catégories, mais dans notre base, nous retenons que celles qui sont significatives. Il se
peut donc que le nombre de catégories de cette marque diminue car toutes les catégories
ne figureront pas dans l’étude.
18
D’après la Figure 1, les produits de Lise Watier se répartissent sur 5 catégories de
produits : Fards à paupières, Correcteurs/Cernes, Bases de teint, Poudres et Fards à
joues (Figure 5).
NB : La Figure 2 permet une vue globale des données, et il est plus exploitable de
regarder chaque axe d’analyse pour voir les mesures précises.
En ce qui concerne les notes sur la présentation, nous voyons sur la Figure 1 que la
majorité des produits de Lise Watier font partie de la tranche 4.5-5 au niveau notation de
la présentation. Plus précisément (Figure 3), 80% de ces produits font partie de la tranche
4.5-5 concernant la présentation.
40% de ces produits appartiennent à la tranche 4-4.5 sur la notation de l’efficacité
(Figure 4), 40% à la tranche 3.5-4 sur la notation rapport qualité/prix (Figure 7) et 40% à
la tranche 4.5-5 sur la notation de la tenue (Figure 10). Les notes qui ont
significativement contribué de façon positive à la notation finale sur la marque Lise
Watier, sont les notations de présentation et de tenue.
100% des produits de Lise Watier ont un prix appartenant à la tranche 16-30 €
(Figure 9). D’après le Tableau A des statistiques, la moyenne des prix des produits est de
27 €.
Figure 3
Figure 4
Figure 5
Figure 6
Figure 7
Figure 8
Figure 9
Figure 10
19
Analyse de la marque Mac
La plupart des produits de la marque Mac recouvre toutes les catégories de produits,
excepté les suivantes : Sourcils, Correcteurs/Cernes, Bases de teint et Ongles. Les
produits sont globalement repartis de façon uniforme dans chacune des catégories.
Avec une note moyenne de 3.8 sur l’efficacité, 40% des produits appartiennent à la
tranche 2-3 et près de 33% à la tranche 4.5-5 concernant l’efficacité.
60% des produits appartiennent à la tranche 4-4.5 concernant la notation sur le rapport
qualité/prix.
De même, 60% des produits ont des notations appartenant à la tranche 4-4.5 et 22% à la
tranche 4.5-5 concernant la tenue.
Près de 83% des produits ont des notations appartenant à la tranche 4-5 concernant la
présentation.
La majorité des produits de Mac sont bien notés sur la tenue, le rapport qualité/prix
et la présentation.
20
En effet, nous remarquons que la moitié des produits coûte entre 16 et 30 €, et l’autre
moitié entre 10 et 16 €. Cette dernière information justifie surement la part contributive
de la notation du rapport qualité/prix parmi les produits de Mac.
Analyse de la marque Guerlain
Guerlain recouvre toutes les catégories de produits excepte la catégorie Ongles, mais la
plupart des produits concerne les fards a paupières, les fonds de teint, les poudres et
les lèvres.
Le prix moyen des produits appartenant à la marque Guerlain est de 41 € sachant que le
prix minimum d’un produit est de 14.4 € et le prix maximum est de 445.1 €. Vu qu’il ya
un écart élevé entre les prix des produits de Guerlain, il vaut mieux analyser les tranches
des prix :
La marque Guerlain comporte plusieurs tranches de prix, mais reste une marque
avec des prix plutôt très élevés. Seulement 9% des produits coutent entre 10 à 16 €,
51% de 16 à 30 € et 29% de 30 à 45 €.
21
La majorité des produits (43%) sont notés dans la tranche 3.5-4 concernant le rapport
qualité/prix. 34% des produits appartiennent à la tranche 2-3.5 et seulement 9%
appartiennent à la tranche 4.5-5.
Nous en déduisons que ce qui contribue à l’appréciation des produits de Guerlain
n’est pas la notation du rapport qualité/prix.
Nous constatons que les notations sur l’efficacité se répartissent sur plusieurs tranches de
façon plus ou moins égales. Les avis sur l’efficacité des produits de Guerlain sont donc
partagés.
Concernant la tenue, 66% des produits de Guerlain sont notés dans la tranche 4-5, ce qui
est beaucoup, vu que seulement 9% des produits sont notés dans la tranche 2-3.5.
En ce qui concerne la présentation du produit, 71% de produits sont notés dans la
tranche 4.5-5, ce qui est très élevé, d’autant que 17% des produits sont dans la tranche
4-4.5 pour la présentation.
Nous remarquons donc que les produits de Guerlain sont appréciés pour leur tenue et leur
présentation même s’ils ont pour la plupart, des prix très élevés.
Analyse de la marque BeneFit
22
Les produits de la marque BeneFit sont regroupés en 8 catégories : Mascaras, Fards à
paupières, Crayons yeux, Sourcils, Correcteurs/Cernes, Bases de teint, Poudres et Fards
a joues. La plupart de ces produits appartiennent aux catégories suivantes : Bases de teint
et Poudres.
91% de ces produits coutent dans la tranche de prix 16-30 E et 9% font partie de la
tranche 30-45 E. Nous en déduisons que BeneFit fait des produits assez chers et tous
de la même gamme de prix, la moyenne étant de 23.6 E.
Au niveau de la tenue, la majorité des produits de BeneFit est bien notée, avec 32%
dans la tranche 4.5-5 et seulement 9% dans la tranche 2-3.
Il en est de même pour l’efficacité, bien qu’il y ait plus de produits mal notés (18% dans
la tranche 2-3).
Par contre, au niveau de la présentation, pratiquement tous les produits sont très
bien notes ; seulement 5% sont dans la tranche 2-3.
Pour le rapport qualité/prix, les notes des produits ne sont pas excellentes, elles sont
juste bonnes pour 45% des produits, moyennes pour 32% et moins bien pour 18%.
23
Analyse de la marque Nina Ricci
Les produits de la marque Nina Ricci ne sont regroupes qu’en 4 catégories : Mascaras,
Fonds de teint, Fards a joues et Lèvres.
De même que la marque BeneFit, Nina Ricci possède une gamme de prix assez élevés
et homogènes. En effet, 83% des produits sont dans la tranche 16-30 € et les 17 autres
sont dans la tranche 30-45 €, avec une moyenne générale pour la marque de 23.3 €.
Au niveau de la tenue et de l’efficacité, les produits de Nina Ricci sont tous bien
notés.
Par contre, pour la présentation, 83% des produits sont très bien notes, mais il y en a
tout de même 17% qui sont mal notés.
Les avis sont partages concernant le rapport qualité/prix. 50% des produits de Nina
Ricci sont notes moyennement, 33% sont bien notes et 17% sont mal notes.
24
Analyse de la marque Chanel
La marque Chanel est la seule marque à cette étape, qui recouvre l’ensemble des
catégories de produits. Cependant, Les catégories qui regroupent le plus de produits de
cette marque sont les fards à paupières, les fonds de teint et la catégorie lèvres.
Cette marque possède plusieurs gammes de prix de produits car elle propose des
produits pas très chers, assez chers, chers et très chers. Cependant, la majorité des
produits ont des prix élevés.
La notation des produits de chanel est très partagée en ce qui concerne la tenue et
l’efficacité. Par contre la présentation des produits est très appréciée des
consommatrices : 75% des produits sont dans la tranche 4.5-5 et 11% dans la tranche 44.5.
25
Cette dissimilarité de notes se fait ressentir au niveau de la notation du rapport
qualité/prix. En effet, il y a beaucoup de produits notes moyennement et 36% des
produits sont mal notes.
Analyse de la marque Couleur Caramel
La marque Couleur Caramel regroupe 8 catégories de produits qui comportent toutes
environ le même nombre de produits. Les catégories qui n’y figurent pas sont les
suivantes : Eye-liner, Sourcils, Fards à joues et Ongles.
Couleur Caramel est une marque qui offre beaucoup de produits peu chers (31% des
produits sont dans la tranche 5-10 €).
Pour la tenue, les produits de cette marque sont bien notes.
26
Par contre, l’avis sur l’efficacité est partagée : 23% des produits sont dans la tranche 23 et 38% dans celle de 4.5-5.
Il en est de même pour la présentation : 15% des produits sont dans la tranche 2-3, 8%
dans celle de 3-3.5 et 38% dans celle de 4.5-5. Cependant, l’ensemble des produits
sont mieux notes en présentation qu’en efficacité.
L’avis est également partagée au niveau du rapport qualité/prix. Nous pourrions penser
que des consommatrices acceptent le produit car il n’est pas très cher, donc elles
n’exigent pas une qualité exceptionnelle du produit mais simplement une utilisation
correcte de celui-ci. D’autres pourraient trouver que le produit n’est pas bon, et cela
pourrait se justifier du fait qu’il ne coute pas cher et que la production du produit
n’a pas été élaborée avec beaucoup de qualité.
Analyse de la marque La Roche Posay
27
La marque La Roche Posay regroupe l’ensemble des catégories excepté les 3 suivantes :
Crayons yeux, Sourcils et Poudres. Les 9 catégories comportent également chacune
approximativement le même nombre de produits.
Cette marque propose une gamme de prix de produits pas très élevés. En effet, 62%
des produits sont dans la tranche 10-16 E et 15% sont dans celle 5-10 E.
Les avis sur la tenue, l’efficacité et la présentation sont assez partages.
Par contre la notation de l’ensemble des produits est assez bonne dans l’ensemble,
avec 38% des produits notes dans la tranche 4-4.5 et aucune notation en dessous de
3.
Après avoir analyse chacune des marques positionnées dans le top 8 des marques bien
notées par les consommatrices, nous allons faire un tableau de synthèse pour avoir une
analyse pertinente sur quels critères les consommatrices se reposent-elles pour évaluer un
produit comme très bon.
Ce tableau permet d’extraire de l’information intéressante. En effet, nous remarquons
que le principal critère d’un produit pour être bien vu des consommatrices de
maquillage, est la présentation. D’après nos propres connaissances sur le marketing,
le marché du maquillage et de ces marques elle-même, nous savons que l’emballage
et le design d’un produit est très important pour la vente de celui-ci. Les marques a
forte notoriété telles que Guerlain, Nina Ricci ou encore Chanel misent beaucoup sur le
design du produit car cela représente avant tout la notoriété de la marque.
Evidemment, il n’y a pas que la présentation qui compte ; nous constatons qu’un autre
critère important est la tenue du maquillage. Encore une fois, d’après nos
connaissances sur ce marche, nous savons qu’il ya de plus en plus de produits de
maquillage qui ont une longue tenue. Prenons l’exemple des publicités qui indiquent
qu’un fonds de teint X dure du matin jusqu’au soir, pour convaincre les femmes de la
bonne durée de tenue du produit.
D’après le tableau de synthèse, nous avons regroupe les marques en deux groupes : En
rose figurent les marques qui offrent des produits chers et sont des marques a forte
notoriété, et en vert, figurent les marques qui sont bonnes et qui offrent des produits
d’une gamme de prix pas très chers ou abordables par la majorité des consommatrices.
28
Pour les marques en rose et dont les produits sont très chers, la présentation est très
bien notée, mais le rapport qualité/prix défavorise la notation totale des produits.
Les consommatrices sont donc conscientes que les produits sont chers et qu’il y a parfois
de l’abus car la qualité des produits est bonne mais pas très excellente.
Pour les marques en vert, les consommatrices sont moins exigeantes et sont plutôt
satisfaites de l’efficacité et de la tenue des produits, surement car ils ne sont pas chers
et qu’elles en ont pour le prix qu’elles ont paye.
Passons à présent aux 7 marques les moins bien notés par nos consommatrices. Nous
allons procède de même que pour les marques du top 8, avec un tableau de synthèse dont
le but sera de voir pourquoi les produits de ces marques sont moins bien notés.
Avant de commencer, nous remarquons que toutes les marques excepte Sisley, sont
des marques qui offrent des produits de très bon marche. En effet, les produits des
marques du top 8 qui ne sont pas très chers ont un prix plus élevés que les produits des
marques les moins bien notes (voir le prix moyen des produits des Tableaux A et B).
Analyse de la marque Yours
29
La marque Yours regroupe 6 catégories de produits.
75% des produits de cette marque sont à très bas prix.
Au niveau de la tenue, de la présentation, du rapport qualité/prix et de l’efficacité,
les avis sur les produits sont partages. Il y a presqu’autant de produits mal notes
que notes assez bons, voir bien notes (concernant la présentation).
Analyse de la marque Sisley
30
La marque Sisley regroupe 8 catégories de produits ou le fonds de teint celle qui regroupe
le plus de produits (36% des produits de Sisley sont des fonds de teint).
Sisley est l’exception de ce groupe de marques moins bien notées. En effet, c’est une
marque luxueuse dont les produits sont très chers : 36% dans la tranche 45-80 E. Elle
offre aussi une gamme de prix de produits dans la tranche 16-30 E (36%), ce qui est assez
cher également.
Il y a beaucoup de produits qui sont mal notes au niveau de la tenue et de
l’efficacité, même si un nombre non négligeable est tout de même bien note.
Les avis sont très partages au niveau de la présentation des produits de cette
marque.
Concernant le rapport qualité/prix, 72% des produits sont très mal notes, ce qui
pourrait se justifier par le prix très élevé de la plupart des produits, surtout
lorsqu’il n’y a pas unanimité des avis sur l’efficacité et la tenue.
Analyse de la marque Agnès b.
31
104 produits différents sont de marque Agnès b. et sont regroupes en 8 catégories. La
majorité des produits est regroupée dans les catégories suivantes : Mascaras, Fards à
paupières, Bases de teint, Fonds de teint, Lèvres et Ongles.
Agnès b. possède plusieurs gammes de prix de produits mais la dominante est une
gamme de prix peu élevés.
L’ensemble des produits est mal note sur le plan de la tenue et de l’efficacité.
Par contre, concernant la présentation, les produits sont plutôt bien notes.
Les avis sont très moyens voir mauvais sur le rapport qualité/prix. Ceci peut se
justifier que la tenue et l’efficacité n’est pas très appréciée qu’il y a tout de même des
produits un peu chers.
Analyse de la marque Yves Rocher
32
La marque Yves rocher recouvre l’ensemble des 12 catégories, a proportions plus ou
moins égales. Nous remarquons tout de même parmi les 94 produits de cette marque, que
la majorité se regroupe dans les catégories suivantes : Mascaras, Fards à paupières,
Fonds de teint, Lèvres et Ongles.
Yves Rocher est une des marques qui offre une gamme de prix très basse. C’est une
marque bon marché dont les produits sont mieux notes en termes de présentation
qu’en termes de tenue et d’efficacité.
Analyse de la marque Daniel Jouvance
33
La marque Daniel Jouvance ne regroupe que 3 catégories de produits : Mascaras, Fonds
de teint et Lèvres.
Daniel Jouvance propose autant de produits bons marches que des produits chers.
De même, il y a autant de produits mal notes que bien notes au niveau de l’efficacité.
Les avis sont partages sur le plan de la tenue ainsi que sur la présentation.
Analyse de la marque Nivea
34
La marque Nivea regroupe 11 catégories de produits. Parmi les 50 produits de Nivea, la
majorité appartient aux catégories suivantes : Mascaras, Fards à paupières, Fonds de
teint, Lèvres et Ongles.
Nivea est n’offre que des produits a bas prix. Les produits sont globalement mal
notes sur la tenue, et un peu mieux sur l’efficacité et la présentation.
Les avis sur le rapport qualité/prix sont moyens.
Analyse de la marque Gemey-Maybelline
35
La marque parisienne et américaine Gemey-Maybelline regroupe quant à elle 11
catégories, mais la majorité des 90 produits sont regroupés dans les catégories suivantes :
Mascaras, Fards a paupières, Fonds de teint, Lèvres et Ongles.
Avec un prix moyen de ses produits de 7.7 E, Gemey-Maybelline est la marque qui
offre pratiquement des produits à bon marche (82% des produits sont dans la tranche
5-10 E).
Les notations sur la tenue sont moins bonnes que celles sur l’efficacité. En revanche, la
présentation de l’ensemble des produits est mieux notée.
Nous remarquons que les marques Yves Rocher, Nivea et Gemey-Maybelline
possèdent exactement les mêmes catégories qui comportent le plus de produits notés
par les consommatrices. Par ailleurs, les 3 catégories composant la marque Daniel
jouvance font aussi partie de ces catégories qui regroupent le plus de produits.
Nous allons faire un tableau de synthèse regroupant l’analyse des notations qui pourrait
expliquer pour quelles raisons les 7 marques pré étudiées sont les moins bien notées.
Ce deuxième tableau de synthèse confirme notre analyse faite sur les marques du top 8.
En effet, les 2 critères qui semblent être les plus importants pour l’ensemble des
consommatrices sont la présentation et la tenue du produit. Les produits des marques
du groupe vert (Yours, Nivea et Gemey-Maybelline) sont défavorisés surtout au
niveau de la tenue des produits et sont mieux notes au niveau de la présentation. Les
produits des marques du groupe rose sont favorises au niveau de la présentation et sont
défavorisés au niveau du rapport qualité/prix et un peu de la tenue.
Cependant, les grosses différences par rapport aux marques du top 8, c’est la
gamme de prix des produits et la tenue des produits. En effet, nous remarquons une
36
notation moins bonne au niveau de la tenue chez les produits des marques moins
chères.
Les consommatrices sont prêtes à acheter un produit, même s’il est hors de prix, du
moment que ce dernier soit très bien présenté et ait une tenue longue durée.
L’analyse que nous faisons jusqu’ici est bonne et cohérente et ne nous surprend pas. En
effet, nous savons que les grosses compagnies telles que Gemey-Maybelline, Yves
Rocher et Nivea ont une gamme de produits à prix pas très élevé globalement et misent
beaucoup en campagnes marketing pour fidéliser les consommatrices et attirer de
nouvelles cibles (concept de la nature chez Yves Rocher et des stars chez GemeyMaybelline).
Ce n’est pas pareil pour les marques de luxe du top 8 telles que Guerlain, Chanel et Nina
Ricci pour lesquelles les produits sont très bien notés, car ce sont des marques à forte
notoriété. Leur point fort se repose sur la présentation du produit car celle-ci représente
avant tout la marque prestigieuse.
Pour approfondir notre analyse, nous allons travailler avec d’autres méthodes de SODAS.
DSTAT (Elementary Statistics on Symbolic Objects)
La méthode DSTAT de SODAS nous permet d’utiliser des statistiques classiques
étendues aux variables symboliques. Cette application de statistiques évoluées doit nous
permettre de continuer notre apprentissage à partir de la base de données.
DSTAT est donc un ensemble de méthodes permettant de voir sous forme de document
texte ou de graphe les statistiques élémentaires relatives à nos données symboliques.
Cette méthode va nous permettre de préciser et de confirmer les interprétations de la
méthode VIEW.
DSTAT va bien au-delà en nous permettant de regrouper les valeurs de nos variables
symboliques en classes, sous forme d’histogrammes.
Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la
méthode de travail :
-
fréquences relatives pour les variables multimodales
fréquences relatives pour les variables intervalles
capacités et min/max/min pour les variables multimodales probabilistes
biplot pour les variables intervalles
objet central
37
Fréquences relatives pour les variables intervalles
Chaque classe a une longueur de 0.8.
Nous remarquons bien que les marques sont bien notées au niveau de la présentation et
que c’est donc un critère important à prendre en compte. En effet, beaucoup de produits
sont notés entre 3.5 et 5, mais la tranche de notation dominante reste 3.5-4. Par ailleurs,
aucune notation des marques ne descend 2 au niveau de la présentation, contrairement
aux notations sur la tenue et l’efficacité.
Regardons quelles sont les marques qui sont les mieux notées en matière de présentation
et dont la notation des produits n’est pas trop dispersée.
Nous distinguons une marque dont l’ensemble des produits est bien noté : c’est la marque
Lise Watier, qui figure premier dans le top 8 des analyses précédentes.
Un autre groupe de marque est visible : Gemey-Maybelline, Yves Rocher, Nivea, Daniel
Jouvance. Ce sont les marques qui ont des mauvaises notations pour leurs produits, ainsi
que des bonnes. Leur intervalle de notation est large. Ceci n’est pas une surprise car ce
sont les marques qui ont des produits hétéroclites et qui font partie des marques les moins
bien notées.
38
Nous avons jusqu’ici de l’information sur les critères des plus importants des marques les
plus appréciées auprès des consommatrices.
Dans un contexte de marketing, l’élément le plus important pour la vie d’un produit est la
cible. En effet, pour qu’un produit ait du succès, il faut savoir cibler la clientèle pour
maximiser la vente de ce produit. Hors, nous avons note qu’il était important de prendre
en compte le profil des utilisatrices des produits de maquillage.
Nous allons donc travailler avec les mêmes concepts que sont les marques, en joignant
les utilisatrices en tant qu’individus.
Pour ce faire, nous procédons de la même manière qu’au départ, avec la requête SQL
suivante :
Requête 7
Nom de la requête
Formulation SQL
Justification de la
requête
Info_Utilisateur
SELECT T_Utilisateur.compte, T_Marque.libMarque,
T_Utilisateur.typePeau, T_Utilisateur.deshydratation,
T_Utilisateur.age, T_Utilisateur.typeCheveux, T_Utilisateur.nbAvis
FROM Info_Marque, T_Marque INNER JOIN (T_Produit INNER
JOIN (T_Notation INNER JOIN T_Utilisateur ON
T_Notation.compte=T_Utilisateur.compte) ON
T_Produit.idProduit=T_Notation.idproduit) ON
T_Marque.idMarque=T_Produit.idMarque
WHERE ((Info_Marque!libMarque=T_Marque!libMarque));
Cette requête permet d’avoir le profil des utilisatrices qui notent les
différents produits. Nous ne recueillons que les utilisatrices qui ont
donne des avis sur les produits des marques prises en compte dans la
premiere partie de notre analyse (elles sont au nombre de 40).
Création du fichier SDS avec pour individus les utilisatrices
39
Fusion des fichiers SDS
Nous vérifions bien qu’il y a 40 assertions. L’analyse sous SODAS peut donc
commencer.
LA METHODE VIEW (Symbolic Objects Viewer)
Nous allons proceder de la meme maniere que pour les individus de produits, a savoir
analyser les marques les mieux notees et celles qui sont les moins bien notees.
Analyse de la marque Lise Watier
40
Par soucis de clarté, nous avons numéroté les tranches d’âges de la façon suivante :
1.Entre 20 et 25 ans
2.Entre 25 et 30 ans
3.Entre 30 et 35 ans
4.Entre 35 et 40 ans
5.Entre 40 et 45 ans
6.Entre 45 et 50 ans
7.Entre 50 et 55 ans
8.Entre 55 et 60 ans
9.Moins de 20 ans
10.Plus de 60 ans
Nous pouvons avoir un profil des utilisatrices qui consomment les produits de Lise
Watier. 34% des consommatrices des produits de cette marque ont entre 20 et 25 ans et
20% ont entre 25 et 30 ans. Ce sont donc des utilisatrices jeunes. La grande majorité
des consommatrices qui donnent leur avis sur les produits de Lise Watier a une peau
mixte ou bien encore des cheveux colorés. Nous remarquons qu’il y a autant de
consommatrices qui ont une déshydratation faible que moyenne (respectivement 39% et
41%).
Pour avoir une analyse basée sur la comparaison des autres marques, nous allons mettre
toutes les informations dans 2 tableaux, les mêmes que ceux faite pour l’analyse sur les
individus de produits.
Tableau C
41
Tableau D
D’après ces tableaux, la cible dominante est la cible des consommatrices âgées de 20 a 25
ans, de peau mixte, de déshydratation moyenne et ayant des cheveux de type normal ou
bien colore. En effet, de plus en plus de personnes se colorent les cheveux, si bien qu’il y
a autant de consommatrices qui se colorent les cheveux que celles qui ne le font pas.
Avec notre groupement préalable des marques les mieux notées et celles les moins bien
notées, nous remarquons une différence au niveau du type de peau et a la déshydratation
des consommatrices.
Tableau C :
Commençons par les marques les mieux notées : la population est certes en majorité
jeune, mais il y a aussi beaucoup de consommatrices âgées (de 30 a 40 ans). Par ailleurs,
le type de peau de l’ensemble des consommatrices est partagé entre peau mixte et peau
sèche. Ceci pourrait se justifier par le fait qu’avec l’âge, nous avons tendance à être plus
exigeants pour le soin de notre peau car celle-ci évolue. Un conseil serait donc d’élargir
la gamme de produit pour qu’il puisse répondre aux besoins des consommatrices, surtout
pour les marques à forte notoriété.
Par ailleurs, l’âge des consommatrices qui notent les produits de ces marques à forte
notoriété (Tableau C) est plus élevé par rapport a celle du tableau D. Ceci pourrait
s’expliquer par le fait que le niveau de vie est un peu plus élevé en C qu’en D car avec le
salaire de façon générale, croit positivement avec l’âge et les consommatrices avec un
salaire disponible plus élevé, peuvent se permettre d’acheter des produits un peu plus
luxueux que durant leur période d’adolescence (ceci est bien sure une interprétation basée
sur une justification démographique fiable).
Tableau D :
Pour les marques les moins bien notées, le profil des consommatrices qui notent les
produits de ces marques est le suivant : Les consommatrices sont partagées en 3
principales tranches d’âge qui sont celles de moins de 20 ans, celles de 20 à 25 ans et
celles de 25 à 30 ans. C’est donc un profil très jeune, surtout lorsque l’on sait que les
marques telles que Agnès b., Yves Rocher, Nivea et Gemey-Maybelline ont tendance à
attirer un profil assez jeune car les prix de leurs produits leur sont très accessibles.
Le type de peau de la plupart des consommatrices qui ont note les produits est mixte et la
deshydratation est surtout moyenne (suivie d’une tendance a forte deshydratation).
De meme que pour le profil des consommatrices notant les produits de marques C, la
plupart des consommatrices ont les cheveux normaux ou bien colores.
42
DSTAT (Elementary Statistics on Symbolic Objects)
Capacités et min/max/min pour les variables multimodales probabilistes
Cette methode est interessante car confirme ce qui a été analyse precedemment.
Nous voyons bien que la majorité des consommatrices a une peau mixte, suivi du type de
peau sèche. Ici, certaines des marques ont 68% de leurs consommatrices qui ont une peau
de type mixte et pres de 21% ont une peau seche (tendance decelee pour les
consommatrices de marques a forte notoriete).
De même, nous avons également décèle des marques qui comprennent des utilisatrices a
dominante de déshydratation moyenne, mais beaucoup ont aussi des utilisatrices a
déshydratation faible.
43
Comme nous l’avons dit précédemment, les marques comprennent en moyenne en
majorité des consommatrices ayant entre 20 et 25 ans, suivies de celles de moins de 20
ans, puis de celles entre 25 et 30 ans et enfin de celles entre 30 et 35 ans. Pour certaines
marques, près de la moitie des consommatrices ont entre 20 et 25 ans.
Pour les types de cheveux, nous avons ici une information supplémentaire. En effet, nous
remarquons que la moyenne est plus élevée pour les cheveux colores, ce qui signifie que
les marques les plus notées sont prises en compte par des utilisatrices qui se colorent les
cheveux. Ceci reflète la tendance actuelle ou de plus en plus de personnes se colorent les
cheveux. En effet, pour certaines marques, 56% consommatrices ont les cheveux colores,
ce qui fait beaucoup.
44
Synthèse des résultats
Avec les informations recueillies des analyses sur les produits et le profil des
consommatrices par rapport aux marques, nous constatons que les marques sont
appréciées surtout par la présentation et la tenue de leurs produits. Pour les marques qui
proposent des produits très chers telles que Nina Ricci, Chanel et Guerlain, les
consommatrices sont conscientes du prix élevé mais apprécient tout de même les produits
de par leur présentation et de leurs caractéristiques, surtout pour les produits de grandes
marques qui répondent beaucoup aux besoins des consommatrices ayant des spécificités
précises de leur peau et cheveux.
Nous avons également vu que ces marques offrent des produits qui sont en majorité
encore sur le marché (il y a beaucoup plus de produits en fin de commercialisation pour
les marques telles qu’Agnès b, Yves Rocher et Nivea, c’est-à-dire des marques offrant
des produits peu chers), contrairement aux marques qui offrent des produits moins chers,
dont un certain nombre n’est plus en commercialisation. Ceci peut se justifier par le fait
qu’un produit dont le coût de fabrication est peu coûteux est fabriqué avec moins
d’élaborations dessus, car s’il s’avère que si le produit ne se vend pas beaucoup, alors il
la marque le met en fin de commercialisation et en produit un autre. Ce n’est pas pareil
pour un produit cher dont le coût de fabrication est plus élevé, la marque fait au préalable
beaucoup d’études dessus pour s’assurer de son bon fonctionnement sur le marché.
Concernant les marques offrant des produits peu chers tels qu’Yves rocher, Nivea et
Gemey-Maybelline, le profil des consommatrices est une population de femmes plutôt
jeunes qui ont la possibilité de s’offrir des produits d’une gamme de prix bas et qui ont
moins de spécificités requises au niveau de la peau. Bien entendu, ceci est une généralité
mais qui est fondée sur de bonnes analyses.
En ce qui concerne les catégories des produits les plus notées par les consommatrices,
nous avons remarqué que les catégories les plus citées pour les marques à forte notoriété
sont les suivantes :
- Fonds de teint
- Poudres
- Lèvres
Pour les marques offrant des produits peu chers, les catégories les plus citées sont les
suivantes :
- Mascaras
- Fards à paupières
- Fonds de teint
- Lèvres
- Ongles
Cette dernière analyse est intéressante car les 5 dernières catégories font partie des
catégories les moins chères. En effet, le prix d’un vernis à ongles ou d’un mascara est
généralement très inférieur au prix d’une poudre par exemple. Cependant, cela dépend de
la marque du produit, mais nous savons par expérience qu’Yves Rocher ou bien Agnès b
45
propose une multitude de produits de rouge à lèvres, mascaras ou vernis à ongles à prix
bon marché, d’ou la part importante du nombre de ces produits concernant ces telles
marques.
Le seul problème aux analyses faites est que les consommatrices ont fait leurs notations
par le support de l’Internet, hors les utilisateurs d’Internet sont en majorité des jeunes,
donc il ne faut pas baser tous nos résultats même s’ils sont cohérents avec la réalité, que
sur cette étude. Il faudrait pour cela, faire un autre type d’analyse dont le support ne serait
pas basé sur Internet. Cependant, les résultats seraient très proches des analyses que nous
venons de faire.
Conclusion
Une partie importante du data mining est de structurer les données. En effet nous avons
passé beaucoup de temps à la manipulation des donnes (par exemple, choisir les valeurs
des limites des tranches de notation et de prix). En effet, il faut avoir une bonne vision
d’une bonne structure des données en entrée pour ainsi faire une très bonne analyse des
données et retirer les informations des plus intéressantes.
Ce qui a été très enrichissant dans cette étude, ca a été de voir des avis concrets sur des
produits sur le marché des cosmétiques, et de constater que les opinions des différentes
utilisatrices sont réellement corrélées avec l’activité du produit et de sa marque.
Malheureusement, nous n’avions pas plus de données pour plus d’information
intelligente et nouvelle, cependant, notre étude nous a permis de voir le comportement
des consommatrices de ces produits de beauté et de l’expliquer, mais avec plus de
données, nous aurions pu trouver de meilleures pépites!
Par exemple, il aurait été intéressant d’avoir le type de profession des consommatrices.
46