Trois approches en analyse de texte Introduction aux logiciels de
Transcription
Trois approches en analyse de texte Introduction aux logiciels de
Trois approches en analyse de texte
L'Analyse Qualitative
L'analyse de Contenu Quantitative (par dictionnaires)
Le forage de texte ("Text Mining")
Introduction aux logiciels de Provalis Research
QDA Miner 4.1
Introduction et gestion de projets
Gestion du livre de codes et codage manuel
Fonctions de sauvegarde et outils de recherche de texte
Fréquence de codage et récupération de codage
Cooccurrence de codes et analyse de similarité des cas
Évaluer les liens entre codage et les données structurées (variables)
Introduction au gestionnaire de rapport et au journal de commandes
Le travail d'équipe et le calcul d'accord inter-juges
Fonctions diverses
WordStat 6.1
Analyse de contenu et forage de texte
Analyser les documents sans dictionnaire - une approche exploratoire
L'analyse de contenu - principes de construction d'un dictionnaire (ou taxonomie)
Importer et exporter les données
Introduction à la classification automatique de documents
QDA Miner 4.1
PARTIE #1 - Introduction et gestion de projets
Introduction à l'analyse qualitative assistée par ordinateur avec QDA Miner 4.1
La structure de projet CAS x VARIABLES
L'approche méthodes mixtes
Survol de l'environnement de travail
Les quatre fenêtres - CAS, VARIABLES, CODES, et DOCUMENT
Le système de menu
Créer un nouveau projet
à partir d'une liste de document
à partir d'un fichier de données
Créer une structure de projet sans données
Introduction à l'assistant de conversion de documents
Customiser et personnaliser le projet
Le dialogue PROJET | PROPRIÉTÉES
La commande PROJET | NOTES
Manipuler les variables
Ajouter une variable - VARIABLES | AJOUTER
Effacer une variable - VARIABLES | EFFACER
Changer le type de données d'une variable - VARIABLES | TRANSFORMER
Recoder les valeurs d'une variable - VARIABLES | TRANSFORMER | RECODER
Réordonner les variables - VARIABLES | RÉORDONNER
Changer les propriétés des variables - VARIABLES | PROPRIÉTÉS
Manipuler les cas
Ajouter un nouveau cas - CAS | AJOUTER
Effacer un case - CAS | EFFACER
Importer de nouveaux documents dans des nouveaux cas - CAS | AJOUTER DOCUMENTS/IMAGES
Changer l'ordre, le groupement, et la description des cas - CAS | GROUPEMENT / DESCRIPTION
Exercice #1
QDA Miner 4.1
PARTIE #2 - La gestion du livre de code et le codage manuel
Créer des codes and gérer le livre de codes
Créer des codes et des catégories - CODES | AJOUTER
Modifier un code existant - CODES | ÉDITER
Effacer un code existant - CODES | EFFACER
Déplacer un code dans le livre de code
Fusionner des codes dans le livre de code - CODES | FUSIONNER DANS...
Diviser un code en plusieurs codes - CODES | DIVISER LE CODE
Exporter et importer un livre de codes - CODES | EXPORTER et CODES | IMPORTER
Le codage manuel des documents (versus autocodage)
Les quatre méthodes de base pour assigner un code à un segment de texte:
1. Sélectionner le segment et glisser le code sur le segment
2. Sélectionner le segment et double-cliquer sur le code
3. Sélectionner le segment et sélectionner le code sur la barre de codage
4. Glisser et déposer le code sur un paragraphe (ou sur une phrase avec le bouton ALT)
Assignation de multiples codes au même segment (avec le bouton CTRL)
Modifier le codage
Travailler avec les marques de codes
Voir les informations sur le codage
Ajouter un commentaire à un codage Supprimer un codage -
COMMENTAIRE
ENLEVER LE CODAGE
Changer le code associé à un segment de texte Redimensionner un segment -
RECODER
REDIMENSIONNER
Consolider le codage - CODES | CONSOLIDER
Combiner les codes - CODES | COMBINER
Chercher et remplace les codes - CODES | CHERCHER & REMPLACER
Dissimuler les marques de codes - CODES | DISSIMULER LE CODAGE
Surligner les segments codées - DOCUMENT | TEXTE CODÉ
Exercice #2
QDA Miner 4.1
PARTIE #3 - Fonction de sauvegarde et outils de recherche de texte
Utilisation de la fonction de sauvegarde
Créer une sauvegarde - MAINTENANCE | SAUVEGARDE | CRÉER
Récupérer une version sauvegardée d'un projet - MAINTENANCE | SAUVEGARDE | RÉCUPÉRER
Ajuster la sauvegarde automatique de projet
Les outils de recherche de texte (4)
1. Recherche de texte - RECHERCHE | RECHERCHE DE TEXTE
Exécuter une requête de texte simple
Exécuter une requête complexe avec opérateurs booléens et caractères génériques ("wildcard")
Exécuter une requête par thésaurus
Utilisation du tableau de résultats
Codage manuel, autocodage, et tableau de codage interactif
Sauvegarde et impression du tableau de résultats
2. Récupérer et coder des sections d'un document structuré - RECHERCHE | RECHERCHE DE SECTIONS
3. La requête par exemple - RECHERCHE | RECHERCHE PAR EXEMPLE
Trouver des extraits de texte similaires à une segment de texte
Améliorer les résultats de recherche au moyen de feedback sur la pertinence des résultats
Trouver des extraits de texte similaires à un ensemble de segments codés
Effectuer une recherche avec une technique d'appariement partiel
4. Exécuter une recherche par mots-clés
Assigner des mots clés et phrases clés aux codes
Exécuter une recherche par mots-clés sur les
Effectuer une recherche par mots-clés à partir de dictionnaires WordStat
Exercice #3
Supplément: Présentation de l'extraction par grappe et de la recherche par similarité de codes
QDA Miner 4.1
PARTIE #4 - Fréquence de codes et Récupération des segments codés
Fréquence de codes
Création d'un tableau de fréquence de l'ensemble des codes - ANALYSER | FRÉQUENCE DE CODAGES
Création de graphiques (diagramme à barres, circulaire ou nuage de mots)
Customiser les graphiques
Récupération des segments codés
Exécuter une recherche simple de codage simple - RECHERCHE | RECHERCHE DE CODAGE
Exécuter une recherche avancée (opérateurs booléen, de chevauchement et de proximité)
Création d'un rapport sous forme de document
Création d'un nouveau projet à partir de segments codés
Un raccourci pour une requête simple -
Sauvegarder et récupérer les requêtes
Récupérer une liste de commentaires
Exercice #4
CHERCHER LES SEGMENTS
QDA Miner 4.1
PARTIE #5 - Cooccurrence de codes et analyse de similarité des cas
Analyser la cooccurrence des codes - ANALYSES | COOCCURRENCE DES CODES
Groupement hiérarchique des codes
Positionnement multidimensionnel en 2D et 3D
Utilisation du graphe de proximité
Analyser la similarité des cas (segmentation) - ANALYSES | SIMILARITÉ DES CAS
Analyser les séquences de codes - ANALYSES | SÉQUENCES DE CODES
Sélection des codes et ajustement des distances minimale et maximale
Utilisation de la matrice de séquences
Recherche et codes de séquences spécifiques
Exercice #5
QDA Miner 4.1
PARTIE #6 - Évaluer les liens entre codage et les données structurées (variables)
Analyse du codage par variables - ANALYSES | CODAGE PAR VARIABLE
Croiser la fréquence des codes par variable
Ajuster le contenu et le format du tableau croisé
Calcul de corrélations et de statistiques de comparaison
Comparer les fréquences à l'aide de diagrammes à barres et de diagrammes linéaires
Création d'un diagramme à bulles
Créer et interpréter les graphes de correspondance et 2D et 3D
Créer et interpréter les cartes thermiques
Un survol des fonctions de codage d'images
Exercice #6
QDA Miner 4.1
PARTIE #7 - Utiliser le gestionnaire de rapports et le journal de commandes
Utilisation du gestionnaire de rapports
Accéder au gestionnaire de rapport - PROJET | GESTIONNAIRE DE RAPPORTS
Présentation de l'interface
Ajouter des tableaux, des graphes et des citations
Déplacer et organiser les items à l'aide de la table des matières
Éditer les items existants et ajouter des commentaires
Ajouter des nouveaux documents vides ou des dossiers
Effacer des items
Importer des documents, des fichiers graphiques ou des tableaux
Fonction de recherche de texte et de remplacement
Exportation des résultats vers un fichier HTML, Word ou RTF.
Utilisation du journal des opérations
Introduction au journal des opération - PROJET | JOURNAL DES OPÉRATIONS
Filtrer les entrées du journal
Ajouter des commentaires à une entrée du journal
Défaire une opération passée
Répéter une opération passée
Exporter le journal des opérations sur disque
Exercice #7
QDA Miner 4.1
PARTIE #8 - Le travail en équipe
Préparer un projet pour le travail en équipe - PROJET | TRAVAIL D'ÉQUIPE
Créer des comptes usager et ajuster les privilèges
Forcer les codeurs à se connecter (nom d'usager + mot de passe)
Duplication du projet
Distribution du projet par courriel
Fusion des projets et analyse de l'accord inter-juges
Fusion de projets (deux ou plus)
Planifier le travail d'équipe pour l'établissement d'un accord inter-juges
Ajuster les couleurs des marques de codes
Calcul du niveau d'accord - ANALYSES | ACCORD INTER-JUGES
Les défis associés au livre de code et à la segmentation des textes
Les quatre niveaux d'accord
1. Présence ou absence (0 ou 1)
2. Fréquence (0, 1, 2, etc.)
3. La couverture des codes (% de mots)
4. Le chevauchement des codes
Corriger (ou non) pour l'accord inter-juge.
Identifier les sources de désaccord
Exercice #8
QDA Miner 4.1
PART 9 - Fonctions diverses
L'exportation des données
Exportation du projet
Exportation des documents
Exportation des statistiques de codage
Exportation des segments codées (restructuration de projets)
Autres fonctions
Transformation du codage en variables numérique, alphanumérique, ou nominales
Effacer l'ensemble du codage
Récupérer les codes isolés
Impression du livre de code
Création d'hyperliens
Fonctions de géocodage et de codage temporel
Geocodage et création de cartes dynamiques et de frises chronologiques
WordStat 6.1
PARTIE #1 - Analyse de texte exploratoire ("Text Mining")
Introduction à l'analyse de texte
Les trois grands défis de l'analyse de texte :
1. La grande quantité des formes de mots
2. La polymorphie du langage
3. La polysémie des mots
Un quatrième défi: les fautes d'orthographe
Analyse de contenu ou forage de texte?
Exécuter WordStat à partir de QDA Miner ou Simstat
Analyse des mots sans dictionnaire - une approche de forage de texte ("text mining")
Traitement et prétraitement
La préparation des données textuelles - fautes d'orthographe et caractères de contrôle
Production d'un tableau de fréquence pour tous les mots du corpus
La liste d'exclusion - à utiliser avec précaution
Le racinage et la lemmatisation - les avantages et les inconvénients
Établissement de seuils de fréquences (plancher et plafond)
Autres options utiles :
o Les caractères numériques et autres caractères non-alphabétiques ($, @, #, %, -, etc.)
o Utilisation des accolades et des crochets
o L'échantillonnage au hasard
o Espace de travail en mémoire ou sur disque?
o Les données manquantes
Identification des thèmes à l'aide de l'analyse des cooccurrences de mots
Mesures de proximité et groupement hiérarchique des mots
Graphe de proximité
Groupement hiérarchique des documents en fonction de leur contenu
Analyse de corrélation et de comparaison de l'usage des mots
Exécuter des croisements et calculer des statistiques
Comparer les mots selon la source (variable catégorielle, numérique, ou date)
Analyse des correspondances et carte thermique
Exploration à partir des segments répétés (expressions, syntagmes, etc.)
Extraction des segments répétés
Analyse de cooccurrences et de correspondances
WordStat 6.1
PART 2 - L'analyse de contenu - Principes de construction de dictionnaires
Introduction à la création de dictionnaires de catégorisation de WordStat
Structures et fonctions des dictionnaires de catégorisation (contenu manifeste et latent) - quelques exemples
Ouvrir, sauvegarder et créer un dictionnaire de catégorisation
Création manuelle de catégories de mots et d'expressions
Extraction des segments répétés (expressions & syntagmes)
Extraction d'éléments - identification des termes techniques, des noms propres (personnes, lieux, produits)
Identification des synonymes, antonymes, mots associés et mots de même racine
Identification et traitement des fautes d'orthographe
Application d'un dictionnaire de catégorisation
Ajustement du niveau d'analyse
Sélection manuelle des catégories à analyser
Combiner les catégories d'un dictionnaire et les mots fréquents
Validation du dictionnaire
Concepts de faux positifs et faux négatifs ("précision" versus "rappel")
Identification des faux positifs à l'aide de la fonction "Mots clés en contexte"
L'ordre d'évaluation de WordStat - comment l'utiliser à votre avantage
Méthodes de désambigüisation
o Désambigüisation manuelle
o Désambigüisation par les segments répétés
o Désambigüisation par règles de proximité
o Désambigüisation statistique
Création de dictionnaires plus complets au moyen du bouton SUGGÉRER
Identification des faux négatifs par la fonction "recherche de mots-clés"
WordStat 6.1
PART 3 - Fonctions avancées
Importation et exportation
Exportation de données de fréquences
Exportation de modèles de catégorisation
Création et utilisation de données normatives
Intégration de QDA Miner et WordStat
Utilisation des dictionnaires de catégorisation dans QDA Miner
Contrôler le traitement automatique par le codage manuel
De la codification automatique avec révision manuelle
De la codification manuelle à la codification automatique
La classification automatique de documents
Introduction à la classification automatique de documents
L'approche "bag of words" et les techniques de classification Naïve Bayes et des "proches voisins"
Méthodes de sélection des items
Évaluer les modèles de classification: statistiques et matrice de confusions
Utilisation de la fonction EXPÉRIMENTATION pour l'optimisation des modèles de classification
Exporter et appliquer les modèles de classification:
o à l'intérieur de WordStat
o à partir du Document Classifier
o à partir de QDA Miner