Scraping Web Python - Traitement du texte

Dans le chapitre précédent, nous avons vu comment gérer les vidéos et les images que nous obtenons dans le cadre du contenu de scraping Web. Dans ce chapitre, nous allons traiter de l'analyse de texte en utilisant la bibliothèque Python et nous en apprendrons davantage à ce sujet.

introduction

Vous pouvez effectuer une analyse de texte en utilisant la bibliothèque Python appelée Natural Language Tool Kit (NLTK). Avant de passer aux concepts de NLTK, comprenons la relation entre l'analyse de texte et le web scraping.

L'analyse des mots dans le texte peut nous amener à savoir quels mots sont importants, quels mots sont inhabituels, comment les mots sont regroupés. Cette analyse facilite la tâche du web scraping.

Premiers pas avec NLTK

La boîte à outils en langage naturel (NLTK) est une collection de bibliothèques Python qui est spécialement conçue pour identifier et baliser des parties de discours trouvées dans le texte d'un langage naturel comme l'anglais.

Installation de NLTK

Vous pouvez utiliser la commande suivante pour installer NLTK en Python -

pip install nltk

Si vous utilisez Anaconda, un package conda pour NLTK peut être créé à l'aide de la commande suivante -

conda install -c anaconda nltk

Téléchargement des données de NLTK

Après avoir installé NLTK, nous devons télécharger des référentiels de texte prédéfinis. Mais avant de télécharger des référentiels de texte prédéfini, nous devons importer NLTK à l'aide deimport commande comme suit -

mport nltk

Maintenant, avec l'aide de la commande suivante, les données NLTK peuvent être téléchargées -

nltk.download()

L'installation de tous les packages disponibles de NLTK prendra un certain temps, mais il est toujours recommandé d'installer tous les packages.

Installation d'autres packages nécessaires

Nous avons également besoin d'autres packages Python comme gensim et pattern pour faire l'analyse de texte ainsi que pour construire des applications de traitement du langage naturel en utilisant NLTK.

gensim- Une bibliothèque de modélisation sémantique robuste, utile pour de nombreuses applications. Il peut être installé par la commande suivante -

pip install gensim

pattern - Utilisé pour faire gensimle package fonctionne correctement. Il peut être installé par la commande suivante -

pip install pattern

Tokenisation

Le processus de décomposition du texte donné, en unités plus petites appelées jetons, est appelé tokenisation. Ces jetons peuvent être des mots, des chiffres ou des signes de ponctuation. Il est également appeléword segmentation.

Exemple

Le module NLTK fournit différents packages pour la tokenisation. Nous pouvons utiliser ces packages selon nos besoins. Certains des packages sont décrits ici -

sent_tokenize package- Ce package divisera le texte d'entrée en phrases. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.tokenize import sent_tokenize

word_tokenize package- Ce package divisera le texte d'entrée en mots. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.tokenize import word_tokenize

WordPunctTokenizer package- Ce package divisera le texte d'entrée ainsi que les signes de ponctuation en mots. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.tokenize import WordPuncttokenizer

Tige

Dans n'importe quelle langue, il existe différentes formes de mots. Une langue comprend de nombreuses variations pour des raisons grammaticales. Par exemple, considérons les motsdemocracy, democratic, et democratization. Pour l'apprentissage automatique ainsi que pour les projets de web scraping, il est important que les machines comprennent que ces différents mots ont la même forme de base. On peut donc dire qu'il peut être utile d'extraire les formes de base des mots tout en analysant le texte.

Ceci peut être réalisé par la dérivation qui peut être définie comme le processus heuristique d'extraction des formes de base des mots en coupant les extrémités des mots.

Le module NLTK fournit différents packages pour la création de racines. Nous pouvons utiliser ces packages selon nos besoins. Certains de ces packages sont décrits ici -

PorterStemmer package- L'algorithme de Porter est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.stem.porter import PorterStemmer

Par exemple, après avoir donné le mot ‘writing’ comme entrée de cette racine, la sortie serait le mot ‘write’ après la tige.

LancasterStemmer package- L'algorithme de Lancaster est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.stem.lancaster import LancasterStemmer

Par exemple, après avoir donné le mot ‘writing’ comme entrée de cette racine, la sortie serait le mot ‘writ’ après la tige.

SnowballStemmer package- L'algorithme de Snowball est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.stem.snowball import SnowballStemmer

Par exemple, après avoir donné le mot «écriture» comme entrée de ce radical, la sortie serait le mot «écriture» après le radical.

Lemmatisation

Une autre façon d'extraire la forme de base des mots est la lemmatisation, visant normalement à supprimer les terminaisons flexionnelles en utilisant le vocabulaire et l'analyse morphologique. La forme de base de tout mot après la lemmatisation est appelée lemme.

Le module NLTK fournit les packages suivants pour la lemmatisation -

WordNetLemmatizer package- Il extraira la forme de base du mot selon qu'il est utilisé comme nom comme verbe. Vous pouvez utiliser la commande suivante pour importer ce package -

from nltk.stem import WordNetLemmatizer

Regrouper

La segmentation, qui consiste à diviser les données en petits morceaux, est l'un des processus importants du traitement du langage naturel pour identifier les parties du discours et les phrases courtes comme les phrases nominales. La segmentation consiste à étiqueter les jetons. Nous pouvons obtenir la structure de la phrase à l'aide d'un processus de segmentation.

Exemple

Dans cet exemple, nous allons implémenter la segmentation Noun-Phrase en utilisant le module NLTK Python. Le chunking NP est une catégorie de chunking qui trouvera les morceaux de phrases nominales dans la phrase.

Étapes de mise en œuvre du segmentation des phrases nominales

Nous devons suivre les étapes ci-dessous pour implémenter la segmentation des phrases nominales -

Étape 1 - Définition de la grammaire des blocs

Dans un premier temps, nous définirons la grammaire du découpage. Il comprendrait les règles que nous devons suivre.

Étape 2 - Création de l'analyseur de blocs

Maintenant, nous allons créer un analyseur de blocs. Il analyserait la grammaire et donnerait la sortie.

Étape 3 - La sortie

Dans cette dernière étape, la sortie serait produite dans un format arborescent.

Tout d'abord, nous devons importer le package NLTK comme suit -

import nltk

Ensuite, nous devons définir la phrase. Ici DT: le déterminant, VBP: le verbe, JJ: l'adjectif, IN: la préposition et NN: le nom.

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Ensuite, nous donnons la grammaire sous forme d'expression régulière.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Maintenant, la prochaine ligne de code définira un analyseur pour analyser la grammaire.

parser_chunking = nltk.RegexpParser(grammar)

Maintenant, l'analyseur analysera la phrase.

parser_chunking.parse(sentence)

Ensuite, nous donnons notre sortie dans la variable.

Output = parser_chunking.parse(sentence)

Avec l'aide du code suivant, nous pouvons dessiner notre sortie sous la forme d'un arbre comme indiqué ci-dessous.

output.draw()

Modèle Bag of Word (BoW) Extraction et conversion du texte sous forme numérique

Bag of Word (BoW), un modèle utile dans le traitement du langage naturel, est essentiellement utilisé pour extraire les fonctionnalités du texte. Après avoir extrait les fonctionnalités du texte, il peut être utilisé dans la modélisation d'algorithmes d'apprentissage automatique car les données brutes ne peuvent pas être utilisées dans les applications ML.

Fonctionnement du modèle BoW

Au départ, le modèle extrait un vocabulaire de tous les mots du document. Plus tard, en utilisant une matrice de termes de document, il construirait un modèle. De cette manière, le modèle BoW représente le document comme un sac de mots uniquement et l'ordre ou la structure est rejeté.

Exemple

Supposons que nous ayons les deux phrases suivantes -

Sentence1 - Ceci est un exemple du modèle Bag of Words.

Sentence2 - Nous pouvons extraire des fonctionnalités en utilisant le modèle Bag of Words.

Maintenant, en considérant ces deux phrases, nous avons les 14 mots distincts suivants -

  • This
  • is
  • an
  • example
  • bag
  • of
  • words
  • model
  • we
  • can
  • extract
  • features
  • by
  • using

Construire un modèle de sac de mots en NLTK

Examinons le script Python suivant qui construira un modèle BoW en NLTK.

Tout d'abord, importez le package suivant -

from sklearn.feature_extraction.text import CountVectorizer

Ensuite, définissez l'ensemble des phrases -

Sentences=['This is an example of Bag of Words model.', ' We can extract
   features by using Bag of Words model.']
   vector_count = CountVectorizer()
   features_text = vector_count.fit_transform(Sentences).todense()
   print(vector_count.vocabulary_)

Production

Cela montre que nous avons 14 mots distincts dans les deux phrases ci-dessus -

{
   'this': 10, 'is': 7, 'an': 0, 'example': 4, 'of': 9, 
   'bag': 1, 'words': 13, 'model': 8, 'we': 12, 'can': 3, 
   'extract': 5, 'features': 6, 'by': 2, 'using':11
}

Modélisation de sujets: identification des modèles dans les données texte

En règle générale, les documents sont regroupés en sujets et la modélisation de sujets est une technique permettant d'identifier les modèles dans un texte qui correspond à un sujet particulier. En d'autres termes, la modélisation de sujets est utilisée pour découvrir des thèmes abstraits ou une structure cachée dans un ensemble donné de documents.

Vous pouvez utiliser la modélisation de sujets dans les scénarios suivants -

Classification du texte

La classification peut être améliorée par la modélisation de sujets, car elle regroupe des mots similaires plutôt que d'utiliser chaque mot séparément comme fonction.

Systèmes de recommandation

Nous pouvons créer des systèmes de recommandation en utilisant des mesures de similarité.

Algorithmes de modélisation de sujet

Nous pouvons implémenter la modélisation de sujets en utilisant les algorithmes suivants -

Latent Dirichlet Allocation(LDA) - C'est l'un des algorithmes les plus populaires qui utilise les modèles graphiques probabilistes pour implémenter la modélisation thématique.

Latent Semantic Analysis(LDA) or Latent Semantic Indexing(LSI) - Il est basé sur l'algèbre linéaire et utilise le concept de SVD (Singular Value Decomposition) sur la matrice des termes du document.

Non-Negative Matrix Factorization (NMF) - Il est également basé sur l'algèbre linéaire comme LDA.

Les algorithmes mentionnés ci-dessus auraient les éléments suivants -

  • Nombre de sujets: Paramètre
  • Matrice document-mot: entrée
  • WTM (Word Topic Matrix) et TDM (Topic Document Matrix): sortie