Scraping Web Python - Traitement du texte
Dans le chapitre précédent, nous avons vu comment gérer les vidéos et les images que nous obtenons dans le cadre du contenu de scraping Web. Dans ce chapitre, nous allons traiter de l'analyse de texte en utilisant la bibliothèque Python et nous en apprendrons davantage à ce sujet.
introduction
Vous pouvez effectuer une analyse de texte en utilisant la bibliothèque Python appelée Natural Language Tool Kit (NLTK). Avant de passer aux concepts de NLTK, comprenons la relation entre l'analyse de texte et le web scraping.
L'analyse des mots dans le texte peut nous amener à savoir quels mots sont importants, quels mots sont inhabituels, comment les mots sont regroupés. Cette analyse facilite la tâche du web scraping.
Premiers pas avec NLTK
La boîte à outils en langage naturel (NLTK) est une collection de bibliothèques Python qui est spécialement conçue pour identifier et baliser des parties de discours trouvées dans le texte d'un langage naturel comme l'anglais.
Installation de NLTK
Vous pouvez utiliser la commande suivante pour installer NLTK en Python -
pip install nltk
Si vous utilisez Anaconda, un package conda pour NLTK peut être créé à l'aide de la commande suivante -
conda install -c anaconda nltk
Téléchargement des données de NLTK
Après avoir installé NLTK, nous devons télécharger des référentiels de texte prédéfinis. Mais avant de télécharger des référentiels de texte prédéfini, nous devons importer NLTK à l'aide deimport commande comme suit -
mport nltk
Maintenant, avec l'aide de la commande suivante, les données NLTK peuvent être téléchargées -
nltk.download()
L'installation de tous les packages disponibles de NLTK prendra un certain temps, mais il est toujours recommandé d'installer tous les packages.
Installation d'autres packages nécessaires
Nous avons également besoin d'autres packages Python comme gensim et pattern pour faire l'analyse de texte ainsi que pour construire des applications de traitement du langage naturel en utilisant NLTK.
gensim- Une bibliothèque de modélisation sémantique robuste, utile pour de nombreuses applications. Il peut être installé par la commande suivante -
pip install gensim
pattern - Utilisé pour faire gensimle package fonctionne correctement. Il peut être installé par la commande suivante -
pip install pattern
Tokenisation
Le processus de décomposition du texte donné, en unités plus petites appelées jetons, est appelé tokenisation. Ces jetons peuvent être des mots, des chiffres ou des signes de ponctuation. Il est également appeléword segmentation.
Exemple
Le module NLTK fournit différents packages pour la tokenisation. Nous pouvons utiliser ces packages selon nos besoins. Certains des packages sont décrits ici -
sent_tokenize package- Ce package divisera le texte d'entrée en phrases. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.tokenize import sent_tokenize
word_tokenize package- Ce package divisera le texte d'entrée en mots. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.tokenize import word_tokenize
WordPunctTokenizer package- Ce package divisera le texte d'entrée ainsi que les signes de ponctuation en mots. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.tokenize import WordPuncttokenizer
Tige
Dans n'importe quelle langue, il existe différentes formes de mots. Une langue comprend de nombreuses variations pour des raisons grammaticales. Par exemple, considérons les motsdemocracy, democratic, et democratization. Pour l'apprentissage automatique ainsi que pour les projets de web scraping, il est important que les machines comprennent que ces différents mots ont la même forme de base. On peut donc dire qu'il peut être utile d'extraire les formes de base des mots tout en analysant le texte.
Ceci peut être réalisé par la dérivation qui peut être définie comme le processus heuristique d'extraction des formes de base des mots en coupant les extrémités des mots.
Le module NLTK fournit différents packages pour la création de racines. Nous pouvons utiliser ces packages selon nos besoins. Certains de ces packages sont décrits ici -
PorterStemmer package- L'algorithme de Porter est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.stem.porter import PorterStemmer
Par exemple, après avoir donné le mot ‘writing’ comme entrée de cette racine, la sortie serait le mot ‘write’ après la tige.
LancasterStemmer package- L'algorithme de Lancaster est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.stem.lancaster import LancasterStemmer
Par exemple, après avoir donné le mot ‘writing’ comme entrée de cette racine, la sortie serait le mot ‘writ’ après la tige.
SnowballStemmer package- L'algorithme de Snowball est utilisé par ce package de dérivation Python pour extraire la forme de base. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.stem.snowball import SnowballStemmer
Par exemple, après avoir donné le mot «écriture» comme entrée de ce radical, la sortie serait le mot «écriture» après le radical.
Lemmatisation
Une autre façon d'extraire la forme de base des mots est la lemmatisation, visant normalement à supprimer les terminaisons flexionnelles en utilisant le vocabulaire et l'analyse morphologique. La forme de base de tout mot après la lemmatisation est appelée lemme.
Le module NLTK fournit les packages suivants pour la lemmatisation -
WordNetLemmatizer package- Il extraira la forme de base du mot selon qu'il est utilisé comme nom comme verbe. Vous pouvez utiliser la commande suivante pour importer ce package -
from nltk.stem import WordNetLemmatizer
Regrouper
La segmentation, qui consiste à diviser les données en petits morceaux, est l'un des processus importants du traitement du langage naturel pour identifier les parties du discours et les phrases courtes comme les phrases nominales. La segmentation consiste à étiqueter les jetons. Nous pouvons obtenir la structure de la phrase à l'aide d'un processus de segmentation.
Exemple
Dans cet exemple, nous allons implémenter la segmentation Noun-Phrase en utilisant le module NLTK Python. Le chunking NP est une catégorie de chunking qui trouvera les morceaux de phrases nominales dans la phrase.
Étapes de mise en œuvre du segmentation des phrases nominales
Nous devons suivre les étapes ci-dessous pour implémenter la segmentation des phrases nominales -
Étape 1 - Définition de la grammaire des blocs
Dans un premier temps, nous définirons la grammaire du découpage. Il comprendrait les règles que nous devons suivre.
Étape 2 - Création de l'analyseur de blocs
Maintenant, nous allons créer un analyseur de blocs. Il analyserait la grammaire et donnerait la sortie.
Étape 3 - La sortie
Dans cette dernière étape, la sortie serait produite dans un format arborescent.
Tout d'abord, nous devons importer le package NLTK comme suit -
import nltk
Ensuite, nous devons définir la phrase. Ici DT: le déterminant, VBP: le verbe, JJ: l'adjectif, IN: la préposition et NN: le nom.
sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]
Ensuite, nous donnons la grammaire sous forme d'expression régulière.
grammar = "NP:{<DT>?<JJ>*<NN>}"
Maintenant, la prochaine ligne de code définira un analyseur pour analyser la grammaire.
parser_chunking = nltk.RegexpParser(grammar)
Maintenant, l'analyseur analysera la phrase.
parser_chunking.parse(sentence)
Ensuite, nous donnons notre sortie dans la variable.
Output = parser_chunking.parse(sentence)
Avec l'aide du code suivant, nous pouvons dessiner notre sortie sous la forme d'un arbre comme indiqué ci-dessous.
output.draw()
Modèle Bag of Word (BoW) Extraction et conversion du texte sous forme numérique
Bag of Word (BoW), un modèle utile dans le traitement du langage naturel, est essentiellement utilisé pour extraire les fonctionnalités du texte. Après avoir extrait les fonctionnalités du texte, il peut être utilisé dans la modélisation d'algorithmes d'apprentissage automatique car les données brutes ne peuvent pas être utilisées dans les applications ML.
Fonctionnement du modèle BoW
Au départ, le modèle extrait un vocabulaire de tous les mots du document. Plus tard, en utilisant une matrice de termes de document, il construirait un modèle. De cette manière, le modèle BoW représente le document comme un sac de mots uniquement et l'ordre ou la structure est rejeté.
Exemple
Supposons que nous ayons les deux phrases suivantes -
Sentence1 - Ceci est un exemple du modèle Bag of Words.
Sentence2 - Nous pouvons extraire des fonctionnalités en utilisant le modèle Bag of Words.
Maintenant, en considérant ces deux phrases, nous avons les 14 mots distincts suivants -
- This
- is
- an
- example
- bag
- of
- words
- model
- we
- can
- extract
- features
- by
- using
Construire un modèle de sac de mots en NLTK
Examinons le script Python suivant qui construira un modèle BoW en NLTK.
Tout d'abord, importez le package suivant -
from sklearn.feature_extraction.text import CountVectorizer
Ensuite, définissez l'ensemble des phrases -
Sentences=['This is an example of Bag of Words model.', ' We can extract
features by using Bag of Words model.']
vector_count = CountVectorizer()
features_text = vector_count.fit_transform(Sentences).todense()
print(vector_count.vocabulary_)
Production
Cela montre que nous avons 14 mots distincts dans les deux phrases ci-dessus -
{
'this': 10, 'is': 7, 'an': 0, 'example': 4, 'of': 9,
'bag': 1, 'words': 13, 'model': 8, 'we': 12, 'can': 3,
'extract': 5, 'features': 6, 'by': 2, 'using':11
}
Modélisation de sujets: identification des modèles dans les données texte
En règle générale, les documents sont regroupés en sujets et la modélisation de sujets est une technique permettant d'identifier les modèles dans un texte qui correspond à un sujet particulier. En d'autres termes, la modélisation de sujets est utilisée pour découvrir des thèmes abstraits ou une structure cachée dans un ensemble donné de documents.
Vous pouvez utiliser la modélisation de sujets dans les scénarios suivants -
Classification du texte
La classification peut être améliorée par la modélisation de sujets, car elle regroupe des mots similaires plutôt que d'utiliser chaque mot séparément comme fonction.
Systèmes de recommandation
Nous pouvons créer des systèmes de recommandation en utilisant des mesures de similarité.
Algorithmes de modélisation de sujet
Nous pouvons implémenter la modélisation de sujets en utilisant les algorithmes suivants -
Latent Dirichlet Allocation(LDA) - C'est l'un des algorithmes les plus populaires qui utilise les modèles graphiques probabilistes pour implémenter la modélisation thématique.
Latent Semantic Analysis(LDA) or Latent Semantic Indexing(LSI) - Il est basé sur l'algèbre linéaire et utilise le concept de SVD (Singular Value Decomposition) sur la matrice des termes du document.
Non-Negative Matrix Factorization (NMF) - Il est également basé sur l'algèbre linéaire comme LDA.
Les algorithmes mentionnés ci-dessus auraient les éléments suivants -
- Nombre de sujets: Paramètre
- Matrice document-mot: entrée
- WTM (Word Topic Matrix) et TDM (Topic Document Matrix): sortie