Lancez-vous avec les intégrations GloVe

Nov 27 2022

Souhaitez-vous utiliser les intégrations GloVe dans votre projet ? Les différentes terminologies vous posent problème ? Félicitations! Vous êtes au bon endroit. Remarque : cet article ne traite pas des mathématiques derrière l'intégration GloVe.

Photo de Nick Morrison sur Unsplash

Souhaitez-vous utiliser les intégrations GloVe dans votre projet ? Les différentes terminologies vous posent problème ? Félicitations! Vous êtes au bon endroit.

Remarque : cet article ne traite pas des mathématiques derrière l'intégration GloVe.

Dans cet article, nous apprendrons à utiliser les intégrations GloVe pour transformer toutes les données textuelles en nombres. Nous apprendrons les étapes à l'aide d'un corpus de texte court, puis nous appliquerons ces étapes pour obtenir l'intégration de l'ensemble de données de critiques de films IMDB. Nous utiliserons l'intégration obtenue pour former un classificateur de sentiment binaire sur le même ensemble de données.

Commençons!

Introduction

Il existe une variété d'incorporations de mots GloVe pré-formés disponibles au téléchargement. Vous trouverez plus d'informations sur le corpus de formation des différentes intégrations de gants sur ce site Web. Dans ce didacticiel, nous utiliserons les incorporations de glovestwitter27b50d, qui ont 50 dimensions et ont été formées sur des tweets 2B de Twitter.

L'incorporation est disponible sous forme de fichier texte où chaque ligne a une chaîne contenant un mot et sa représentation vectorielle. Nous allons convertir le contenu de ce fichier texte en dictionnaire.

# Read the text file
glovetwitter27b50d = "pathe_to_glovetwitter27b50d.txt"
file = open(glovetwitter27b50d)
glovetwitter27b50d = file.readlines()


# Convert the text file into a dictionary
def ConvertToEmbeddingDictionary(glovetwitter27b50d):
    embedding_dictionary = {}
    for word_embedding in tqdm(glovetwitter27b50d):
        word_embedding = word_embedding.split()
        word = word_embedding[0]
        embedding = np.array([float(i) for i in word_embedding[1:]])
        embedding_dictionary[word] = embedding
    return embedding_dictionary
embedding_dictionary = ConvertToEmbeddingDictionary(glovetwitter27b50d)

# Let's look at the embedding of the word "hello."
embedding_dictionary['hello']
Output:
array([ 0.28751  ,  0.31323  , -0.29318  ,  0.17199  , -0.69232  ,
       -0.4593   ,  1.3364   ,  0.709    ,  0.12118  ,  0.11476  ,
       -0.48505  , -0.088608 , -3.0154   , -0.54024  , -1.326    ,
        0.39477  ,  0.11755  , -0.17816  , -0.32272  ,  0.21715  ,
        0.043144 , -0.43666  , -0.55857  , -0.47601  , -0.095172 ,
        0.0031934,  0.1192   , -0.23643  ,  1.3234   , -0.45093  ,
       -0.65837  , -0.13865  ,  0.22145  , -0.35806  ,  0.20988  ,
        0.054894 , -0.080322 ,  0.48942  ,  0.19206  ,  0.4556   ,
       -1.642    , -0.83323  , -0.12974  ,  0.96514  , -0.18214  ,
        0.37733  , -0.19622  , -0.12231  , -0.10496  ,  0.45388  ])

sample_corpus = ['The woods are lovely, dark and deep',
                 'But I have promises to keep',   
                 'And miles to go before I sleep', 
                 'And miles to go before I sleep']

# This is the maximum number of tokens we wish to consider from our dataset.
# When there are more tokens, the tokens with the highest frequency are chosen.
max_number_of_words = 5

# Note: Keras tokenizer selects only top n-1 tokens if the num_words is set to n
tokenizer = Tokenizer(num_words=max_number_of_words)
tokenizer.fit_on_texts(sample_corpus)
sample_corpus_tokenized = tokenizer.texts_to_sequences(sample_corpus)
print(tokenizer.word_index)
Output:
{'and': 1, 'i': 2, 'to': 3, 'miles': 4, 'go': 5, 'before': 6, 'sleep': 7, 'the': 8, 'woods': 9, 'are': 10, 'lovely': 11, 'dark': 12, 'deep': 13, 'but': 14, 'have': 15, 'promises': 16, 'keep': 17}
print("But I have promises to keep: ", sample_corpus_tokenized[1])
Output:
But I have promises to keep:  [2, 3]

Maintenant que nous avons choisi un ensemble de jetons dans notre corpus de texte, nous devons développer une matrice d'intégration pour eux. La matrice d'intégration aura des colonnes égales à la dimension de l'intégration et des lignes égales au nombre de jetons .

# Create embedding matrix
total_number_of_words = min(max_number_of_words, len(tokenizer.word_index))
embedding_matrix = np.zeros((total_number_of_words,50))
for word, i in tokenizer.word_index.items():
    if i >= total_number_of_words: break
    if word in embedding_dictionary.keys():
        embedding_vector = embedding_dictionary[word]
        embedding_matrix[i] = embedding_vector

Les réseaux de neurones artificiels et les algorithmes ML ne peuvent pas gérer une longueur variable d'entrées, nous devons donc convertir les intégrations de chaque séquence d'entrée en une taille fixe. Il existe de nombreuses approches pour ce faire, mais la plus simple consiste à additionner l'incorporation de chaque jeton dans une phrase et à normaliser le vecteur.