Póngase en marcha con las incrustaciones de GloVe

Nov 27 2022

¿Quiere utilizar incrustaciones de GloVe en su proyecto? ¿Le están dando problemas varias terminologías? ¡Felicitaciones! Estás en el lugar correcto. Nota: este artículo no analiza las matemáticas detrás de la incrustación de GloVe.

Foto de Nick Morrison en Unsplash

¿Quiere utilizar incrustaciones de GloVe en su proyecto? ¿Le están dando problemas varias terminologías? ¡Felicitaciones! Estás en el lugar correcto.

Nota: este artículo no analiza las matemáticas detrás de la incrustación de GloVe.

En este artículo, aprenderemos cómo usar las incrustaciones de GloVe para transformar cualquier dato de texto en números. Aprenderemos los pasos utilizando un corpus de texto corto y luego aplicaremos esos pasos para obtener la incrustación del conjunto de datos de reseñas de películas de IMDB. Usaremos la incrustación obtenida para entrenar un clasificador de sentimiento binario en el mismo conjunto de datos.

¡Empecemos!

Introducción

Hay una variedad de incrustaciones de palabras GloVe preentrenadas disponibles para descargar. Puede encontrar más información sobre el corpus de entrenamiento de diferentes incrustaciones de guantes en este sitio web. En este tutorial, utilizaremos las incrustaciones de guantetwitter27b50d, que tienen 50 dimensiones y se entrenaron en tweets 2B de Twitter.

La incrustación está disponible como un archivo de texto donde cada línea tiene una cadena que contiene una palabra y su representación vectorial. Convertiremos el contenido de este archivo de texto en un diccionario.

# Read the text file
glovetwitter27b50d = "pathe_to_glovetwitter27b50d.txt"
file = open(glovetwitter27b50d)
glovetwitter27b50d = file.readlines()


# Convert the text file into a dictionary
def ConvertToEmbeddingDictionary(glovetwitter27b50d):
    embedding_dictionary = {}
    for word_embedding in tqdm(glovetwitter27b50d):
        word_embedding = word_embedding.split()
        word = word_embedding[0]
        embedding = np.array([float(i) for i in word_embedding[1:]])
        embedding_dictionary[word] = embedding
    return embedding_dictionary
embedding_dictionary = ConvertToEmbeddingDictionary(glovetwitter27b50d)

# Let's look at the embedding of the word "hello."
embedding_dictionary['hello']
Output:
array([ 0.28751  ,  0.31323  , -0.29318  ,  0.17199  , -0.69232  ,
       -0.4593   ,  1.3364   ,  0.709    ,  0.12118  ,  0.11476  ,
       -0.48505  , -0.088608 , -3.0154   , -0.54024  , -1.326    ,
        0.39477  ,  0.11755  , -0.17816  , -0.32272  ,  0.21715  ,
        0.043144 , -0.43666  , -0.55857  , -0.47601  , -0.095172 ,
        0.0031934,  0.1192   , -0.23643  ,  1.3234   , -0.45093  ,
       -0.65837  , -0.13865  ,  0.22145  , -0.35806  ,  0.20988  ,
        0.054894 , -0.080322 ,  0.48942  ,  0.19206  ,  0.4556   ,
       -1.642    , -0.83323  , -0.12974  ,  0.96514  , -0.18214  ,
        0.37733  , -0.19622  , -0.12231  , -0.10496  ,  0.45388  ])

sample_corpus = ['The woods are lovely, dark and deep',
                 'But I have promises to keep',   
                 'And miles to go before I sleep', 
                 'And miles to go before I sleep']

# This is the maximum number of tokens we wish to consider from our dataset.
# When there are more tokens, the tokens with the highest frequency are chosen.
max_number_of_words = 5

# Note: Keras tokenizer selects only top n-1 tokens if the num_words is set to n
tokenizer = Tokenizer(num_words=max_number_of_words)
tokenizer.fit_on_texts(sample_corpus)
sample_corpus_tokenized = tokenizer.texts_to_sequences(sample_corpus)
print(tokenizer.word_index)
Output:
{'and': 1, 'i': 2, 'to': 3, 'miles': 4, 'go': 5, 'before': 6, 'sleep': 7, 'the': 8, 'woods': 9, 'are': 10, 'lovely': 11, 'dark': 12, 'deep': 13, 'but': 14, 'have': 15, 'promises': 16, 'keep': 17}
print("But I have promises to keep: ", sample_corpus_tokenized[1])
Output:
But I have promises to keep:  [2, 3]

Ahora que hemos elegido un conjunto de tokens de nuestro corpus de texto, debemos desarrollar una matriz de incrustación para ellos. La matriz de incrustación tendrá columnas iguales a la dimensión de la incrustación y filas iguales al número de tokens .

# Create embedding matrix
total_number_of_words = min(max_number_of_words, len(tokenizer.word_index))
embedding_matrix = np.zeros((total_number_of_words,50))
for word, i in tokenizer.word_index.items():
    if i >= total_number_of_words: break
    if word in embedding_dictionary.keys():
        embedding_vector = embedding_dictionary[word]
        embedding_matrix[i] = embedding_vector

Las redes neuronales artificiales y los algoritmos de ML no pueden manejar una longitud variable de entradas, por lo que debemos convertir las incorporaciones de cada secuencia de entrada a un tamaño fijo. Hay muchos enfoques para hacer esto, pero el más simple es sumar la incrustación de cada token en una oración y normalizar el vector.