Python - Usuń stopwords
Pomijane słowa to angielskie słowa, które nie dodają wiele znaczenia do zdania. Można je bezpiecznie zignorować bez poświęcania znaczenia zdania. Na przykład słowa takie jak, on, mają itp. Takie słowa są już ujęte w korpusie o nazwie corpus. Najpierw pobieramy go do naszego środowiska Pythona.
import nltk
nltk.download('stopwords')
Pobierze plik z angielskimi stopwords.
Weryfikacja odrzucanych słów
from nltk.corpus import stopwords
stopwords.words('english')
print stopwords.words() [620:680]
Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -
[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she',
u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them',
u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this',
u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',
u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',
u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',
u'while', u'of', u'at']
Różne języki inne niż angielski, w których znajdują się te pomijane słowa, są jak poniżej.
from nltk.corpus import stopwords
print stopwords.fileids()
Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -
[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish',
u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian',
u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',
u'spanish', u'swedish', u'turkish']
Przykład
Korzystamy z poniższego przykładu, aby pokazać, jak odrzucane słowa są usuwane z listy słów.
from nltk.corpus import stopwords
en_stops = set(stopwords.words('english'))
all_words = ['There', 'is', 'a', 'tree','near','the','river']
for word in all_words:
if word not in en_stops:
print(word)
Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -
There
tree
near
river