पायथन - पाठ वर्गीकरण

कई बार, हमें कुछ पूर्व-निर्धारित मानदंडों द्वारा उपलब्ध पाठ को विभिन्न श्रेणियों में वर्गीकृत करने की आवश्यकता होती है। nltk विभिन्न कॉर्पोरा के हिस्से के रूप में ऐसी सुविधा प्रदान करता है। नीचे दिए गए उदाहरण में हम फिल्म समीक्षा कॉर्पस को देखते हैं और उपलब्ध वर्गीकरण की जांच करते हैं।

# Lets See how the movies are classified
from nltk.corpus import movie_reviews
all_cats = []
for w in movie_reviews.categories():
    all_cats.append(w.lower())
print(all_cats)

जब हम उपरोक्त कार्यक्रम चलाते हैं, तो हमें निम्न आउटपुट मिलते हैं -

['neg', 'pos']

अब आइए एक फाइल के कंटेंट को पॉजिटिव रिव्यू के साथ देखें। इस फ़ाइल के वाक्य टोकन हैं और हम नमूने को देखने के लिए पहले चार वाक्य मुद्रित करते हैं।

from nltk.corpus import movie_reviews
from nltk.tokenize import sent_tokenize
fields = movie_reviews.fileids()
sample = movie_reviews.raw("pos/cv944_13521.txt")
token = sent_tokenize(sample)
for lines in range(4):
    print(token[lines])

जब हम उपरोक्त कार्यक्रम चलाते हैं तो हमें निम्नलिखित आउटपुट मिलते हैं -

meteor threat set to blow away all volcanoes & twisters !
summer is here again !
this season could probably be the most ambitious = season this decade with hollywood churning out films 
like deep impact , = godzilla , the x-files , armageddon , the truman show , 
all of which has but = one main aim , to rock the box office .
leading the pack this summer is = deep impact , one of the first few film 
releases from the = spielberg-katzenberg-geffen's dreamworks production company .

इसके बाद, हम इन फ़ाइलों में से प्रत्येक में शब्दों को टोकन करते हैं और nltk से FreqDist फ़ंक्शन का उपयोग करके सबसे सामान्य शब्द पाते हैं।

import nltk
from nltk.corpus import movie_reviews
fields = movie_reviews.fileids()
all_words = []
for w in movie_reviews.words():
    all_words.append(w.lower())
all_words = nltk.FreqDist(all_words)
print(all_words.most_common(10))

जब हम उपरोक्त कार्यक्रम चलाते हैं तो हमें निम्नलिखित आउटपुट मिलते हैं -

[(,', 77717), (the', 76529), (.', 65876), (a', 38106), (and', 35576), 
(of', 34123), (to', 31937), (u"'", 30585), (is', 25195), (in', 21822)]