पायथन - बिग्रेड

कुछ अंग्रेजी शब्द एक साथ अधिक बार होते हैं। उदाहरण के लिए - स्काई हाई, करो या मरो, सर्वश्रेष्ठ प्रदर्शन, भारी बारिश आदि। इसलिए, एक पाठ दस्तावेज़ में हमें ऐसे शब्दों की जोड़ी की पहचान करने की आवश्यकता हो सकती है जो भावना विश्लेषण में मदद करेंगे। सबसे पहले, हमें मौजूदा वाक्य से ऐसे शब्द जोड़े उत्पन्न करने की जरूरत है जो उनके वर्तमान क्रम को बनाए रखें। ऐसी जोड़ियों को बिग्रेड कहा जाता है। पायथन में एनएलटीके लाइब्रेरी के एक भाग के रूप में एक बिग्राम फ़ंक्शन है जो हमें इन जोड़े को उत्पन्न करने में मदद करता है।

उदाहरण

import nltk
word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)  	
print(list(nltk.bigrams(nltk_tokens)))

जब हम उपरोक्त कार्यक्रम चलाते हैं तो हमें निम्नलिखित आउटपुट मिलते हैं -

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'), 
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

इस परिणाम का उपयोग किसी दिए गए पाठ में ऐसी जोड़ियों की आवृत्ति पर सांख्यिकीय निष्कर्षों में किया जा सकता है। यह विवरण की सामान्य भावना को पुष्ट करेगा जो पाठ के मुख्य भाग को प्रस्तुत करता है।