पायथन - अनस्ट्रक्चर्ड डेटा प्रोसेसिंग

वह डेटा जो पहले से ही एक पंक्ति और स्तंभ प्रारूप में मौजूद है या जिसे आसानी से पंक्तियों और स्तंभों में परिवर्तित किया जा सकता है ताकि बाद में इसे डेटाबेस में अच्छी तरह से फिट किया जा सके जिसे संरचित डेटा के रूप में जाना जाता है। उदाहरण CSV, TXT, XLS फाइलें आदि हैं। इन फाइलों में एक सीमांकक और या तो निश्चित या परिवर्तनशील चौड़ाई होती है, जहां लापता मानों को सीमांकक के बीच रिक्त स्थान के रूप में दर्शाया जाता है। लेकिन कभी-कभी हमें डेटा मिलता है जहां लाइनें निश्चित चौड़ाई नहीं होती हैं, या वे सिर्फ HTML, छवि या पीडीएफ फाइलें हैं। इस तरह के डेटा को असंरचित डेटा के रूप में जाना जाता है। जबकि HTML फाइल को HTML टैग्स को प्रोसेस करके हैंडल किया जा सकता है, ट्विटर से फीड या न्यूज फीड से एक प्लेन टेक्स्ट डॉक्यूमेंट बिना डिलीवर के टैग को हैंडल करने के लिए नहीं होता है। ऐसे परिदृश्य में हम फ़ाइल को संसाधित करने के लिए विभिन्न अजगर पुस्तकालयों से अलग-अलग इन-बिल्ट फ़ंक्शन का उपयोग करते हैं।

डेटा पढ़ना

नीचे दिए गए उदाहरण में हम एक पाठ फ़ाइल लेते हैं और उसमें प्रत्येक पंक्ति को अलग करते हुए फ़ाइल पढ़ते हैं। आगे हम आउटपुट को आगे लाइनों और शब्दों में विभाजित कर सकते हैं। मूल फ़ाइल एक पाठ फ़ाइल है जिसमें कुछ पैराग्राफ हैं जो अजगर भाषा का वर्णन करते हैं।

filename = 'path\input.txt'  

with open(filename) as fn:  

# Read each line
   ln = fn.readline()

# Keep count of lines
   lncnt = 1
   while ln:
       print("Line {}: {}".format(lncnt, ln.strip()))
       ln = fn.readline()
       lncnt += 1

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।

Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.

शब्द आवृत्ति की गिनती

हम काउंटर फ़ंक्शन का उपयोग करके फ़ाइल में शब्दों की आवृत्ति को निम्नानुसार गिन सकते हैं।

from collections import Counter

with open(r'pathinput2.txt') as f:
               p = Counter(f.read().split())
               print(p)

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।

Counter({'and': 3, 'Python': 3, 'that': 2, 'a': 2, 'programming': 2, 'code': 1, '1991,': 1, 'is': 1, 'programming.': 1, 'dynamic': 1, 'an': 1, 'design': 1, 'in': 1, 'high-level': 1, 'management.': 1, 'features': 1, 'readability,': 1, 'van': 1, 'both': 1, 'for': 1, 'Rossum': 1, 'system': 1, 'provides': 1, 'memory': 1, 'has': 1, 'type': 1, 'enable': 1, 'Created': 1, 'philosophy': 1, 'constructs': 1, 'emphasizes': 1, 'general-purpose': 1, 'notably': 1, 'released': 1, 'significant': 1, 'Guido': 1, 'using': 1, 'interpreted': 1, 'by': 1, 'on': 1, 'language': 1, 'whitespace.': 1, 'clear': 1, 'It': 1, 'large': 1, 'small': 1, 'automatic': 1, 'scales.': 1, 'first': 1})