एजाइल डेटा साइंस - एजाइल में डेटा प्रोसेसिंग
इस अध्याय में, हम संरचित, अर्ध-संरचित और असंरचित डेटा के बीच अंतर पर ध्यान केंद्रित करेंगे।
संरचित डेटा
संरचित डेटा पंक्तियों और स्तंभों के साथ तालिका में SQL प्रारूप में संग्रहीत डेटा की चिंता करता है। इसमें एक संबंधपरक कुंजी शामिल है, जिसे पूर्व-डिज़ाइन किए गए फ़ील्ड में मैप किया गया है। संरचित डेटा का उपयोग बड़े पैमाने पर किया जाता है।
संरचित डेटा सभी सूचना विज्ञान डेटा के केवल 5 से 10 प्रतिशत का प्रतिनिधित्व करता है।
अर्ध-संरचित डेटा
सेमी-स्ट्रक्चर्ड डेटा में डेटा शामिल होता है जो रिलेशनल डेटाबेस में नहीं रहता है। उनमें कुछ संगठनात्मक गुण शामिल हैं जो विश्लेषण करना आसान बनाते हैं। इसमें उन्हें रिलेशनल डेटाबेस में संग्रहीत करने के लिए समान प्रक्रिया शामिल है। सेमी-स्ट्रक्चर्ड डेटाबेस के उदाहरण CSV फाइलें, XML और JSON दस्तावेज़ हैं। NoSQL डेटाबेस को सेमीस्ट्रक्टेड माना जाता है।
असंरचित डेटा
असंरचित डेटा 80 प्रतिशत डेटा का प्रतिनिधित्व करता है। इसमें अक्सर पाठ और मल्टीमीडिया सामग्री शामिल होती है। असंरचित डेटा के सर्वोत्तम उदाहरणों में ऑडियो फ़ाइलें, प्रस्तुतियाँ और वेब पेज शामिल हैं। मशीन का निर्माण न किए गए डेटा के उदाहरण हैं उपग्रह चित्र, वैज्ञानिक डेटा, तस्वीरें और वीडियो, रडार और सोनार डेटा।
उपरोक्त पिरामिड संरचना विशेष रूप से डेटा की मात्रा और उस अनुपात पर केंद्रित है जिस पर यह बिखरा हुआ है।
अर्ध-संरचित डेटा असंरचित और अर्ध-संरचित डेटा के बीच प्रकार के रूप में प्रकट होता है। इस ट्यूटोरियल में, हम सेमी-स्ट्रक्चर्ड डेटा पर ध्यान केंद्रित करेंगे, जो फुर्तीली कार्यप्रणाली और डेटा साइंस रिसर्च के लिए फायदेमंद है।
अर्ध संरचित डेटा में एक औपचारिक डेटा मॉडल नहीं होता है, लेकिन इसमें एक स्पष्ट, आत्मनिर्भर पैटर्न और संरचना होती है जिसे इसके विश्लेषण द्वारा विकसित किया जाता है।