Hadoop - बिग डेटा ओवरव्यू
"पिछले कुछ वर्षों में दुनिया का 90% डेटा उत्पन्न हुआ था।"
नई प्रौद्योगिकियों, उपकरणों और संचार के आगमन के कारण सामाजिक नेटवर्किंग साइटों की तरह, मानव जाति द्वारा उत्पादित डेटा की मात्रा हर साल तेजी से बढ़ रही है। 2003 की शुरुआत तक हमारे द्वारा उत्पादित डेटा की मात्रा 5 बिलियन गीगाबाइट थी। यदि आप डिस्क के रूप में डेटा को ढेर करते हैं तो यह पूरे फुटबॉल क्षेत्र को भर सकता है। उसी राशि को प्रत्येक दो दिनों में बनाया गया था2011, और हर दस मिनट में 2013। यह दर अभी भी बहुत बढ़ रही है। हालांकि उत्पादित यह सभी जानकारी सार्थक है और संसाधित होने पर उपयोगी हो सकती है, इसे उपेक्षित किया जा रहा है।
बिग डेटा क्या है?
Big dataबड़े डेटासेट का एक संग्रह है जिसे पारंपरिक कंप्यूटिंग तकनीकों का उपयोग करके संसाधित नहीं किया जा सकता है। यह एक एकल तकनीक या एक उपकरण नहीं है, बल्कि यह एक पूर्ण विषय बन गया है, जिसमें विभिन्न उपकरण, तकनीक और रूपरेखा शामिल हैं।
बिग डेटा के तहत क्या आता है?
बिग डेटा में विभिन्न उपकरणों और अनुप्रयोगों द्वारा उत्पादित डेटा शामिल होता है। नीचे कुछ ऐसे क्षेत्र दिए गए हैं जो बिग डेटा की छतरी के नीचे आते हैं।
Black Box Data - यह हेलीकॉप्टर, हवाई जहाज और जेट विमानों आदि का एक घटक है। यह उड़ान चालक दल की आवाज, माइक्रोफोन और ईयरफोन की रिकॉर्डिंग और विमान के प्रदर्शन की जानकारी प्राप्त करता है।
Social Media Data - फेसबुक और ट्विटर जैसे सोशल मीडिया की जानकारी और दुनिया भर के लाखों लोगों द्वारा पोस्ट किए गए विचार हैं।
Stock Exchange Data - स्टॉक एक्सचेंज डेटा ग्राहकों द्वारा बनाई गई विभिन्न कंपनियों के शेयर पर किए गए 'खरीद' और 'बेचने' के फैसले के बारे में जानकारी रखता है।
Power Grid Data - पावर ग्रिड डेटा एक बेस स्टेशन के संबंध में एक विशेष नोड द्वारा खपत जानकारी रखता है।
Transport Data - परिवहन डेटा में एक वाहन का मॉडल, क्षमता, दूरी और उपलब्धता शामिल है।
Search Engine Data - खोज इंजन विभिन्न डेटाबेस से बहुत सारे डेटा को पुनः प्राप्त करते हैं।
इस प्रकार बिग डेटा में बड़ी मात्रा, उच्च वेग और डेटा की एक्स्टेंसिबल विविधता शामिल है। इसमें डेटा तीन प्रकार का होगा।
Structured data - संबंधपरक डेटा।
Semi Structured data - एक्सएमएल डेटा।
Unstructured data - वर्ड, पीडीएफ, टेक्स्ट, मीडिया लॉग।
बिग डेटा के लाभ
फेसबुक जैसे सोशल नेटवर्क में रखी गई सूचनाओं का उपयोग करते हुए, विपणन एजेंसियां अपने अभियानों, प्रचार और अन्य विज्ञापन माध्यमों की प्रतिक्रिया के बारे में सीख रही हैं।
अपने उपभोक्ताओं, उत्पाद कंपनियों और खुदरा संगठनों की वरीयताओं और उत्पाद धारणा जैसी सामाजिक मीडिया में जानकारी का उपयोग करके उनके उत्पादन की योजना बना रहे हैं।
रोगियों के पिछले चिकित्सा इतिहास के बारे में आंकड़ों का उपयोग करते हुए, अस्पताल बेहतर और त्वरित सेवा प्रदान कर रहे हैं।
बिग डेटा टेक्नोलॉजीज
बिग डेटा प्रौद्योगिकियां अधिक सटीक विश्लेषण प्रदान करने में महत्वपूर्ण हैं, जो अधिक ठोस निर्णय लेने का कारण बन सकती हैं जिसके परिणामस्वरूप अधिक परिचालन क्षमता, लागत में कमी और व्यवसाय के लिए जोखिम कम हो सकते हैं।
बड़े डेटा की शक्ति का दोहन करने के लिए, आपको एक बुनियादी ढांचे की आवश्यकता होगी जो वास्तविक समय में संरचित और असंरचित डेटा के विशाल संस्करणों को प्रबंधित और संसाधित कर सके और डेटा गोपनीयता और सुरक्षा की रक्षा कर सके।
बड़े डेटा को संभालने के लिए अमेज़ॅन, आईबीएम, माइक्रोसॉफ्ट आदि सहित विभिन्न विक्रेताओं से बाजार में विभिन्न प्रौद्योगिकियां हैं। बड़े डेटा को संभालने वाली तकनीकों पर गौर करते हुए, हम प्रौद्योगिकी के निम्नलिखित दो वर्गों की जाँच करते हैं -
ऑपरेशनल बिग डेटा
इसमें MongoDB जैसी प्रणालियां शामिल हैं जो वास्तविक समय, इंटरैक्टिव वर्कलोड के लिए परिचालन क्षमता प्रदान करती हैं जहां डेटा मुख्य रूप से कैप्चर किया जाता है और संग्रहीत किया जाता है।
NoSQL बिग डेटा सिस्टम नए क्लाउड कंप्यूटिंग आर्किटेक्चर का लाभ उठाने के लिए डिज़ाइन किए गए हैं जो पिछले एक दशक में बड़े पैमाने पर कम्प्यूटेशंस को सस्ते और कुशलता से चलाने की अनुमति देते हैं। यह परिचालन बड़े डेटा वर्कलोड को लागू करने, सस्ता, और तेजी से लागू करने के लिए बहुत आसान बनाता है।
कुछ NoSQL सिस्टम वास्तविक कोड डेटा के आधार पर पैटर्न और रुझानों में न्यूनतम कोडिंग और डेटा वैज्ञानिकों और अतिरिक्त बुनियादी ढांचे की आवश्यकता के बिना अंतर्दृष्टि प्रदान कर सकते हैं।
विश्लेषणात्मक बड़ा डेटा
इनमें बड़े पैमाने पर समानांतर प्रसंस्करण (एमपीपी) डेटाबेस सिस्टम और मैपरेड जैसे सिस्टम शामिल हैं जो पूर्वव्यापी और जटिल विश्लेषण के लिए विश्लेषणात्मक क्षमता प्रदान करते हैं जो डेटा के अधिकांश या सभी को छू सकते हैं।
MapReduce डेटा का विश्लेषण करने का एक नया तरीका प्रदान करता है जो SQL द्वारा प्रदान की गई क्षमताओं का पूरक है, और MapReduce के आधार पर एक प्रणाली जो एकल सर्वर से हजारों उच्च और निम्न अंत मशीनों तक बढ़ाया जा सकता है।
प्रौद्योगिकी के ये दो वर्ग पूरक हैं और अक्सर एक साथ तैनात होते हैं।
ऑपरेशनल बनाम एनालिटिकल सिस्टम
आपरेशनल | विश्लेषणात्मक | |
---|---|---|
विलंब | 1 एमएस - 100 एमएस | 1 मिनट - 100 मिनट |
संगामिति | 1000 - 100,000 | 1 - 10 |
एक्सेस पैटर्न | लिखता है और पढ़ता है | पुस्तकें |
प्रश्नों | चयनात्मक | unselective |
डेटा स्कोप | आपरेशनल | पूर्वप्रभावी |
अंतिम उपयोगकर्ता | ग्राहक | आँकड़े वाला वैज्ञानिक |
प्रौद्योगिकी | NoSQL | MapReduce, MPP डेटाबेस |
बिग डेटा चुनौतियां
बड़े डेटा से जुड़ी प्रमुख चुनौतियां इस प्रकार हैं -
- डेटा कैप्चर करना
- Curation
- Storage
- Searching
- Sharing
- Transfer
- Analysis
- Presentation
उपरोक्त चुनौतियों को पूरा करने के लिए, संगठन आमतौर पर एंटरप्राइज़ सर्वर की मदद लेते हैं।