Hadoop - HDFS ओवरव्यू

Hadoop फ़ाइल सिस्टम वितरित फ़ाइल सिस्टम डिज़ाइन का उपयोग करके विकसित किया गया था। इसे कमोडिटी हार्डवेयर पर चलाया जाता है। अन्य वितरित प्रणालियों के विपरीत, एचडीएफएस अत्यधिक दोषपूर्ण है और कम लागत वाले हार्डवेयर का उपयोग करके बनाया गया है।

HDFS बहुत बड़ी मात्रा में डेटा रखता है और आसान पहुँच प्रदान करता है। ऐसे विशाल डेटा को संग्रहीत करने के लिए, फाइलें कई मशीनों में संग्रहीत की जाती हैं। विफलता के मामले में संभावित डेटा हानि से सिस्टम को बचाने के लिए इन फ़ाइलों को अनावश्यक फैशन में संग्रहीत किया जाता है। HDFS समानांतर प्रसंस्करण के लिए आवेदन भी उपलब्ध कराता है।

एचडीएफएस की विशेषताएं

  • यह वितरित भंडारण और प्रसंस्करण के लिए उपयुक्त है।
  • Hadoop HDFS के साथ बातचीत करने के लिए एक कमांड इंटरफ़ेस प्रदान करता है।
  • नामेनोड और डेटाैनोड के अंतर्निहित सर्वर उपयोगकर्ताओं को आसानी से क्लस्टर की स्थिति की जांच करने में मदद करते हैं।
  • सिस्टम डेटा फाइल करने के लिए स्ट्रीमिंग का उपयोग।
  • HDFS फ़ाइल अनुमति और प्रमाणीकरण प्रदान करता है।

HDFS आर्किटेक्चर

नीचे एक Hadoop फ़ाइल सिस्टम की वास्तुकला दी गई है।

एचडीएफएस मास्टर-दास वास्तुकला का अनुसरण करता है और इसमें निम्नलिखित तत्व होते हैं।

Namenode

नामेनोड कमोडिटी हार्डवेयर है जिसमें GNU / Linux ऑपरेटिंग सिस्टम और namenode सॉफ्टवेयर शामिल हैं। यह एक सॉफ्टवेयर है जिसे कमोडिटी हार्डवेयर पर चलाया जा सकता है। नामेनोड होने वाली प्रणाली मास्टर सर्वर के रूप में कार्य करती है और यह निम्नलिखित कार्य करती है -

  • फ़ाइल सिस्टम नामस्थान का प्रबंधन करता है।

  • फ़ाइलों तक क्लाइंट की पहुंच को नियंत्रित करता है।

  • यह फ़ाइल सिस्टम के संचालन को भी निष्पादित करता है जैसे नाम बदलना, बंद करना, और फ़ाइलों और निर्देशिकाओं को खोलना।

Datanode

डेटनोड एक कमोडिटी हार्डवेयर है जिसमें GNU / Linux ऑपरेटिंग सिस्टम और डेटाैनोड सॉफ्टवेयर होता है। एक क्लस्टर में प्रत्येक नोड (कमोडिटी हार्डवेयर / सिस्टम) के लिए, एक डाटाोडोड होगा। ये नोड्स अपने सिस्टम के डेटा स्टोरेज को मैनेज करते हैं।

  • डेटा अनुरोध क्लाइंट सिस्टम के अनुसार फाइल सिस्टम पर रीड-राइट ऑपरेशन करते हैं।

  • वे नेमेनोड के निर्देशों के अनुसार ब्लॉक निर्माण, विलोपन और प्रतिकृति जैसे ऑपरेशन भी करते हैं।

खंड मैथा

आम तौर पर उपयोगकर्ता डेटा को एचडीएफएस की फाइलों में संग्रहीत किया जाता है। फ़ाइल सिस्टम में फ़ाइल को एक या अधिक सेगमेंट में विभाजित किया जाएगा और / या व्यक्तिगत डेटा नोड्स में संग्रहीत किया जाएगा। इन फ़ाइल खंडों को ब्लॉक कहा जाता है। दूसरे शब्दों में, HDFS को पढ़ने या लिखने वाले डेटा की न्यूनतम मात्रा को ब्लॉक कहा जाता है। डिफ़ॉल्ट ब्लॉक का आकार 64 एमबी है, लेकिन इसे एचडीएफएस कॉन्फ़िगरेशन में बदलने की आवश्यकता के अनुसार बढ़ाया जा सकता है।

एचडीएफएस के लक्ष्य

Fault detection and recovery- चूंकि एचडीएफएस में बड़ी संख्या में कमोडिटी हार्डवेयर शामिल हैं, घटकों की विफलता अक्सर होती है। इसलिए HDFS में त्वरित और स्वचालित दोष का पता लगाने और पुनर्प्राप्ति के लिए तंत्र होना चाहिए।

Huge datasets - एचडीएफएस में विशाल डेटासेट वाले अनुप्रयोगों का प्रबंधन करने के लिए प्रति क्लस्टर सैकड़ों नोड्स होने चाहिए।

Hardware at data- एक अनुरोधित कार्य कुशलता से किया जा सकता है, जब डेटा के पास गणना होती है। विशेष रूप से जहां विशाल डेटासेट शामिल हैं, यह नेटवर्क ट्रैफ़िक को कम करता है और थ्रूपुट को बढ़ाता है।