प्रतिभा - त्वरित गाइड
टैलेंड एक सॉफ्टवेयर इंटीग्रेशन प्लेटफ़ॉर्म है जो डेटा एकीकरण, डेटा गुणवत्ता, डेटा प्रबंधन, डेटा तैयारी और बिग डेटा के लिए समाधान प्रदान करता है। टैलेंड पर ज्ञान के साथ ईटीएल पेशेवरों की मांग अधिक है। साथ ही, बिग डेटा इकोसिस्टम के साथ आसानी से एकीकृत करने के लिए सभी प्लगइन्स के साथ यह एकमात्र ईटीएल टूल है।
गार्टनर के अनुसार, टॉलेंड लीडर्स मैजिक क्वाड्रंट में डेटा इंटीग्रेशन टूल्स के लिए आते हैं।
नीचे सूचीबद्ध विभिन्न वाणिज्यिक उत्पाद प्रस्तुत करते हैं -
- टैलेंट डेटा क्वालिटी
- डेटा एकीकरण की बात करें
- टैलेंट डेटा तैयार करना
- टैलेंड क्लाउड
- बड़े डेटा का तालमेल
- टैलेंट एमडीएम (मास्टर डेटा मैनेजमेंट) प्लेटफार्म
- टैलेंट डेटा सर्विसेज प्लेटफॉर्म
- तालद मेटाडाटा प्रबंधक
- टैलेंट डेटा फैब्रिक
टैलेंड ओपन स्टूडियो की भी पेशकश करता है, जो डेटा इंटीग्रेशन और बिग डेटा के लिए व्यापक रूप से उपयोग किया जाने वाला एक ओपन सोर्स फ्री टूल है।
टैलेंड ओपन स्टूडियो को डाउनलोड करने और काम करने के लिए सिस्टम आवश्यकताएँ निम्नलिखित हैं -
अनुशंसित ऑपरेटिंग सिस्टम
- माइक्रोसॉफ्ट विंडोज 10
- उबंटू 16.04 एलटीएस
- Apple macOS 10.13 / उच्च सिएरा
स्मृति की आवश्यकता
- मेमोरी - न्यूनतम 4 जीबी, अनुशंसित 8 जीबी
- स्टोरेज स्पेस - 30 जीबी
इसके अलावा, आपको एक Hadoop क्लस्टर (अधिमानतः Cloudera) चलाने की आवश्यकता है।
Note - जावा 8 पहले से निर्धारित पर्यावरण चर के साथ उपलब्ध होना चाहिए।
बिग डेटा और डेटा एकीकरण के लिए टैलेंड ओपन स्टूडियो डाउनलोड करने के लिए, कृपया नीचे दिए गए चरणों का पालन करें -
Step 1 - पेज पर जाएं: https://www.talend.com/products/big-data/big-data-open-studio/और डाउनलोड बटन पर क्लिक करें। आप देख सकते हैं कि TOS_BD_xxxxxxx.zip फ़ाइल डाउनलोड होना शुरू हो जाती है।
Step 2 - डाउनलोड खत्म होने के बाद, जिप फाइल की सामग्री को निकालें, यह सभी टैलेंड फाइलों के साथ एक फ़ोल्डर बनाएगा।
Step 3- टैलेंड फ़ोल्डर खोलें और निष्पादन योग्य फ़ाइल पर डबल क्लिक करें: TOS_BD-win-x86_64.exe। उपयोगकर्ता लाइसेंस समझौते को स्वीकार करें।
Step 4 - एक नया प्रोजेक्ट बनाएं और फिनिश पर क्लिक करें।
Step 5 - विंडोज सिक्योरिटी अलर्ट प्राप्त होने की स्थिति में अनुमति दें पर क्लिक करें।
Step 6 - अब, Talend Open Studio का स्वागत पृष्ठ खुलेगा।
Step 7 - आवश्यक तीसरे पक्ष के पुस्तकालयों को स्थापित करने के लिए समाप्त पर क्लिक करें।
Step 8 - शर्तें स्वीकार करें और समाप्त पर क्लिक करें।
Step 9 - हां पर क्लिक करें।
अब आपका टैलेंड ओपन स्टूडियो आवश्यक पुस्तकालयों के साथ तैयार है।
टैलेंड ओपन स्टूडियो डेटा इंटीग्रेशन और बिग डेटा के लिए एक मुफ्त ओपन सोर्स ईटीएल टूल है। यह एक एक्लिप्स आधारित डेवलपर टूल और जॉब डिज़ाइनर है। आपको केवल ETL या ETL जॉब्स बनाने और चलाने के लिए घटकों को ड्रैग एंड ड्रॉप करना होगा। उपकरण स्वचालित रूप से नौकरी के लिए जावा कोड बनाएगा और आपको कोड की एक भी पंक्ति लिखने की आवश्यकता नहीं है।
आरडीबीएमएस, एक्सेल, सास बिग डेटा इकोसिस्टम जैसे डेटा स्रोतों से जुड़ने के लिए कई विकल्प हैं, साथ ही एसएपी, सीआरएम, ड्रॉपबॉक्स और कई तरह के ऐप और प्रौद्योगिकियां।
टैलेंड ओपन स्टूडियो की पेशकश के कुछ महत्वपूर्ण लाभ नीचे दिए गए हैं -
900 घटकों, अंतर्निहित कनेक्टरों के साथ डेटा एकीकरण और सिंक्रनाइज़ेशन के लिए आवश्यक सभी सुविधाएँ प्रदान करता है, जॉब्स को जावा कोड में स्वचालित रूप से और बहुत कुछ परिवर्तित करता है।
उपकरण पूरी तरह से स्वतंत्र है, इसलिए बड़ी लागत बचत है।
पिछले 12 वर्षों में, कई विशाल संगठनों ने डेटा एकीकरण के लिए टीओएस को अपनाया है, जो इस उपकरण में बहुत अधिक विश्वास कारक दिखाता है।
डेटा इंटीग्रेशन के लिए टैलेंड समुदाय बहुत सक्रिय है।
इन उपकरणों में विशेषताएं जुड़ती रहती हैं और दस्तावेज़ अच्छी तरह से संरचित होते हैं और उनका पालन करना बहुत आसान होता है।
अधिकांश संगठन कई स्थानों से डेटा प्राप्त करते हैं और इसे अलग से संग्रहीत करते हैं। अब यदि संगठन को निर्णय लेना है, तो उसे विभिन्न स्रोतों से डेटा लेना है, इसे एकीकृत दृश्य में रखना है और फिर परिणाम प्राप्त करने के लिए इसका विश्लेषण करना है। इस प्रक्रिया को डेटा इंटीग्रेशन कहा जाता है।
लाभ
नीचे दिए गए अनुसार डेटा एकीकरण कई लाभ प्रदान करता है -
संगठन डेटा तक पहुँचने के लिए संगठन में विभिन्न टीमों के बीच सहयोग में सुधार करता है।
समय बचाता है और डेटा विश्लेषण को आसान बनाता है, क्योंकि डेटा को प्रभावी ढंग से एकीकृत किया जाता है।
स्वचालित डेटा एकीकरण प्रक्रिया डेटा को सिंक्रनाइज़ करती है और वास्तविक समय और समय-समय पर रिपोर्टिंग को आसान बनाती है, जो अन्यथा समय लगता है यदि मैन्युअल रूप से किया जाता है।
डेटा जो कई स्रोतों से एकीकृत होता है और समय के साथ बेहतर होता है, जो अंततः बेहतर डेटा गुणवत्ता में मदद करता है।
परियोजनाओं के साथ काम करना
इस खंड में, हम समझते हैं कि टैलेंड परियोजनाओं पर कैसे काम किया जाए -
एक परियोजना का निर्माण
TOS बिग डेटा निष्पादन योग्य फ़ाइल पर डबल क्लिक करें, नीचे दिखाई गई विंडो खुल जाएगी।
एक नया प्रोजेक्ट विकल्प चुनें, प्रोजेक्ट के नाम का उल्लेख करें और क्रिएट पर क्लिक करें।
अपनी बनाई गई परियोजना का चयन करें और समाप्त पर क्लिक करें।
एक परियोजना का आयात करना
TOS बिग डेटा निष्पादन योग्य फ़ाइल पर डबल क्लिक करें, आप नीचे दिखाए गए अनुसार विंडो देख सकते हैं। एक डेमो प्रोजेक्ट विकल्प आयात करें का चयन करें और चयन करें पर क्लिक करें।
आप नीचे दिखाए गए विकल्पों में से चुन सकते हैं। यहां हम डेटा इंटीग्रेशन डेमोस को चुन रहे हैं। अब, समाप्त पर क्लिक करें।
अब, प्रोजेक्ट का नाम और विवरण दें। समाप्त पर क्लिक करें।
आप मौजूदा परियोजनाओं की सूची के तहत अपने आयातित प्रोजेक्ट को देख सकते हैं।
अब, समझते हैं कि मौजूदा टैलेंड प्रोजेक्ट को कैसे आयात किया जाए।
किसी मौजूदा प्रोजेक्ट विकल्प को चुनें और चुनें पर क्लिक करें।
प्रोजेक्ट का नाम दें और "रूट डायरेक्टरी चुनें" विकल्प चुनें।
अपने मौजूदा टैलेंड प्रोजेक्ट होम डायरेक्टरी को ब्राउज़ करें और फिनिश पर क्लिक करें।
आपका मौजूदा टैलेंड प्रोजेक्ट आयातित हो जाएगा।
एक परियोजना खोलना
मौजूदा प्रोजेक्ट से किसी प्रोजेक्ट को चुनें और फिनिश पर क्लिक करें। इससे वह टैलेंड प्रोजेक्ट खुल जाएगा।
किसी प्रोजेक्ट को हटाना
किसी प्रोजेक्ट को हटाने के लिए, कनेक्शन प्रबंधित करें पर क्लिक करें।
मौजूदा परियोजना हटाएं पर क्लिक करें
उस परियोजना का चयन करें जिसे आप हटाना चाहते हैं और ठीक क्लिक करें।
फिर से ठीक पर क्लिक करें।
एक परियोजना का निर्यात
निर्यात परियोजना विकल्प पर क्लिक करें।
उस परियोजना का चयन करें जिसे आप निर्यात करना चाहते हैं और इसे निर्यात करने के लिए एक रास्ता देना चाहिए। समाप्त पर क्लिक करें।
बिजनेस मॉडल एक डेटा एकीकरण परियोजना का एक चित्रमय प्रतिनिधित्व है। यह व्यवसाय के वर्कफ़्लो का एक गैर-तकनीकी प्रतिनिधित्व है।
आपको बिजनेस मॉडल की आवश्यकता क्यों है?
एक व्यवसाय मॉडल उच्च प्रबंधन को दिखाने के लिए बनाया गया है कि आप क्या कर रहे हैं, और यह आपकी टीम को यह भी समझाता है कि आप क्या हासिल करने की कोशिश कर रहे हैं। बिज़नेस मॉडल को डिजाइन करना एक सबसे अच्छा तरीका माना जाता है जो संगठन अपने डेटा एकीकरण प्रोजेक्ट की शुरुआत में अपनाते हैं। इसके अलावा, लागत को कम करने में मदद करते हुए, यह आपकी परियोजना में बाधाओं को हल करता है। यदि आवश्यक हो, तो परियोजना के कार्यान्वयन के दौरान और बाद में मॉडल को संशोधित किया जा सकता है।
टैलेंड ओपन स्टूडियो में बिजनेस मॉडल बनाना
टैलेंड ओपन स्टूडियो एक बिजनेस मॉडल बनाने और डिजाइन करने के लिए कई आकार और कनेक्टर प्रदान करता है। बिजनेस मॉडल के प्रत्येक मॉड्यूल में स्वयं से जुड़ा एक दस्तावेज हो सकता है।
टैलेंड ओपन स्टूडियो एक व्यावसायिक मॉडल बनाने के लिए निम्नलिखित आकार और कनेक्टर विकल्प प्रदान करता है -
Decision - इस आकृति का उपयोग यदि मॉडल में स्थिति के लिए किया जाता है।
Action - इस आकृति का उपयोग किसी भी परिवर्तन, अनुवाद या स्वरूपण को दिखाने के लिए किया जाता है।
Terminal - यह आकृति आउटपुट टर्मिनल प्रकार को दिखाती है।
Data - इस शेप का इस्तेमाल शो डेटा टाइप किया जाता है।
Document - इस आकृति का उपयोग किसी डॉक्यूमेंट ऑब्जेक्ट को डालने के लिए किया जाता है जिसका उपयोग संसाधित डेटा के इनपुट / आउटपुट के लिए किया जा सकता है।
Input - यह आकृति इनपुट ऑब्जेक्ट डालने के लिए उपयोग की जाती है, जिसके उपयोग से उपयोगकर्ता डेटा को मैन्युअल रूप से पास कर सकता है।
List - इस आकृति में निकाले गए डेटा होते हैं और इसे सूची में केवल कुछ विशेष प्रकार के डेटा को रखने के लिए परिभाषित किया जा सकता है।
Database - इस आकृति का उपयोग इनपुट / आउटपुट डेटा रखने के लिए किया जाता है।
Actor - यह आकृति निर्णय लेने और तकनीकी प्रक्रियाओं में शामिल व्यक्तियों का प्रतीक है
Ellipse - एक दीर्घवृत्त आकार सम्मिलित करता है।
Gear - यह आकृति मैन्युअल कार्यक्रमों को दिखाती है जिन्हें टैलेंड नौकरियों द्वारा प्रतिस्थापित किया जाना है।
टैलेंड में सभी संचालन कनेक्टर्स और घटकों द्वारा किए जाते हैं। टैलेंड कई ऑपरेशन करने के लिए 800+ कनेक्टर्स और कंपोनेंट्स प्रदान करता है। ये घटक पैलेट में मौजूद हैं, और 21 मुख्य श्रेणियां हैं जिनमें से घटक हैं। आप कनेक्टर्स का चयन कर सकते हैं और बस इसे डिज़ाइनर पेन में ड्रैग और ड्रॉप कर सकते हैं, इससे जावा कोड अपने आप बन जाएगा जो टैलेंड कोड को सेव करने पर संकलित हो जाएगा।
मुख्य श्रेणियां जिनमें घटक शामिल हैं, उन्हें नीचे दिखाया गया है -
टैलेंड ओपन स्टूडियो में डेटा एकीकरण के लिए व्यापक रूप से उपयोग किए जाने वाले कनेक्टर्स और घटकों की सूची निम्नलिखित है -
tMysqlConnection - घटक में परिभाषित MySQL डेटाबेस से जुड़ता है।
tMysqlInput - डेटाबेस को पढ़ने के लिए डेटाबेस क्वेरी चलाता है और क्वेरी के आधार पर फ़ील्ड्स (तालिकाओं, विचारों आदि) को निकालता है।
tMysqlOutput - MySQL डेटाबेस में डेटा लिखना, अपडेट करना, संशोधित करना।
tFileInputDelimited - एक सीमांकित फ़ाइल पंक्ति को पंक्ति द्वारा पढ़ता है और उन्हें अलग-अलग क्षेत्रों में विभाजित करता है और इसे अगले घटक में भेजता है।
tFileInputExcel - एक एक्सेल फाइल रो को पंक्ति से पढ़ता है और उन्हें अलग-अलग फ़ील्ड में विभाजित करता है और इसे अगले कंपोनेंट में भेजता है।
tFileList - दिए गए फ़ाइल मास्क पैटर्न से सभी फ़ाइलों और निर्देशिकाओं को प्राप्त करता है।
tFileArchive - ज़िप, gzip या tar.gz संग्रह फ़ाइल में फ़ाइलों या फ़ोल्डरों के एक सेट को संपीड़ित करता है।
tRowGenerator - एक संपादक प्रदान करता है जहां आप अपने नमूना डेटा को उत्पन्न करने के लिए फ़ंक्शन लिख सकते हैं या अभिव्यक्ति चुन सकते हैं।
tMsgBox - निर्दिष्ट संदेश और एक ठीक बटन के साथ एक संवाद बॉक्स लौटाता है।
tLogRow- संसाधित किए जा रहे डेटा को मॉनिटर करता है। यह रन कंसोल में डेटा / आउटपुट प्रदर्शित करता है।
tPreJob - आपकी वास्तविक नौकरी शुरू होने से पहले चलने वाली उप नौकरियों को परिभाषित करता है।
tMap- टैलेंट स्टूडियो में एक प्लगइन के रूप में कार्य करता है। यह एक या अधिक स्रोतों से डेटा लेता है, इसे रूपांतरित करता है, और फिर परिवर्तित डेटा को एक या अधिक गंतव्यों पर भेजता है।
tJoin - मुख्य प्रवाह और लुकअप प्रवाह के बीच आंतरिक और बाहरी जुड़ाव प्रदर्शन करके 2 तालिकाओं को जोड़ता है।
tJava - आप टैलेंड कार्यक्रम में व्यक्तिगत जावा कोड का उपयोग करने में सक्षम बनाता है।
tRunJob - एक के बाद एक टैलेंड जॉब चलाकर जटिल जॉब सिस्टम का प्रबंधन करता है।
यह व्यवसाय मॉडल का तकनीकी कार्यान्वयन / चित्रमय प्रतिनिधित्व है। इस डिज़ाइन में, डेटा एकीकरण प्रक्रिया को चलाने के लिए एक या अधिक घटक एक दूसरे से जुड़े होते हैं। इस प्रकार, जब आप डिज़ाइन फलक में घटकों को खींचते हैं और छोड़ते हैं, तो कनेक्टर्स के साथ जुड़ते हैं, तो एक जॉब डिज़ाइन सब कुछ कोड में परिवर्तित करता है और एक पूर्ण रननीय प्रोग्राम बनाता है जो डेटा प्रवाह बनाता है।
नौकरी पैदा करना
रिपॉजिटरी विंडो में, जॉब डिज़ाइन पर राइट क्लिक करें और क्रिएट जॉब पर क्लिक करें।
नौकरी का नाम, उद्देश्य और विवरण प्रदान करें और समाप्त करें पर क्लिक करें।
आप देख सकते हैं कि आपकी नौकरी जॉब डिज़ाइन के तहत बनाई गई है।
अब, इस घटक का उपयोग करने, कनेक्ट करने और उन्हें कॉन्फ़िगर करने के लिए इस नौकरी का उपयोग करते हैं। यहां, हम इनपुट के रूप में एक एक्सेल फाइल लेंगे और उसी डेटा के साथ आउटपुट के रूप में एक्सेल फाइल तैयार करेंगे।
एक नौकरी के लिए घटक जोड़ना
चुनने के लिए पैलेट में कई घटक हैं। एक खोज विकल्प भी है, जिसमें आप इसे चुनने के लिए घटक का नाम दर्ज कर सकते हैं।
चूंकि, यहां हम एक इनपुट के रूप में एक एक्सेल फाइल ले रहे हैं, हम पैलेट से डिजाइनर विंडो में tFileInputExcel घटक को खींचें और छोड़ देंगे।
अब यदि आप डिजाइनर विंडो पर कहीं भी क्लिक करते हैं, तो एक खोज बॉक्स दिखाई देगा। TLogRow ढूंढें और इसे डिजाइनर विंडो में लाने के लिए चयन करें।
अंत में, पैलेट से tFileOutputExcel घटक का चयन करें और इसे डिजाइनर विंडो में खींचें।
अब, घटकों को जोड़ने का काम किया जाता है।
अवयवों को जोड़ना
घटकों को जोड़ने के बाद, आपको उन्हें कनेक्ट करना होगा। पहले घटक tFileInputExcel पर राइट क्लिक करें और नीचे दिखाए अनुसार एक मुख्य लाइन tLogRow पर ड्रा करें।
इसी तरह, tLogRow पर राइट क्लिक करें और tFileOutputExcel पर एक मेन लाइन ड्रा करें। अब, आपके घटक जुड़े हुए हैं।
घटकों को कॉन्फ़िगर करना
नौकरी में घटकों को जोड़ने और जोड़ने के बाद, आपको उन्हें कॉन्फ़िगर करने की आवश्यकता है। इसके लिए, इसे कॉन्फ़िगर करने के लिए पहले घटक tFileInputExcel पर डबल क्लिक करें। नीचे दिखाए गए अनुसार फ़ाइल नाम / स्ट्रीम में अपनी इनपुट फ़ाइल का पथ दें।
यदि एक्सेल में आपकी 1 सेंट पंक्ति में कॉलम के नाम हैं, तो हैडर विकल्प में 1 डालें।
स्कीमा संपादित करें पर क्लिक करें और अपनी इनपुट एक्सेल फ़ाइल के अनुसार कॉलम और उसका प्रकार जोड़ें। स्कीमा जोड़ने के बाद Ok पर क्लिक करें।
हाँ पर क्लिक करें।
TLogRow घटक में, सिंक कॉलम पर क्लिक करें और उस मोड का चयन करें जिसमें आप अपने इनपुट से पंक्तियों को उत्पन्न करना चाहते हैं। यहां हमने फील्ड सेपरेटर के रूप में “,” के साथ बेसिक मोड का चयन किया है।
अंत में, tFileOutputExcel घटक में, फ़ाइल नाम का पथ दें जहाँ आप संग्रहीत करना चाहते हैं
पत्रक नाम के साथ आपकी आउटपुट एक्सेल फ़ाइल। Click on sync columns।
नौकरी छोड़ना
एक बार जब आप अपने घटकों को जोड़ने, जोड़ने और कॉन्फ़िगर करने के साथ हो जाते हैं, तो आप अपनी प्रतिभा की नौकरी को अंजाम देने के लिए तैयार हैं। निष्पादन शुरू करने के लिए रन बटन पर क्लिक करें।
आप "," विभाजक के साथ मूल मोड में आउटपुट देखेंगे।
आप यह भी देख सकते हैं कि आपका आउटपुट आपके द्वारा बताए गए आउटपुट पथ पर एक एक्सेल के रूप में सहेजा गया है।
मेटाडेटा का मूल रूप से डेटा के बारे में डेटा है। यह बताता है कि क्या, कब, क्यों, कौन, कहां, कौन और कैसे डेटा। टैलेंड में, मेटाडेटा को डेटा की पूरी जानकारी है जो टैलेंड स्टूडियो में मौजूद है। मेटाडेटा विकल्प टैलेंड ओपन स्टूडियो के रिपोजिटरी फलक के अंदर मौजूद है।
डीबी कनेक्शंस, विभिन्न प्रकार की फाइलें, एलडीएपी, एज़्योर, सेल्सफोर्स, वेब सर्विसेज एफ़टीपी, हडोप क्लस्टर और कई अन्य विकल्प जैसे कई स्रोत टैलेंड मेटाडेटा के तहत मौजूद हैं।
टैलेंड ओपन स्टूडियो में मेटाडेटा का मुख्य उपयोग यह है कि आप इन डेटा स्रोतों का उपयोग कई नौकरियों में सिर्फ एक सरल ड्रैग और मेटाडेटा से रिपॉजिटरी पैनल में ड्रॉप करके कर सकते हैं।
प्रसंग चर वे चर होते हैं जिनके विभिन्न वातावरण में भिन्न मूल्य हो सकते हैं। आप एक संदर्भ समूह बना सकते हैं जो कई संदर्भ चर पकड़ सकता है। आपको एक काम के लिए एक-एक करके प्रत्येक संदर्भ चर को जोड़ने की आवश्यकता नहीं है, आप बस संदर्भ समूह को नौकरी में जोड़ सकते हैं।
इन चर का उपयोग कोड उत्पादन को तैयार करने के लिए किया जाता है। संदर्भ चर का उपयोग करके इसका मतलब है, आप कोड को विकास, परीक्षण या उत्पादन वातावरण में स्थानांतरित कर सकते हैं, यह सभी वातावरणों में चलेगा।
किसी भी नौकरी में, आप नीचे दिखाए गए संदर्भ टैब पर जा सकते हैं और संदर्भ चर जोड़ सकते हैं।
इस अध्याय में, हम नौकरियों के प्रबंधन और टैलेंड में शामिल कार्यात्मकताओं को देखते हैं।
एक घटक को सक्रिय / निष्क्रिय करना
एक घटक को सक्रिय / निष्क्रिय करना बहुत सरल है। आपको बस घटक का चयन करने की आवश्यकता है, उस पर राइट क्लिक करें, और उस घटक विकल्प को निष्क्रिय या सक्रिय करें चुनें।
आयात और निर्यात की जाने वाली वस्तुएं और भवन नौकरियां
आइटम को नौकरी से निर्यात करने के लिए, जॉब डिजाइन में काम पर राइट क्लिक करें और निर्यात आइटम पर क्लिक करें।
उस पथ को दर्ज करें जहां आप आइटम निर्यात करना चाहते हैं और समाप्त पर क्लिक करें।
आइटम को नौकरी से आयात करने के लिए, जॉब डिजाइन में काम पर राइट क्लिक करें और आयात आइटम पर क्लिक करें।
उस रूट निर्देशिका को ब्राउज़ करें जहाँ से आप आइटम आयात करना चाहते हैं।
सभी चेकबॉक्स चुनें और समाप्त करें पर क्लिक करें।
इस अध्याय में, आइए हम टैलेंड में नौकरी के निष्पादन को समझते हैं।
नौकरी बनाने के लिए, नौकरी पर राइट क्लिक करें और बिल्ड जॉब विकल्प चुनें।
उस पथ का उल्लेख करें जहां आप नौकरी संग्रह करना चाहते हैं, नौकरी संस्करण का चयन करें और प्रकार का निर्माण करें, फिर समाप्त पर क्लिक करें।
नॉर्मल मोड में जॉब कैसे चलाएं
सामान्य नोड में नौकरी चलाने के लिए, आपको "बेसिक रन" का चयन करना होगा और आरंभ करने के लिए रन बटन पर क्लिक करना होगा।
डिबग मोड में नौकरी कैसे चलाएं
डिबग मोड में नौकरी चलाने के लिए, उन घटकों को ब्रेकपॉइंट जोड़ें, जिन्हें आप डीबग करना चाहते हैं।
फिर, घटक पर चयन करें और राइट क्लिक करें, ब्रेकपॉइंट जोड़ें विकल्प पर क्लिक करें। ध्यान दें कि यहां हमने ब्रेकफॉइंट्स को tFileInputExcel और tLogRow घटकों में जोड़ा है। फिर, डिबग रन पर जाएं, और जावा डीबग बटन पर क्लिक करें।
आप निम्नलिखित स्क्रीनशॉट से देख सकते हैं कि नौकरी अब डिबग मोड में निष्पादित होगी और हमारे द्वारा उल्लिखित ब्रेकपॉइंट्स के अनुसार।
एडवांस सेटिंग
उन्नत सेटिंग में, आप सांख्यिकी, एक्जिट टाइम, एक्जाम से पहले सेव जॉब, रन से पहले क्लीयर और जेवीएम सेटिंग से चयन कर सकते हैं। इस विकल्प में प्रत्येक की कार्यक्षमता यहाँ बताई गई है -
Statistics - यह प्रसंस्करण की प्रदर्शन दर को प्रदर्शित करता है;
Exec Time - नौकरी निष्पादित करने के लिए लिया गया समय।
Save Job before Execution - निष्पादन शुरू होने से पहले स्वचालित रूप से नौकरी बचाता है।
Clear before Run - आउटपुट कंसोल से सबकुछ हटा देता है।
JVM Settings - हमें स्वयं जावा तर्क को कॉन्फ़िगर करने में मदद करता है।
बिग डेटा के साथ ओपन स्टूडियो के लिए टैग लाइन "बड़े डेटा के लिए प्रमुख मुक्त स्रोत ईटीएल उपकरण के साथ ईटीएल और ईएलटी को सरल बनाएं।" इस अध्याय में, हम बड़े डेटा वातावरण पर डेटा को संसाधित करने के लिए एक उपकरण के रूप में टैलेंड के उपयोग पर ध्यान दें।
परिचय
टैलेंड ओपन स्टूडियो - बिग डेटा एक बड़े डेटा वातावरण पर बहुत आसानी से अपने डेटा को संसाधित करने के लिए एक स्वतंत्र और खुला स्रोत उपकरण है। आपके पास टैलेंड ओपन स्टूडियो में बहुत सारे बड़े डेटा घटक उपलब्ध हैं, जो आपको बस कुछ हीडो घटकों के सरल खींचें और ड्रॉप द्वारा Hadoop जॉब बनाने और चलाने में मदद करते हैं।
इसके अलावा, हमें MapReduce कोड की बड़ी लाइनें लिखने की आवश्यकता नहीं है; टैलेंड ओपन स्टूडियो बिग डेटा आपको इसमें मौजूद घटकों के साथ ऐसा करने में मदद करता है। यह स्वचालित रूप से आपके लिए MapReduce कोड उत्पन्न करता है, आपको बस घटकों को खींचने और छोड़ने और कुछ मापदंडों को कॉन्फ़िगर करने की आवश्यकता है।
यह आपको कई बिग डेटा डिस्ट्रीब्यूशन जैसे कि क्लाउडरा, हॉर्टनवर्क्स, मैपआर, अमेज़ॅन ईएमआर और यहां तक कि अपाचे से भी कनेक्ट करने का विकल्प देता है।
बिग डेटा के लिए प्रतिभा घटक
बिग डेटा के तहत शामिल बिग डेटा वातावरण पर नौकरी चलाने के लिए घटकों के साथ श्रेणियों की सूची नीचे दी गई है -
टैलेंड ओपन स्टूडियो में बिग डेटा कनेक्टर और घटकों की सूची नीचे दी गई है -
tHDFSConnection - HDFS (Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम) से कनेक्ट करने के लिए उपयोग किया जाता है।
tHDFSInput - दिए गए एचडीएफ़एस पथ से डेटा को पढ़ता है, इसे प्रतिभाशाली स्कीमा में डालता है और फिर इसे अगले घटक को नौकरी में पास करता है।
tHDFSList - दिए गए hdfs पथ में सभी फ़ाइलों और फ़ोल्डरों को पुनर्प्राप्त करता है।
tHDFSPut - दिए गए पथ पर एचडीएफ के लिए स्थानीय फ़ाइल सिस्टम (उपयोगकर्ता-परिभाषित) से फ़ाइल / फ़ोल्डर की प्रतिलिपि।
tHDFSGet - एचडीएफ से स्थानीय फ़ाइल सिस्टम (उपयोगकर्ता द्वारा परिभाषित) में दिए गए पथ पर फ़ाइल / फ़ोल्डर की प्रतिलिपि।
tHDFSDelete - एचडीएफएस से फाइल डिलीट करता है
tHDFSExist - जाँच करता है कि कोई फाइल एचडीएफएस पर मौजूद है या नहीं।
tHDFSOutput - एचडीएफएस पर डेटा प्रवाह लिखता है।
tCassandraConnection - कैसेंड्रा सर्वर से कनेक्शन खोलता है।
tCassandraRow - निर्दिष्ट डेटाबेस पर CQL (कैसेंड्रा क्वेरी भाषा) क्वेरी चलाता है।
tHBaseConnection - HBase डेटाबेस से कनेक्शन खोलता है।
tHBaseInput - HBase डेटाबेस से डेटा पढ़ता है।
tHiveConnection - हाइव डेटाबेस से कनेक्शन खोलता है।
tHiveCreateTable - हाइव डेटाबेस के अंदर एक टेबल बनाता है।
tHiveInput - हाइव डेटाबेस से डेटा पढ़ता है।
tHiveLoad - हाइव टेबल या एक निर्दिष्ट निर्देशिका के लिए डेटा लिखता है।
tHiveRow - निर्दिष्ट डेटाबेस पर HiveQL प्रश्न चलाता है।
tPigLoad - आउटपुट स्ट्रीम में इनपुट डेटा को लोड करता है।
tPigMap - एक सुअर प्रक्रिया में डेटा को बदलने और रूट करने के लिए उपयोग किया जाता है।
tPigJoin - प्रदर्शन में शामिल होने के आधार पर 2 फ़ाइलों के संचालन में शामिल होता है।
tPigCoGroup - समूह और कई आदानों से आने वाले डेटा को एकत्र करता है।
tPigSort - दिए गए डेटा को एक या अधिक परिभाषित सॉर्ट कुंजियों के आधार पर सॉर्ट करता है।
tPigStoreResult - एक परिभाषित भंडारण स्थान पर सुअर के ऑपरेशन से परिणाम को स्टोर करता है।
tPigFilterRow - दिए गए शर्त के आधार पर डेटा को विभाजित करने के लिए निर्दिष्ट कॉलम को फ़िल्टर करता है।
tPigDistinct - रिलेशन से डुप्लीकेट ट्यूपल्स को हटाता है।
tSqoopImport - MySQL, Oracle DB से HDFS जैसे रिलेशनल डेटाबेस से डेटा ट्रांसफर करता है।
tSqoopExport - HDFS से डेटा को MySQL, Oracle DB जैसे रिलेशनल डेटाबेस में ट्रांसफर करता है
इस अध्याय में, आइए हम इस बारे में विस्तार से जानें कि हेंडोप वितरित फ़ाइल सिस्टम के साथ टैलेंड कैसे काम करता है।
सेटिंग्स और पूर्व-आवश्यकताएं
इससे पहले कि हम एचडीएफएस के साथ तालमेल में आगे बढ़ें, हमें सेटिंग्स और पूर्व-आवश्यकताओं के बारे में सीखना चाहिए जो इस उद्देश्य के लिए मिलना चाहिए।
यहां हम वर्चुअल बॉक्स पर Cloudera quickstart 5.10 VM चला रहे हैं। इस VM में होस्ट-ओनली नेटवर्क का उपयोग किया जाना चाहिए।
होस्ट-ओनली नेटवर्क IP: 192.168.56.101
आपके पास एक ही होस्ट है जो क्लाउडडा प्रबंधक पर भी चल रहा है।
अब आपके विंडोज़ सिस्टम पर, c: \ Windows \ System32 \ ड्राइवर्स \ etc \ होस्ट पर जाएँ और नीचे दिखाए गए अनुसार नोटपैड का उपयोग करके इस फ़ाइल को संपादित करें।
इसी तरह, आपके क्लाउडस्टार्ट क्विकस्टार्ट वीएम पर, नीचे दिखाए गए अनुसार अपनी / आदि / मेजबानों की फाइल को संपादित करें।
sudo gedit /etc/hosts
Hadoop कनेक्शन की स्थापना
रिपॉजिटरी पैनल में, मेटाडाटा पर जाएं। Hadoop क्लस्टर पर राइट क्लिक करें और एक नया क्लस्टर बनाएं। इस Hadoop क्लस्टर कनेक्शन के लिए नाम, उद्देश्य और विवरण दें।
अगला पर क्लिक करें।
क्लाउडडर के रूप में वितरण का चयन करें और उस संस्करण का चयन करें जिसका आप उपयोग कर रहे हैं। कॉन्फ़िगरेशन विकल्प पुनः प्राप्त करें का चयन करें और अगला क्लिक करें।
नीचे दिखाए गए अनुसार प्रबंधक क्रेडेंशियल (URI पोर्ट, उपयोगकर्ता नाम, पासवर्ड के साथ) दर्ज करें और कनेक्ट पर क्लिक करें। यदि विवरण सही हैं, तो आपको खोजे गए समूहों के तहत क्लूडेरा क्विकस्टार्ट मिलेगा।
Fetch पर क्लिक करें। यह HDFS, YARN, HBASE, HIVE के लिए सभी कनेक्शन और कॉन्फ़िगरेशन लाएगा।
सभी का चयन करें और समाप्त पर क्लिक करें।
ध्यान दें कि सभी कनेक्शन पैरामीटर ऑटो-भरे होंगे। उपयोगकर्ता नाम में क्लाउड दर्ज करें और समाप्त पर क्लिक करें।
इसके साथ, आप एक Hadoop क्लस्टर से सफलतापूर्वक जुड़े हुए हैं।
एचडीएफएस से कनेक्ट करना
इस नौकरी में, हम उन सभी निर्देशिकाओं और फाइलों को सूचीबद्ध करेंगे जो एचडीएफएस पर मौजूद हैं।
सबसे पहले, हम एक नौकरी बनाएंगे और फिर इसमें एचडीएफएस घटक जोड़ेंगे। जॉब डिज़ाइन पर राइट क्लिक करें और एक नया जॉब बनाएं - हैडजॉब।
अब पैलेट से 2 घटक जोड़ें - tHDFSConnection और tHDFSList। THDFSConnection पर राइट क्लिक करें और 'OnSubJobOk' ट्रिगर का उपयोग करके इन 2 घटकों को कनेक्ट करें।
अब, दोनों टैलेंट hdfs घटकों को कॉन्फ़िगर करें।
THDFSConnection में, संपत्ति प्रकार के रूप में रिपॉजिटरी चुनें और Hadoop clouddera क्लस्टर का चयन करें जिसे आपने पहले बनाया था। यह इस घटक के लिए आवश्यक सभी आवश्यक विवरणों को स्वतः भर देगा।
THDFSList में, "मौजूदा कनेक्शन का उपयोग करें" चुनें और घटक सूची में tHDFSConnection चुनें जिसे आपने कॉन्फ़िगर किया था।
HDFS डायरेक्टरी ऑप्शन में HDFS का होम पाथ दें और दाईं ओर ब्राउज बटन पर क्लिक करें।
यदि आपने उपर्युक्त कॉन्फ़िगरेशन के साथ कनेक्शन ठीक से स्थापित किया है, तो आपको नीचे दिखाए गए अनुसार एक विंडो दिखाई देगी। यह एचडीएफएस होम पर मौजूद सभी निर्देशिकाओं और फाइलों को सूचीबद्ध करेगा।
आप क्लाउड पर अपने एचडीएफएस की जांच करके इसे सत्यापित कर सकते हैं।
HDFS से फाइल पढ़ना
इस खंड में, हम समझते हैं कि टैलेंड में एचडीएफएस से फाइल कैसे पढ़ें। आप इस उद्देश्य के लिए एक नई नौकरी बना सकते हैं, हालांकि यहां हम मौजूदा का उपयोग कर रहे हैं।
खींचें और ड्रॉप 3 घटकों - tHDFSConnection, tHDFSInput और tLogRow पैलेट से डिजाइनर विंडो तक।
राइट क्लिक tHDFSConnection और 'OnSubJobOk' ट्रिगर का उपयोग करके tHDFSInput घटक कनेक्ट करें।
THDFSInput पर राइट क्लिक करें और tLogRow के लिए एक मुख्य लिंक खींचें।
ध्यान दें कि tHDFSConnection में पहले की तरह समान कॉन्फ़िगरेशन होगा। THDFSInput में, "एक मौजूदा कनेक्शन का उपयोग करें" का चयन करें और घटक सूची से, tHDFSConnection चुनें।
फ़ाइल नाम में, उस फ़ाइल का HDFS पथ दें जिसे आप पढ़ना चाहते हैं। यहाँ हम एक साधारण पाठ फ़ाइल पढ़ रहे हैं, इसलिए हमारी फ़ाइल प्रकार पाठ फ़ाइल है। इसी तरह, अपने इनपुट के आधार पर, पंक्ति विभाजक, फ़ील्ड विभाजक और हेडर विवरण को नीचे बताए अनुसार भरें। अंत में, स्कीमा संपादित करें बटन पर क्लिक करें।
चूँकि हमारी फ़ाइल में सिर्फ सादा पाठ है, इसलिए हम टाइपिंग स्ट्रिंग के केवल एक कॉलम को जोड़ रहे हैं। अब, Ok पर क्लिक करें।
Note - जब आपके इनपुट में विभिन्न प्रकार के कई कॉलम हैं, तो आपको तदनुसार स्कीमा का उल्लेख करना होगा।
TLogRow घटक में, संपादित स्कीमा में कॉलम समन्वयित करें पर क्लिक करें।
उस मोड का चयन करें जिसमें आप चाहते हैं कि आपका आउटपुट प्रिंट हो।
अंत में, कार्य निष्पादित करने के लिए चलाएँ क्लिक करें।
एक बार जब आप एचडीएफएस फ़ाइल पढ़ने में सफल हो जाते हैं, तो आप निम्न आउटपुट देख सकते हैं।
एचडीएफएस को फाइल लिखना
आइए देखें कि टैलेंट में एचडीएफएस से फाइल कैसे लिखें। खींचें और ड्रॉप 3 घटकों - tHDFSConnection, tFileInputDelimited और पैलेट से डिजाइनर विंडो में tHDFSOutput।
THDFSConnection पर राइट क्लिक करें और 'OnSubJobOk' ट्रिगर का उपयोग करके tFileInputDelimited घटक कनेक्ट करें।
TFileInputDelimited पर राइट क्लिक करें और tHDFSOutput के लिए एक मुख्य लिंक खींचें।
ध्यान दें कि tHDFSConnection में पहले की तरह समान कॉन्फ़िगरेशन होगा।
अब tFileInputDelimited में फाइल नेम / स्ट्रीम ऑप्शन में इनपुट फाइल का रास्ता दें। यहां हम एक इनपुट के रूप में सीएसवी फाइल का उपयोग कर रहे हैं, इसलिए क्षेत्र विभाजक "," है।
अपनी इनपुट फ़ाइल के अनुसार हेडर, फुटर, लिमिट चुनें। ध्यान दें कि यहां हमारा हेडर 1 है क्योंकि 1 पंक्ति में कॉलम नाम हैं और सीमा 3 है क्योंकि हम एचडीएफएस में केवल पहली 3 पंक्तियां लिख रहे हैं।
अब, स्कीमा संपादित करें पर क्लिक करें।
अब, हमारी इनपुट फ़ाइल के अनुसार, स्कीमा को परिभाषित करें। हमारी इनपुट फ़ाइल में नीचे बताए अनुसार 3 कॉलम हैं।
THDFSOutput घटक में, सिंक कॉलम पर क्लिक करें। फिर, मौजूदा कनेक्शन का उपयोग करें में tHDFSConnection चुनें। फ़ाइल नाम में भी, एक HDFS पथ दें जहाँ आप अपनी फ़ाइल लिखना चाहते हैं।
ध्यान दें कि फ़ाइल प्रकार पाठ फ़ाइल होगी, क्रिया "बनाएँ" होगी, रो विभाजक "\ n" और क्षेत्र विभाजक होगा। ""
अंत में, अपनी नौकरी निष्पादित करने के लिए रन पर क्लिक करें। एक बार जब नौकरी सफलतापूर्वक निष्पादित हो जाती है, तो जांचें कि आपकी फ़ाइल एचडीएफएस पर है या नहीं।
अपनी नौकरी में आपके द्वारा बताए गए आउटपुट पथ के साथ निम्न एचडीएफ़एस कमांड चलाएं।
hdfs dfs -cat /input/talendwrite
यदि आप HDFS पर लिखने में सफल हैं तो आपको निम्न आउटपुट दिखाई देंगे।
पिछले अध्याय में, हमने देखा है कि बिग डेटा के साथ टैलेंड कैसे काम करता है। इस अध्याय में, हम समझते हैं कि टैलेंड के साथ मैप रिड्यूस का उपयोग कैसे करें।
एक Talend MapReduce Job बनाना
आइए जानें कि टैलेंड पर MapReduce जॉब कैसे चलाएं। यहाँ हम एक MapReduce शब्द काउंट उदाहरण चलाएंगे।
इस उद्देश्य के लिए, नौकरी डिज़ाइन पर राइट क्लिक करें और एक नया कार्य बनाएं - MapreduceJob। नौकरी के विवरण का उल्लेख करें और समाप्त पर क्लिक करें।
MapReduce जॉब में कंपोनेंट्स जोड़ना
MapReduce जॉब में कंपोनेंट्स जोड़ने के लिए, Talend के पांच कंपोनेंट्स को खींचें और ड्रॉप करें - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput फूस से डिजाइनर विंडो में। THDFSInput पर राइट क्लिक करें और tNormalize का मुख्य लिंक बनाएं।
राइट क्लिक tNcommonize और tAggregateRow के लिए मुख्य लिंक बनाएँ। फिर, tAggregateRow पर राइट क्लिक करें और tMap के लिए मुख्य लिंक बनाएं। अब, tMap पर राइट क्लिक करें और tHDFSOutput का मुख्य लिंक बनाएं।
घटक और रूपांतरण कॉन्फ़िगर करना
THDFSInput में, वितरण क्लाउड और उसके संस्करण का चयन करें। ध्यान दें कि नामेनोड यूआरआई "एचडीएफएस: //quickstart.cloudera: 8020" और उपयोगकर्ता नाम "बादल" होना चाहिए। फ़ाइल नाम विकल्प में, अपने इनपुट फ़ाइल का रास्ता MapReduce जॉब को दें। सुनिश्चित करें कि यह इनपुट फ़ाइल HDFS पर मौजूद है।
अब, अपने इनपुट फ़ाइल के अनुसार फ़ाइल प्रकार, पंक्ति विभाजक, फ़ाइलें विभाजक और हेडर चुनें।
स्कीमा संपादित करें पर क्लिक करें और स्ट्रिंग प्रकार के रूप में फ़ील्ड "लाइन" जोड़ें।
TNomalize में, कॉलम को सामान्य करने के लिए लाइन होगी और आइटम विभाजक व्हॉट्सएप होगा -> ""। अब, स्कीमा संपादित करें पर क्लिक करें। tNormalize में लाइन कॉलम होगा और tAggregateRow में नीचे दिखाए गए अनुसार 2 कॉलम शब्द और वर्डकाउंट होंगे।
TAggregateRow में, विकल्प के रूप में समूह में आउटपुट कॉलम के रूप में शब्द डालें। संचालन में, शब्दकाउंट को आउटपुट कॉलम के रूप में, रेखा के रूप में कार्य और इनपुट कॉलम स्थिति के रूप में कार्य करें।
अब मानचित्र संपादक में प्रवेश करने के लिए tMap घटक पर डबल क्लिक करें और आवश्यक आउटपुट के साथ इनपुट को मैप करें। इस उदाहरण में, शब्द को शब्द के साथ मैप किया गया है और वर्डकाउंट को वर्डकाउंट के साथ मैप किया गया है। अभिव्यक्ति कॉलम में, अभिव्यक्ति बिल्डर में प्रवेश करने के लिए […] पर क्लिक करें।
अब, श्रेणी सूची और UPCASE फ़ंक्शन से स्ट्रिंगहैंडलिंग का चयन करें। "StringHandling.UPCASE (row3.word)" की अभिव्यक्ति को संपादित करें और Ok पर क्लिक करें। नीचे दिए गए अनुसार word3 के अनुरूप अभिव्यक्ति कॉलम में row3.wordcount रखें।
THDFSOutput में, हम प्रॉपर्टी प्रकार से रिपोजिटरी के रूप में बनाए गए Hadoop क्लस्टर से कनेक्ट करते हैं। निरीक्षण करें कि खेतों को ऑटो-आबादी मिलेगी। फ़ाइल नाम में, आउटपुट पथ दें जहाँ आप आउटपुट संग्रहीत करना चाहते हैं। नीचे दिखाए अनुसार क्रिया, पंक्ति विभाजक और क्षेत्र विभाजक रखें।
MapReduce जॉब को निष्पादित करना
एक बार आपका कॉन्फ़िगरेशन सफलतापूर्वक पूरा हो जाने पर, चलाएँ पर क्लिक करें और अपने MapReduce कार्य को निष्पादित करें।
अपने एचडीएफएस पथ पर जाएं और आउटपुट की जांच करें। ध्यान दें कि सभी शब्द उनके शब्दकोष के साथ बड़े अक्षरों में होंगे।
इस अध्याय में, आइए जानें कि टैलेंड में पिग जॉब कैसे करें।
टैलेंट पिग जॉब बनाना
इस खंड में, आइए जानें कि टैलेंड पर एक पिग जॉब कैसे चलाया जाए। यहां, हम IBM के औसत स्टॉक वॉल्यूम का पता लगाने के लिए NYSE डेटा प्रोसेस करेंगे।
इसके लिए, Job Design पर राइट क्लिक करें और एक नया जॉब बनाएं - pigjob। नौकरी के विवरण का उल्लेख करें और समाप्त पर क्लिक करें।
पिग जॉब में कंपोनेंट जोड़ना
सुअर की नौकरी में घटकों को जोड़ने के लिए, चार टैलेंड घटकों को खींचें और छोड़ें: फूस से डिजाइनर विंडो में tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult।
फिर, tPigLoad पर राइट क्लिक करें और Pig Combine line को tPigFilterRow बनाएं। अगला, राइट क्लिक tPigFilterRow और सुअर गठबंधन लाइन को tPigAggregate बनाएँ। TPigAggregate पर राइट क्लिक करें और tPigStoreResult पर Pig Combine Line बनाएँ।
घटक और रूपांतरण कॉन्फ़िगर करना
TPigLoad में, क्लाउडडेरा और क्लाउडडा के संस्करण के रूप में वितरण का उल्लेख करें। ध्यान दें कि नामेनोड यूआरआई "hdfs: //quickstart.cloudera: 8020" होना चाहिए और संसाधन प्रबंधक "quickstart.cloudera: 8020" होना चाहिए। इसके अलावा, उपयोगकर्ता नाम "क्लाउड" होना चाहिए।
इनपुट फ़ाइल URI में, अपने NYSE इनपुट फ़ाइल को सुअर की नौकरी के लिए पथ दें। ध्यान दें कि यह इनपुट फ़ाइल HDFS पर मौजूद होनी चाहिए।
संपादन स्कीमा पर क्लिक करें, कॉलम और उसके प्रकार को नीचे दिखाए अनुसार जोड़ें।
TPigFilterRow में, “उन्नत फ़िल्टर का उपयोग करें” विकल्प चुनें और फ़िल्टर विकल्प में “stock_symbol = = the IBM’ डालें।
TAggregateRow में, स्कीमा संपादित करें पर क्लिक करें और नीचे दिखाए गए अनुसार avg_stock_volume कॉलम जोड़ें।
अब, विकल्प के अनुसार Group में स्टॉक_एक्सचेंज कॉलम डालें। इनपुट फ़ंक्शन के रूप में गणना फ़ंक्शन और स्टॉक_एक्सचेंज के साथ संचालन क्षेत्र में avg_stock_volume कॉलम जोड़ें।
TPigStoreResult में, परिणाम फ़ोल्डर URI में आउटपुट पथ दें, जहाँ आप सुअर की नौकरी के परिणाम को संग्रहीत करना चाहते हैं। PigStorage और क्षेत्र विभाजक (अनिवार्य नहीं) के रूप में "\ t" के रूप में स्टोर फ़ंक्शन का चयन करें।
सुअर का काम छोड़ना
अब अपने सुअर नौकरी को निष्पादित करने के लिए रन पर क्लिक करें। (चेतावनियों को नजरअंदाज करें)
एक बार जब नौकरी समाप्त हो जाती है, तो जाओ और अपने आउटपुट को एचडीएफएस पथ पर जांचें जो आपने सुअर नौकरी के परिणाम को संग्रहीत करने के लिए उल्लेख किया है। आईबीएम का औसत स्टॉक वॉल्यूम 500 है।
इस अध्याय में, हम समझते हैं कि टैलेंड पर हाइव की नौकरी कैसे करें।
एक टैलेंट हाइव जॉब बनाना
एक उदाहरण के रूप में, हम NYSE डेटा को एक हाइव टेबल पर लोड करेंगे और एक मूल हाइव क्वेरी चलाएंगे। जॉब डिज़ाइन पर राइट क्लिक करें और एक नया जॉब बनाएं - hivejob। नौकरी के विवरण का उल्लेख करें और समाप्त पर क्लिक करें।
Hive जॉब में कंपोनेंट्स जोड़ना
Hive जॉब के लिए कंपोनेंट्स को असिस्ट करने के लिए, पाँच टैलेंट घटकों को खींचें और छोड़ें - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput और tLogRow को फूस से डिज़ाइनर विंडो में। फिर, tHiveConnection पर राइट क्लिक करें और THiveCreateTable पर OnSubjobOk ट्रिगर बनाएं। अब, tHiveCreateTable पर राइट क्लिक करें और THiveLoad पर OnSubjobOk ट्रिगर बनाएं। राइट क्लिक tHiveLoad और tHiveInput पर iterate ट्रिगर बनाएं। अंत में, tHiveInput पर राइट क्लिक करें और tLogRow के लिए एक मुख्य लाइन बनाएं।
घटक और रूपांतरण कॉन्फ़िगर करना
THiveConnection में, वितरण को क्लाउडडर और उसके संस्करण के रूप में चुनें जो आप उपयोग कर रहे हैं। ध्यान दें कि कनेक्शन मोड स्टैंडअलोन होगा और हाइव सर्विस हाइव 2 होगी। यह भी जांच लें कि क्या निम्न मापदंडों के अनुसार सेट किया गया है -
- होस्ट: "quickstart.cloudera"
- पोर्ट: "10000"
- डेटाबेस: "डिफ़ॉल्ट"
- उपयोगकर्ता नाम: "हाइव"
ध्यान दें कि पासवर्ड स्वतः भरा जाएगा, आपको इसे संपादित करने की आवश्यकता नहीं है। इसके अलावा अन्य Hadoop गुण पूर्व निर्धारित और डिफ़ॉल्ट रूप से सेट होंगे।
THiveCreateTable में, मौजूदा कनेक्शन का उपयोग करें और घटक सूची में tHiveConnection डालें। वह तालिका नाम दें जिसे आप डिफ़ॉल्ट डेटाबेस में बनाना चाहते हैं। अन्य मापदंडों को नीचे दिखाए अनुसार रखें।
THiveLoad में, "मौजूदा कनेक्शन का उपयोग करें" चुनें और घटक सूची में tHiveConnection डालें। लोड कार्रवाई में लोड का चयन करें। फ़ाइल पथ में, अपने NYSE इनपुट फ़ाइल का HDFS पथ दें। तालिका का नाम तालिका में उल्लेख करें, जिसमें आप इनपुट लोड करना चाहते हैं। अन्य मापदंडों को नीचे दिखाए अनुसार रखें।
THiveInput में, एक मौजूदा कनेक्शन का उपयोग करें और घटक सूची में tHiveConnection का चयन करें। संपादित स्कीमा पर क्लिक करें, कॉलम और उसके प्रकार को जोड़ दें जैसा कि नीचे दिए गए स्कीमा स्नैपशॉट में दिखाया गया है। अब टेबल का नाम दें जो आपने tHiveCreateTable में बनाया है।
अपनी क्वेरी क्वेरी विकल्प में रखें जिसे आप हाइव टेबल पर चलाना चाहते हैं। यहां हम परीक्षण हाइव तालिका में पहले 10 पंक्तियों के सभी कॉलमों को प्रिंट कर रहे हैं।
TLogRow में, सिंक कॉलम पर क्लिक करें और आउटपुट दिखाने के लिए टेबल मोड चुनें।
हाइव जॉब का निष्पादन
निष्पादन शुरू करने के लिए रन पर क्लिक करें। यदि सभी कनेक्शन और पैरामीटर सही तरीके से सेट किए गए थे, तो आप नीचे दिखाए गए अनुसार अपनी क्वेरी का आउटपुट देखेंगे।