अपाचे स्पार्क - कोर प्रोग्रामिंग
स्पार्क कोर पूरी परियोजना का आधार है। यह वितरित प्रेषण, शेड्यूलिंग और बुनियादी I / O फ़ंक्शंस प्रदान करता है। स्पार्क RDD के रूप में जाना जाने वाला एक विशेष मौलिक डेटा संरचना का उपयोग करता है (लचीला वितरित डेटासेट) जो मशीनों के पार डेटा विभाजन का एक तार्किक संग्रह है। RDD को दो तरह से बनाया जा सकता है; एक बाह्य भंडारण प्रणालियों में डेटासेट संदर्भित करके है और दूसरा मौजूदा RDD पर रूपांतरण (जैसे मानचित्र, फ़िल्टर, रिड्यूसर, ज्वाइन) लगाने से है।
RDD अमूर्त एक भाषा-एकीकृत एपीआई के माध्यम से उजागर होता है। यह प्रोग्रामिंग जटिलता को आसान बनाता है क्योंकि जिस तरह से RDDs में एप्लिकेशन हेरफेर करते हैं वह डेटा के स्थानीय संग्रह में हेरफेर करने के समान है।
स्पार्क शेल
स्पार्क एक इंटरैक्टिव शेल प्रदान करता है - डेटा का इंटरेक्टिव रूप से विश्लेषण करने के लिए एक शक्तिशाली उपकरण। यह स्काला या पाइथन भाषा में उपलब्ध है। स्पार्क का प्राथमिक अमूर्त वस्तुओं का वितरित संग्रह है, जिसे रेजिस्टेंट डिस्ट्रीब्यूटेड डेटसेट (आरडीडी) कहा जाता है। RDDs को Hadoop Input Formats (जैसे HDFS फाइलें) से या अन्य RDDs को रूपांतरित करके बनाया जा सकता है।
स्पार्क खोल खोलें
स्पार्क शेल को खोलने के लिए निम्न कमांड का उपयोग किया जाता है।
$ spark-shell
सरल RDD बनाएँ
पाठ फ़ाइल से एक सरल RDD बनाते हैं। एक साधारण RDD बनाने के लिए निम्न कमांड का उपयोग करें।
scala> val inputfile = sc.textFile(“input.txt”)
उपरोक्त कमांड के लिए आउटपुट है
inputfile: org.apache.spark.rdd.RDD[String] = input.txt MappedRDD[1] at textFile at <console>:12
स्पार्क आरडीडी एपीआई कुछ का परिचय देता है Transformations और कुछ Actions RDD में हेरफेर करने के लिए।
RDD ट्रांसफ़ॉर्मेशन
RDD परिवर्तन नए RDD के लिए सूचक लौटाता है और आपको RDD के बीच निर्भरता बनाने की अनुमति देता है। निर्भरता श्रृंखला में प्रत्येक RDD (स्ट्रिंग ऑफ डिपेंडेंसी) के पास अपने डेटा की गणना करने के लिए एक फ़ंक्शन होता है और इसके मूल RDD के लिए एक संकेतक (निर्भरता) होता है।
स्पार्क आलसी है, इसलिए कुछ भी निष्पादित नहीं किया जाएगा जब तक कि आप कुछ परिवर्तन या कार्रवाई को नहीं बुलाते हैं जो रोजगार सृजन और निष्पादन को गति प्रदान करेगा। शब्द-गणना उदाहरण के निम्नलिखित स्निपेट को देखें।
इसलिए, RDD परिवर्तन डेटा का एक सेट नहीं है, लेकिन एक कार्यक्रम में एक कदम (शायद एकमात्र कदम हो सकता है) स्पार्क को बता रहा है कि डेटा कैसे प्राप्त करें और इसके साथ क्या करना है।
नीचे दिए गए RDD परिवर्तनों की एक सूची है।
S.No | रूपांतरण और अर्थ |
---|---|
1 | map(func) फ़ंक्शन के माध्यम से स्रोत के प्रत्येक तत्व को पारित करके एक नया वितरित डेटासेट देता है func। |
2 | filter(func) स्रोत के उन तत्वों का चयन करके गठित एक नया डेटासेट देता है, जिस पर func सच लौटाता है। |
3 | flatMap(func) मानचित्र के समान, लेकिन प्रत्येक इनपुट आइटम को 0 या अधिक आउटपुट आइटम पर मैप किया जा सकता है (इसलिए फंक को एकल आइटम के बजाय Seq लौटना चाहिए)। |
4 | mapPartitions(func) मानचित्र के समान, लेकिन आरडीडी के प्रत्येक विभाजन (ब्लॉक) पर अलग से चलता है, इसलिए func टाइप I का होना चाहिए Iterator <T> ⇒ Iterator <U> जब टाइप T के RDD पर चल रहा हो। |
5 | mapPartitionsWithIndex(func) मानचित्र विभाजन के समान, लेकिन यह भी प्रदान करता है func एक पूर्णांक मान के साथ विभाजन के सूचकांक का प्रतिनिधित्व करता है, इसलिए func प्रकार का होना चाहिए (Int, Iterator <T>) ⇒ Iterator <U> जब टाइप T के RDD पर चल रहा हो। |
6 | sample(withReplacement, fraction, seed) नमूना a fraction डेटा के साथ या प्रतिस्थापन के बिना, एक यादृच्छिक संख्या जनरेटर बीज का उपयोग कर। |
7 | union(otherDataset) एक नया डेटासेट देता है जिसमें स्रोत डेटासेट और तर्क में तत्वों का मिलन होता है। |
8 | intersection(otherDataset) एक नया RDD लौटाता है जिसमें स्रोत डेटासेट और तर्क में तत्वों का प्रतिच्छेदन होता है। |
9 | distinct([numTasks]) एक नया डेटासेट देता है जिसमें स्रोत डेटासेट के अलग-अलग तत्व होते हैं। |
10 | groupByKey([numTasks]) जब (K, V) जोड़े के डेटासेट पर कॉल किया जाता है, तो (K, Iterable <V>) जोड़े के डेटासेट लौटाता है। Note - यदि आप प्रत्येक कुंजी के ऊपर एकत्रीकरण (जैसे योग या औसत) करने के लिए समूहीकरण कर रहे हैं, तो कमबाइके या समुच्चयबैंक का उपयोग करके बेहतर प्रदर्शन प्राप्त करेंगे। |
1 1 | reduceByKey(func, [numTasks]) जब (K, V) जोड़े के डेटासेट पर कॉल किया जाता है, तो (K, V) जोड़े के एक डेटासेट देता है, जहां दिए गए कम फंक्शन फंक का उपयोग करके प्रत्येक कुंजी के मानों को एकत्र किया जाता है , जो कि टाइप (V, V) ⇒ V का होना चाहिए । जैसे groupByKey में, कार्य को कम करने की संख्या एक वैकल्पिक दूसरे तर्क के माध्यम से कॉन्फ़िगर करने योग्य है। |
12 | aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) जब (K, V) जोड़े के डेटासेट पर कॉल किया जाता है, तो (K, U) जोड़े के एक डेटासेट देता है, जहां दिए गए कंबाइन फ़ंक्शन और एक तटस्थ "शून्य" मान का उपयोग करके प्रत्येक कुंजी के मानों को एकत्र किया जाता है। एक एकीकृत मूल्य प्रकार को अनुमति देता है जो अनावश्यक आवंटन से बचने के दौरान इनपुट मूल्य प्रकार से भिन्न होता है। GroupByKey की तरह, वैकल्पिक दूसरे तर्क के माध्यम से कम कार्यों की संख्या कॉन्फ़िगर करने योग्य है। |
13 | sortByKey([ascending], [numTasks]) जब (K, V) युग्मों के डेटासेट पर कॉल किया जाता है, जहाँ K क्रमबद्ध करता है, तो K (K, V) जोड़े के डेटासेट्स को आरोही या अवरोही क्रम में कुंजियों द्वारा क्रमबद्ध करता है, जैसा कि बूलियन आरोही तर्क में निर्दिष्ट है। |
14 | join(otherDataset, [numTasks]) जब (K, V) और (K, W) प्रकार के डेटासेट पर कॉल किया जाता है, तो प्रत्येक कुंजी के लिए तत्वों के सभी जोड़े के साथ (K, (V, W)) जोड़े का एक डेटासेट लौटाता है। बाहरी जॉइंट को leftOuterJoin, rightOuterJoin, और fullOuterJoin के माध्यम से सपोर्ट किया जाता है। |
15 | cogroup(otherDataset, [numTasks]) जब (K, V) और (K, W) प्रकार के डेटासेट पर कॉल किया जाता है, तो (K, (Iterable <V>, Iterable <W>)) ट्यूपल्स का एक डेटासेट लौटाता है। इस ऑपरेशन को ग्रुप विथ ग्रुप भी कहा जाता है। |
16 | cartesian(otherDataset) जब T और U के डेटासेट पर कॉल किया जाता है, तो (T, U) जोड़े (तत्वों के सभी जोड़े) का एक डेटासेट लौटाता है। |
17 | pipe(command, [envVars]) खोल के माध्यम से RDD के प्रत्येक विभाजन को पाइप करें, उदाहरण के लिए एक पर्ल या बैश स्क्रिप्ट। RDD तत्वों को प्रक्रिया के स्टैडेन को लिखा जाता है और इसके स्टडआउट को लाइनों का आउटपुट स्ट्रिंग्स के RDD के रूप में दिया जाता है। |
18 | coalesce(numPartitions) आरडीडी में विभाजन की संख्या को अंकन में घटाएं। बड़े डेटासेट को फ़िल्टर करने के बाद अधिक कुशलता से संचालन चलाने के लिए उपयोगी। |
19 | repartition(numPartitions) RDD में डेटा को फेरबदल करना या तो अधिक या कम विभाजन बनाने के लिए बेतरतीब ढंग से और उनके बीच इसे संतुलित करना। यह हमेशा नेटवर्क पर सभी डेटा फेरबदल करता है। |
20 | repartitionAndSortWithinPartitions(partitioner) दिए गए पार्टीशनर के अनुसार RDD का पुन: निर्धारण और प्रत्येक परिणामी विभाजन के भीतर, उनकी कुंजियों द्वारा रिकॉर्ड्स को सॉर्ट करें। यह रिपर्टिंग को कॉल करने और फिर प्रत्येक विभाजन के भीतर छाँटने की तुलना में अधिक कुशल है क्योंकि यह छँटाई मशीनरी में नीचे की ओर धकेल सकता है। |
कार्रवाई
निम्न तालिका क्रियाओं की सूची देती है, जो मान लौटाते हैं।
S.No | क्रिया और अर्थ |
---|---|
1 | reduce(func) किसी फ़ंक्शन का उपयोग करके डेटासेट के तत्वों को अलग करें func(जो दो तर्क लेता है और एक लौटता है)। फ़ंक्शन को कम्यूटेटिव और साहचर्य होना चाहिए ताकि इसे समानांतर में सही ढंग से गणना की जा सके। |
2 | collect() ड्राइवर प्रोग्राम में एक सरणी के रूप में डेटासेट के सभी तत्वों को लौटाता है। यह आमतौर पर एक फिल्टर या अन्य ऑपरेशन के बाद उपयोगी होता है जो डेटा का एक छोटा सा सबसेट लौटाता है। |
3 | count() डेटासेट में तत्वों की संख्या लौटाता है। |
4 | first() डेटासेट का पहला तत्व देता है (लेने के समान) (1)। |
5 | take(n) पहले के साथ एक सरणी देता है n डेटासेट के तत्व। |
6 | takeSample (withReplacement,num, [seed]) एक यादृच्छिक नमूने के साथ एक सरणी देता है num डेटासेट के तत्व, प्रतिस्थापन के साथ या बिना, यादृच्छिक संख्या जनरेटर बीज को वैकल्पिक रूप से पूर्व-निर्दिष्ट करते हैं। |
7 | takeOrdered(n, [ordering]) पहले लौटता है n RDD के तत्व या तो उनके प्राकृतिक क्रम या एक कस्टम तुलनित्र का उपयोग करते हैं। |
8 | saveAsTextFile(path) स्थानीय फ़ाइल सिस्टम, HDFS या किसी अन्य Hadoop- समर्थित फ़ाइल सिस्टम में दी गई निर्देशिका में डेटासेट के तत्वों को एक टेक्स्ट फ़ाइल (या टेक्स्ट फ़ाइलों का सेट) के रूप में लिखता है। स्पार्क कॉल के प्रत्येक तत्व को फ़ाइल में पाठ की एक पंक्ति में बदलने के लिए कॉल करता है। |
9 | saveAsSequenceFile(path) (Java and Scala) स्थानीय फाइल सिस्टम, HDFS या किसी अन्य Hadoop समर्थित फ़ाइल सिस्टम में दिए गए पथ में एक Hadoop SequenceFile के रूप में डेटासेट के तत्वों को लिखता है। यह कुंजी-मूल्य जोड़े के RDD पर उपलब्ध है जो Hadoop के Writable इंटरफ़ेस को कार्यान्वित करता है। स्काला में, यह उन प्रकारों पर भी उपलब्ध है जो अनुमानित रूप से Writable (परिवर्तनीय) में शामिल हैं, जैसे Int, Double, String, आदि जैसे बुनियादी प्रकारों के लिए रूपांतरण। |
10 | saveAsObjectFile(path) (Java and Scala) जावा सीरियलाइज़ेशन का उपयोग करके डेटासेट के तत्वों को एक सरल प्रारूप में लिखा जाता है, जिसे बाद में स्पार्ककोटेक्स्ट.ओबजेक्टफाइल () का उपयोग करके लोड किया जा सकता है। |
1 1 | countByKey() केवल RDD प्रकार (K, V) पर उपलब्ध है। प्रत्येक कुंजी की गिनती के साथ (K, Int) जोड़े का हैशमप लौटाता है। |
12 | foreach(func) एक फ़ंक्शन चलाता है funcडेटासेट के प्रत्येक तत्व पर। यह आमतौर पर साइड इफेक्ट्स के लिए किया जाता है, जैसे कि एक्सुमुलेटर को अपडेट करना या बाहरी भंडारण प्रणालियों के साथ बातचीत करना। Noteफॉर्च्यूनर () के बाहर Accumulators के अलावा अन्य चर को संशोधित करने से अपरिभाषित व्यवहार हो सकता है। अधिक विवरण के लिए अंडरस्टैंडिंग देखें। |
RDD के साथ प्रोग्रामिंग
एक उदाहरण की मदद से RDD प्रोग्रामिंग में कुछ RDD परिवर्तनों और कार्यों के कार्यान्वयन को देखते हैं।
उदाहरण
एक शब्द गणना उदाहरण पर विचार करें - यह एक दस्तावेज़ में दिखाई देने वाले प्रत्येक शब्द को गिनता है। निम्नलिखित पाठ को एक इनपुट के रूप में देखें और इसे एक के रूप में सहेजा जाता हैinput.txt एक घर निर्देशिका में फ़ाइल।
input.txt - इनपुट फ़ाइल।
people are not as beautiful as they look,
as they walk or as they talk.
they are only as beautiful as they love,
as they care as they share.
दिए गए उदाहरण को निष्पादित करने के लिए नीचे दी गई प्रक्रिया का पालन करें।
ओपन स्पार्क-शेल
स्पार्क शेल को खोलने के लिए निम्न कमांड का उपयोग किया जाता है। आमतौर पर, स्पला स्केला का उपयोग करके बनाया जाता है। इसलिए, एक स्पार्क कार्यक्रम स्काला पर्यावरण पर चलता है।
$ spark-shell
यदि स्पार्क शेल सफलतापूर्वक खुलता है तो आपको निम्न आउटपुट मिलेगा। आउटपुट की अंतिम पंक्ति को देखें "स्पार्क संदर्भ एससी के रूप में उपलब्ध है" का अर्थ है कि स्पार्क कंटेनर स्वचालित रूप से नाम के साथ स्पार्क संदर्भ ऑब्जेक्ट बनाया गया हैsc। किसी प्रोग्राम का पहला चरण शुरू करने से पहले, SparkContext ऑब्जेक्ट बनाया जाना चाहिए।
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
15/06/04 15:25:22 INFO SecurityManager: Changing view acls to: hadoop
15/06/04 15:25:22 INFO SecurityManager: Changing modify acls to: hadoop
15/06/04 15:25:22 INFO SecurityManager: SecurityManager: authentication disabled;
ui acls disabled; users with view permissions: Set(hadoop); users with modify permissions: Set(hadoop)
15/06/04 15:25:22 INFO HttpServer: Starting HTTP Server
15/06/04 15:25:23 INFO Utils: Successfully started service 'HTTP class server' on port 43292.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.4.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71)
Type in expressions to have them evaluated.
Spark context available as sc
scala>
एक RDD बनाएँ
सबसे पहले, हमें Spark-Scala API का उपयोग करके इनपुट फ़ाइल को पढ़ना होगा और RDD बनाना होगा।
निम्न कमांड का उपयोग किसी दिए गए स्थान से फाइल पढ़ने के लिए किया जाता है। यहां, नए RDD को इनपुटफाइल के नाम से बनाया गया है। स्ट्रिंग जिसे टेक्स्टफाइल ("") विधि में एक तर्क के रूप में दिया गया है, इनपुट फ़ाइल नाम के लिए निरपेक्ष पथ है। हालांकि, यदि केवल फ़ाइल नाम दिया गया है, तो इसका मतलब है कि इनपुट फ़ाइल वर्तमान स्थान पर है।
scala> val inputfile = sc.textFile("input.txt")
शब्द गणना परिवर्तन निष्पादित करें
हमारा उद्देश्य शब्दों को एक फ़ाइल में गिनना है। प्रत्येक पंक्ति को शब्दों में विभाजित करने के लिए एक फ्लैट नक्शा बनाएं (flatMap(line ⇒ line.split(“ ”))।
अगला, प्रत्येक शब्द को एक मान के साथ एक कुंजी के रूप में पढ़ें ‘1’ (<कुंजी, मूल्य> = <शब्द, 1>) मानचित्र फ़ंक्शन का उपयोग करके (map(word ⇒ (word, 1))।
अंत में, समान कुंजियों का मान जोड़कर उन कुंजियों को कम करें (reduceByKey(_+_))।
शब्द गणना तर्क को निष्पादित करने के लिए निम्नलिखित कमांड का उपयोग किया जाता है। इसे निष्पादित करने के बाद, आपको कोई आउटपुट नहीं मिलेगा क्योंकि यह कोई क्रिया नहीं है, यह एक परिवर्तन है; एक नए आरडीडी को इंगित करना या दिए गए डेटा के साथ क्या करना है, इस पर स्पार्क बताना)
scala> val counts = inputfile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_);
वर्तमान आरडीडी
RDD के साथ काम करते समय, यदि आप वर्तमान RDD के बारे में जानना चाहते हैं, तो निम्नलिखित कमांड का उपयोग करें। यह आपको डीबगिंग के लिए वर्तमान RDD और उसकी निर्भरता के बारे में विवरण दिखाएगा।
scala> counts.toDebugString
ट्रांसफॉर्मेशन कैशिंग
आप उस पर लगातार () या कैश () विधियों का उपयोग करके एक RDD को चिह्नित किया जा सकता है। पहली बार इसकी गणना एक कार्रवाई में की जाती है, इसे नोड्स पर स्मृति में रखा जाएगा। स्मृति में मध्यवर्ती परिवर्तनों को संग्रहीत करने के लिए निम्न आदेश का उपयोग करें।
scala> counts.cache()
क्रिया को लागू करना
एक क्रिया को लागू करना, जैसे सभी परिवर्तनों को संग्रहीत करना, एक पाठ फ़ाइल में परिणाम। SaveAsTextFile ("") विधि के लिए स्ट्रिंग तर्क आउटपुट फ़ोल्डर का पूर्ण पथ है। पाठ फ़ाइल में आउटपुट सहेजने के लिए निम्न कमांड का प्रयास करें। निम्नलिखित उदाहरण में, 'आउटपुट' फ़ोल्डर चालू स्थान पर है।
scala> counts.saveAsTextFile("output")
आउटपुट जाँच रहा है
होम डायरेक्टरी में जाने के लिए एक और टर्मिनल खोलें (जहां दूसरे टर्मिनल में स्पार्क निष्पादित होता है)। आउटपुट निर्देशिका की जाँच के लिए निम्न आदेशों का उपयोग करें।
[hadoop@localhost ~]$ cd output/
[hadoop@localhost output]$ ls -1
part-00000
part-00001
_SUCCESS
निम्न कमांड का उपयोग आउटपुट को देखने के लिए किया जाता है Part-00000 फ़ाइलें।
[hadoop@localhost output]$ cat part-00000
उत्पादन
(people,1)
(are,2)
(not,1)
(as,8)
(beautiful,2)
(they, 7)
(look,1)
निम्न कमांड का उपयोग आउटपुट को देखने के लिए किया जाता है Part-00001 फ़ाइलें।
[hadoop@localhost output]$ cat part-00001
उत्पादन
(walk, 1)
(or, 1)
(talk, 1)
(only, 1)
(love, 1)
(care, 1)
(share, 1)
संयुक्त राष्ट्र ने भंडारण को जारी रखा
UN-persisting से पहले, यदि आप इस एप्लिकेशन के लिए उपयोग किए जाने वाले संग्रहण स्थान को देखना चाहते हैं, तो अपने ब्राउज़र में निम्न URL का उपयोग करें।
http://localhost:4040
आपको निम्न स्क्रीन दिखाई देगी, जो एप्लिकेशन के लिए उपयोग किए जाने वाले संग्रहण स्थान को दिखाती है, जो स्पार्क शेल पर चल रहे हैं।
यदि आप विशेष RDD के संग्रहण स्थान को UN- जारी रखना चाहते हैं, तो निम्न कमांड का उपयोग करें।
Scala> counts.unpersist()
आपको आउटपुट निम्नानुसार दिखाई देगा -
15/06/27 00:57:33 INFO ShuffledRDD: Removing RDD 9 from persistence list
15/06/27 00:57:33 INFO BlockManager: Removing RDD 9
15/06/27 00:57:33 INFO BlockManager: Removing block rdd_9_1
15/06/27 00:57:33 INFO MemoryStore: Block rdd_9_1 of size 480 dropped from memory (free 280061810)
15/06/27 00:57:33 INFO BlockManager: Removing block rdd_9_0
15/06/27 00:57:33 INFO MemoryStore: Block rdd_9_0 of size 296 dropped from memory (free 280062106)
res7: cou.type = ShuffledRDD[9] at reduceByKey at <console>:14
ब्राउज़र में भंडारण स्थान की पुष्टि करने के लिए, निम्न URL का उपयोग करें।
http://localhost:4040/
आपको निम्न स्क्रीन दिखाई देगी। यह एप्लिकेशन के लिए उपयोग किए जाने वाले संग्रहण स्थान को दिखाता है, जो स्पार्क शेल पर चल रहे हैं।