उन्नत स्पार्क प्रोग्रामिंग

स्पार्क में दो भिन्न प्रकार के साझा चर होते हैं - एक है broadcast variables और दूसरा है accumulators

  • Broadcast variables - कुशलता से इस्तेमाल किया, बड़े मूल्यों को वितरित करने के लिए।

  • Accumulators - विशेष संग्रह की जानकारी एकत्र करने के लिए उपयोग किया जाता है।

प्रसारण चर

ब्रॉडकास्ट वेरिएबल प्रोग्रामर को प्रत्येक मशीन पर रीड-ओनली वैरिएबल कैश्ड रखने की अनुमति देता है, न कि कार्यों के साथ इसे कॉपी करने के बजाय। उनका उपयोग किया जा सकता है, उदाहरण के लिए, प्रत्येक नोड को एक बड़े इनपुट डेटासेट की एक प्रतिलिपि, एक कुशल तरीके से देने के लिए। स्पार्क संचार लागत को कम करने के लिए कुशल प्रसारण एल्गोरिदम का उपयोग करके प्रसारण चर वितरित करने का भी प्रयास करता है।

स्पार्क क्रियाओं को चरणों के एक सेट के माध्यम से निष्पादित किया जाता है, वितरित "फेरबदल" संचालन द्वारा अलग किया जाता है। स्पार्क स्वचालित रूप से प्रत्येक चरण के भीतर कार्यों द्वारा आवश्यक सामान्य डेटा को प्रसारित करता है।

इस तरह प्रसारित किए गए डेटा को क्रमबद्ध रूप में कैश किया जाता है और प्रत्येक कार्य को चलाने से पहले इसे डीरिशियल किया जाता है। इसका मतलब है कि स्पष्ट रूप से प्रसारण चर बनाने, केवल तब उपयोगी होता है जब कई चरणों में कार्यों को एक ही डेटा की आवश्यकता होती है या जब डेटा को deserialized रूप में कैशिंग करना महत्वपूर्ण होता है।

प्रसारण चर एक चर से बनाए जाते हैं v फोन करके SparkContext.broadcast(v)। प्रसारण चर चारों ओर एक आवरण हैv, और इसके मूल्य पर कॉल करके पहुँचा जा सकता है valueतरीका। नीचे दिया गया कोड यह दिखाता है -

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

Output -

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

प्रसारण चर बनाए जाने के बाद, इसका उपयोग मूल्य के बजाय किया जाना चाहिए v किसी भी कार्य में क्लस्टर पर चलता है, ताकि vनोड्स पर एक से अधिक बार शिप नहीं किया गया है। इसके अलावा, वस्तुv इसके प्रसारण के बाद संशोधित नहीं किया जाना चाहिए, ताकि यह सुनिश्चित हो सके कि सभी नोड्स को प्रसारण चर का समान मूल्य मिले।

Accumulators

Accumulators चर हैं जो केवल एक सहयोगी ऑपरेशन के माध्यम से "जोड़े" जाते हैं और इसलिए, समानांतर में कुशलता से समर्थित हो सकते हैं। उनका उपयोग काउंटरर्स को लागू करने के लिए किया जा सकता है (जैसा कि MapReduce में) या रकम। स्पार्क मूल रूप से संख्यात्मक प्रकारों के संचायक का समर्थन करता है, और प्रोग्रामर नए प्रकारों के लिए समर्थन जोड़ सकते हैं। यदि संचायक एक नाम के साथ बनाए जाते हैं, तो उन्हें प्रदर्शित किया जाएगाSpark’s UI। यह चल रहे चरणों की प्रगति को समझने के लिए उपयोगी हो सकता है (नोट - यह अभी तक पायथन में समर्थित नहीं है)।

प्रारंभिक मान से एक संचायक बनाया जाता है v फोन करके SparkContext.accumulator(v)। इसके बाद क्लस्टर पर चलने वाले टास्क को इसमें जोड़ा जा सकता हैaddविधि या + = ऑपरेटर (स्काला और पायथन में)। हालाँकि, वे इसके मूल्य को नहीं पढ़ सकते हैं। केवल चालक कार्यक्रम संचायक के मूल्य को पढ़ सकता है, इसके उपयोग सेvalue तरीका।

नीचे दिया गया कोड एक संचयकर्ता को दिखाता है जिसका उपयोग सरणी के तत्वों को जोड़ने के लिए किया जा रहा है -

scala> val accum = sc.accumulator(0) 
 
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

यदि आप उपरोक्त कोड का आउटपुट देखना चाहते हैं तो निम्न कमांड का उपयोग करें -

scala> accum.value

उत्पादन

res2: Int = 10

न्यूमेरिक आरडीडी संचालन

स्पार्क आपको पूर्वनिर्धारित एपीआई विधियों में से एक का उपयोग करके, संख्यात्मक डेटा पर विभिन्न ऑपरेशन करने की अनुमति देता है। स्पार्क के संख्यात्मक संचालन को एक स्ट्रीमिंग एल्गोरिथ्म के साथ लागू किया जाता है जो एक समय में मॉडल, एक तत्व के निर्माण की अनुमति देता है।

इन परिचालनों की गणना की जाती है और एक के रूप में वापस किया जाता है StatusCounter बुलाकर वस्तु status() तरीका।

निम्नलिखित में उपलब्ध संख्यात्मक विधियों की एक सूची है StatusCounter

S.No तरीके और अर्थ
1

count()

RDD में तत्वों की संख्या।

2

Mean()

RDD में तत्वों का औसत।

3

Sum()

RDD में तत्वों का कुल मूल्य।

4

Max()

RDD में सभी तत्वों के बीच अधिकतम मूल्य।

5

Min()

RDD में सभी तत्वों के बीच न्यूनतम मूल्य।

6

Variance()

तत्वों की भिन्नता।

7

Stdev()

मानक विचलन।

यदि आप इन विधियों में से केवल एक का उपयोग करना चाहते हैं, तो आप सीधे RDD पर संबंधित विधि को कॉल कर सकते हैं।