PySpark - स्पार्ककोटेक्स्ट
SparkContext किसी भी स्पार्क कार्यक्षमता के लिए प्रवेश बिंदु है। जब हम कोई स्पार्क एप्लिकेशन चलाते हैं, तो एक ड्राइवर प्रोग्राम शुरू होता है, जिसमें मुख्य कार्य होता है और आपका स्पार्क कॉन्टेक्स्ट यहां शुरू हो जाता है। चालक कार्यक्रम तब कर्मी नोड्स पर निष्पादकों के अंदर संचालन चलाता है।
SparkContext लॉन्च करने के लिए Py4J का उपयोग करता है JVM और एक बनाता है JavaSparkContext। डिफ़ॉल्ट रूप से, PySpark में SparkContext उपलब्ध है‘sc’, इसलिए एक नया SparkContext बनाने से काम नहीं चलेगा।
निम्नलिखित कोड ब्लॉक में एक PySpark वर्ग और मापदंडों का विवरण है, जो एक SparkContext ले सकता है।
class pyspark.SparkContext (
master = None,
appName = None,
sparkHome = None,
pyFiles = None,
environment = None,
batchSize = 0,
serializer = PickleSerializer(),
conf = None,
gateway = None,
jsc = None,
profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)
मापदंडों
निम्नलिखित एक स्पार्ककनेक्ट के पैरामीटर हैं।
Master - यह उस क्लस्टर का URL है जिसे वह जोड़ता है।
appName - आपकी नौकरी का नाम।
sparkHome - स्पार्क इंस्टॉलेशन डायरेक्टरी।
pyFiles - .zip या .py फाइलें क्लस्टर में भेजने के लिए और PYTHONPATH में जोड़ें।
Environment - कार्यकर्ता पर्यावरण चर को नोड करता है।
batchSize- पायथन ऑब्जेक्ट्स की संख्या को एकल जावा ऑब्जेक्ट के रूप में दर्शाया गया है। बैचिंग को अक्षम करने के लिए 1 सेट करें, ऑब्जेक्ट आकार के आधार पर बैच आकार को स्वचालित रूप से चुनने के लिए 0 या असीमित बैच आकार का उपयोग करने के लिए -1।
Serializer - आरडीडी धारावाहिक।
Conf - सभी स्पार्क गुणों को निर्धारित करने के लिए L {SparkConf} की एक वस्तु।
Gateway - एक मौजूदा गेटवे और JVM का उपयोग करें, अन्यथा एक नए JVM को इनिशियलाइज़ करें।
JSC - JavaSparkContext उदाहरण।
profiler_cls - कस्टम प्रोफाइलर का एक वर्ग प्रोफाइलिंग करता था (डिफ़ॉल्ट pyspark.profiler.BasicProfiler है)।
उपरोक्त मापदंडों के बीच, master तथा appnameज्यादातर उपयोग किया जाता है। किसी भी PySpark कार्यक्रम की पहली दो पंक्तियों को नीचे दिखाया गया है -
from pyspark import SparkContext
sc = SparkContext("local", "First App")
स्पार्ककनेक्ट उदाहरण - पाइस्पार्क शेल
अब जब आप SparkContext के बारे में पर्याप्त जानते हैं, तो आइए PySpark शेल पर एक सरल उदाहरण चलाते हैं। इस उदाहरण में, हम वर्णों की संख्या को 'a' या 'b' के साथ गिनेंगेREADME.mdफ़ाइल। तो, हम कहते हैं कि अगर किसी फ़ाइल में 5 लाइनें हैं और 3 लाइनों में वर्ण 'a' है, तो आउटपुट → होगाLine with a: 3। चरित्र 'बी' के लिए भी ऐसा ही किया जाएगा।
Note- हम निम्नलिखित उदाहरण में कोई स्पार्ककॉन्टेक्ट ऑब्जेक्ट नहीं बना रहे हैं क्योंकि डिफ़ॉल्ट रूप से, स्पार्क स्वचालित रूप से स्पार्ककॉन्टेक्स ऑब्जेक्ट बनाता है जिसे sc कहा जाता है, जब PySpark शेल शुरू होता है। यदि आप एक और स्पार्क कॉन्टेक्स्ट ऑब्जेक्ट बनाने की कोशिश करते हैं, तो आपको निम्न त्रुटि मिलेगी -"ValueError: Cannot run multiple SparkContexts at once".
<<< logFile = "file:///home/hadoop/spark-2.1.0-bin-hadoop2.7/README.md"
<<< logData = sc.textFile(logFile).cache()
<<< numAs = logData.filter(lambda s: 'a' in s).count()
<<< numBs = logData.filter(lambda s: 'b' in s).count()
<<< print "Lines with a: %i, lines with b: %i" % (numAs, numBs)
Lines with a: 62, lines with b: 30
स्पार्ककॉनटेक्स्ट उदाहरण - पायथन प्रोग्राम
आइए हम पायथन प्रोग्राम का उपयोग करके एक ही उदाहरण चलाते हैं। एक पायथन फ़ाइल बनाएँ जिसे कहा जाता हैfirstapp.py और उस फ़ाइल में निम्न कोड दर्ज करें।
----------------------------------------firstapp.py---------------------------------------
from pyspark import SparkContext
logFile = "file:///home/hadoop/spark-2.1.0-bin-hadoop2.7/README.md"
sc = SparkContext("local", "first app")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print "Lines with a: %i, lines with b: %i" % (numAs, numBs)
----------------------------------------firstapp.py---------------------------------------
तब हम इस पायथन फ़ाइल को चलाने के लिए टर्मिनल में निम्नलिखित कमांड निष्पादित करेंगे। हमें ऊपर जैसा ही आउटपुट मिलेगा।
$SPARK_HOME/bin/spark-submit firstapp.py
Output: Lines with a: 62, lines with b: 30