अपाचे सुअर - डेटा पढ़ना
सामान्य तौर पर, अपाचे सुअर हाडोप के शीर्ष पर काम करता है। यह एक विश्लेषणात्मक उपकरण है जो बड़े डेटासेट का विश्लेषण करता है जो इसमें मौजूद हैंHadoop Fइले System। Apache Pig का उपयोग करके डेटा का विश्लेषण करने के लिए, हमें शुरू में Apache Pig में डेटा लोड करना होगा। यह अध्याय बताता है कि एचडीएफएस से अपाचे सुअर को डेटा कैसे लोड किया जाए।
HDFS की तैयारी
MapReduce मोड में, Pig HDFS से डेटा (लोड) पढ़ता है और परिणाम को HDFS में वापस रखता है। इसलिए, हम एचडीएफएस शुरू करते हैं और एचडीएफएस में निम्नलिखित नमूना डेटा बनाते हैं।
छात्र आईडी | पहला नाम | उपनाम | फ़ोन | Faridabad |
---|---|---|---|---|
001 | राजीव | रेड्डी | 9848022337 | हैदराबाद |
002 | सिद्धार्थ | Battacharya | 9848022338 | कोलकाता |
003 | राजेश | खन्ना | 9848022339 | दिल्ली |
004 | प्रीती | अग्रवाल | 9848022330 | पुणे |
005 | Trupthi | Mohanthy | 9848022336 | Bhuwaneshwar |
006 | अर्चना | मिश्रा | 9848022335 | चेन्नई |
उपरोक्त डेटासेट में व्यक्तिगत विवरण जैसे आईडी, प्रथम नाम, अंतिम नाम, फोन नंबर और शहर, छह छात्रों के होते हैं।
चरण 1: सत्यापन Hadoop
सबसे पहले, Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।
$ hadoop version
यदि आपके सिस्टम में Hadoop है, और यदि आपने PATH वैरिएबल सेट किया है, तो आपको निम्न आउटपुट मिलेंगे -
Hadoop 2.6.0
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar
चरण 2: एचडीएफएस शुरू करना
के माध्यम से ब्राउज़ करें sbin Hadoop और शुरू की निर्देशिका yarn और Hadoop dfs (वितरित फ़ाइल सिस्टम) जैसा कि नीचे दिखाया गया है।
cd /$Hadoop_Home/sbin/
$ start-dfs.sh
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out
चरण 3: एचडीएफएस में एक निर्देशिका बनाएं
Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। नाम के साथ एचडीएफएस में एक नई निर्देशिका बनाएंPig_Data नीचे दिखाए अनुसार आवश्यक पथ में।
$cd /$Hadoop_Home/bin/
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data
चरण 4: डेटा को एचडीएफएस में रखना
सुअर की इनपुट फ़ाइल में व्यक्तिगत लाइनों में प्रत्येक टपल / रिकॉर्ड होता है। और रिकॉर्ड की इकाइयां एक सीमांकक द्वारा अलग की जाती हैं (हमारे उदाहरण में हमने उपयोग किया था“,”)।
स्थानीय फ़ाइल सिस्टम में, एक इनपुट फ़ाइल बनाएँ student_data.txt नीचे दिखाए अनुसार डेटा युक्त।
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.
अब, स्थानीय फ़ाइल सिस्टम से एचडीएफएस का उपयोग करके फ़ाइल को स्थानांतरित करें putजैसा कि नीचे दिखाया गया है। (आप उपयोग कर सकते हैंcopyFromLocal कमांड भी।)
$ cd $HADOOP_HOME/bin
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/
फ़ाइल का सत्यापन
आप उपयोग कर सकते हैं cat यह सत्यापित करने के लिए कि क्या फ़ाइल को एचडीएफएस में स्थानांतरित किया गया है, जैसा कि नीचे दिखाया गया है।
$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt
उत्पादन
आप फ़ाइल की सामग्री को नीचे दिखाए अनुसार देख सकते हैं।
15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai
लोड ऑपरेटर
आप का उपयोग कर फ़ाइल सिस्टम (HDFS / स्थानीय) से अपाचे सुअर में डेटा लोड कर सकते हैं LOAD का संचालक Pig Latin।
वाक्य - विन्यास
लोड स्टेटमेंट में "=" ऑपरेटर द्वारा विभाजित दो भाग होते हैं। बाईं ओर, हमें संबंध के नाम का उल्लेख करने की आवश्यकता हैwhere हम डेटा संग्रहीत करना चाहते हैं, और दाईं ओर, हमें परिभाषित करना होगा howहम डेटा स्टोर करते हैं। नीचे दिए गए का सिंटैक्स हैLoad ऑपरेटर।
Relation_name = LOAD 'Input file path' USING function as schema;
कहाँ पे,
relation_name - हमें उस संबंध का उल्लेख करना होगा जिसमें हम डेटा संग्रहीत करना चाहते हैं।
Input file path- हमें एचडीएफएस निर्देशिका का उल्लेख करना होगा जहां फ़ाइल संग्रहीत है। (MapReduce मोड में)
function - हमें Apache Pig द्वारा प्रदान किए गए लोड फ़ंक्शन के सेट से एक फ़ंक्शन चुनना होगा (BinStorage, JsonLoader, PigStorage, TextLoader)।
Schema- हमें डेटा के स्कीमा को परिभाषित करना होगा। हम आवश्यक स्कीमा को निम्नानुसार परिभाषित कर सकते हैं -
(column1 : data type, column2 : data type, column3 : data type);
Note- हम स्कीमा को निर्दिष्ट किए बिना डेटा लोड करते हैं। उस स्थिति में, स्तंभों को $ 01, $ 02, आदि के रूप में संबोधित किया जाएगा ... (चेक)।
उदाहरण
एक उदाहरण के रूप में, आइए हम डेटा को लोड करते हैं student_data.txt नामित स्कीमा के तहत सुअर में Student का उपयोग करते हुए LOAD आदेश।
पिग ग्रंट शेल शुरू करें
सबसे पहले, लिनक्स टर्मिनल खोलें। जैसा कि नीचे दिखाया गया है MapReduce मोड में पिग ग्रंट शेल शुरू करें।
$ Pig –x mapreduce
जैसा कि नीचे दिखाया गया है, यह पिग ग्रंट शेल को शुरू करेगा।
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType
2015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
grunt>
लोड स्टेटमेंट निष्पादित करें
अब फाइल से डेटा लोड करें student_data.txt ग्रंट शेल में निम्न सुअर लैटिन कथन को निष्पादित करके सुअर में।
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt'
USING PigStorage(',')
as ( id:int, firstname:chararray, lastname:chararray, phone:chararray,
city:chararray );
निम्नलिखित कथन का विवरण निम्नलिखित है।
संबंध का नाम | हमने स्कीमा में डेटा संग्रहीत किया है student। | ||||||||||||
इनपुट फ़ाइल पथ | हम फ़ाइल से डेटा पढ़ रहे हैं student_data.txt, जो HDFS के / pig_data / निर्देशिका में है। | ||||||||||||
भंडारण समारोह | हमने इस्तेमाल किया है PigStorage()समारोह। यह संरचित पाठ फ़ाइलों के रूप में डेटा को लोड और संग्रहीत करता है। यह एक सीमांकक का उपयोग करता है जिसके उपयोग से एक टपल की प्रत्येक इकाई को एक पैरामीटर के रूप में अलग किया जाता है। डिफ़ॉल्ट रूप से, यह पैरामीटर के रूप में 't' लेता है। | ||||||||||||
योजना | हमने निम्न स्कीमा का उपयोग करके डेटा संग्रहीत किया है।
|
Note - loadबयान केवल सुअर में निर्दिष्ट संबंध में डेटा लोड करेगा। के निष्पादन को सत्यापित करने के लिएLoad बयान, आप का उपयोग करने के लिए है Diagnostic Operators जिसकी चर्चा अगले अध्यायों में की गई है।