अपाचे सुअर - डेटा पढ़ना

सामान्य तौर पर, अपाचे सुअर हाडोप के शीर्ष पर काम करता है। यह एक विश्लेषणात्मक उपकरण है जो बड़े डेटासेट का विश्लेषण करता है जो इसमें मौजूद हैंHadoop Fइले System। Apache Pig का उपयोग करके डेटा का विश्लेषण करने के लिए, हमें शुरू में Apache Pig में डेटा लोड करना होगा। यह अध्याय बताता है कि एचडीएफएस से अपाचे सुअर को डेटा कैसे लोड किया जाए।

HDFS की तैयारी

MapReduce मोड में, Pig HDFS से डेटा (लोड) पढ़ता है और परिणाम को HDFS में वापस रखता है। इसलिए, हम एचडीएफएस शुरू करते हैं और एचडीएफएस में निम्नलिखित नमूना डेटा बनाते हैं।

छात्र आईडी पहला नाम उपनाम फ़ोन Faridabad
001 राजीव रेड्डी 9848022337 हैदराबाद
002 सिद्धार्थ Battacharya 9848022338 कोलकाता
003 राजेश खन्ना 9848022339 दिल्ली
004 प्रीती अग्रवाल 9848022330 पुणे
005 Trupthi Mohanthy 9848022336 Bhuwaneshwar
006 अर्चना मिश्रा 9848022335 चेन्नई

उपरोक्त डेटासेट में व्यक्तिगत विवरण जैसे आईडी, प्रथम नाम, अंतिम नाम, फोन नंबर और शहर, छह छात्रों के होते हैं।

चरण 1: सत्यापन Hadoop

सबसे पहले, Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।

$ hadoop version

यदि आपके सिस्टम में Hadoop है, और यदि आपने PATH वैरिएबल सेट किया है, तो आपको निम्न आउटपुट मिलेंगे -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar

चरण 2: एचडीएफएस शुरू करना

के माध्यम से ब्राउज़ करें sbin Hadoop और शुरू की निर्देशिका yarn और Hadoop dfs (वितरित फ़ाइल सिस्टम) जैसा कि नीचे दिखाया गया है।

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
 
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out

चरण 3: एचडीएफएस में एक निर्देशिका बनाएं

Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। नाम के साथ एचडीएफएस में एक नई निर्देशिका बनाएंPig_Data नीचे दिखाए अनुसार आवश्यक पथ में।

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data

चरण 4: डेटा को एचडीएफएस में रखना

सुअर की इनपुट फ़ाइल में व्यक्तिगत लाइनों में प्रत्येक टपल / रिकॉर्ड होता है। और रिकॉर्ड की इकाइयां एक सीमांकक द्वारा अलग की जाती हैं (हमारे उदाहरण में हमने उपयोग किया था“,”)।

स्थानीय फ़ाइल सिस्टम में, एक इनपुट फ़ाइल बनाएँ student_data.txt नीचे दिखाए अनुसार डेटा युक्त।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

अब, स्थानीय फ़ाइल सिस्टम से एचडीएफएस का उपयोग करके फ़ाइल को स्थानांतरित करें putजैसा कि नीचे दिखाया गया है। (आप उपयोग कर सकते हैंcopyFromLocal कमांड भी।)

$ cd $HADOOP_HOME/bin 
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/

फ़ाइल का सत्यापन

आप उपयोग कर सकते हैं cat यह सत्यापित करने के लिए कि क्या फ़ाइल को एचडीएफएस में स्थानांतरित किया गया है, जैसा कि नीचे दिखाया गया है।

$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt

उत्पादन

आप फ़ाइल की सामग्री को नीचे दिखाए अनुसार देख सकते हैं।

15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
  
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai

लोड ऑपरेटर

आप का उपयोग कर फ़ाइल सिस्टम (HDFS / स्थानीय) से अपाचे सुअर में डेटा लोड कर सकते हैं LOAD का संचालक Pig Latin

वाक्य - विन्यास

लोड स्टेटमेंट में "=" ऑपरेटर द्वारा विभाजित दो भाग होते हैं। बाईं ओर, हमें संबंध के नाम का उल्लेख करने की आवश्यकता हैwhere हम डेटा संग्रहीत करना चाहते हैं, और दाईं ओर, हमें परिभाषित करना होगा howहम डेटा स्टोर करते हैं। नीचे दिए गए का सिंटैक्स हैLoad ऑपरेटर।

Relation_name = LOAD 'Input file path' USING function as schema;

कहाँ पे,

  • relation_name - हमें उस संबंध का उल्लेख करना होगा जिसमें हम डेटा संग्रहीत करना चाहते हैं।

  • Input file path- हमें एचडीएफएस निर्देशिका का उल्लेख करना होगा जहां फ़ाइल संग्रहीत है। (MapReduce मोड में)

  • function - हमें Apache Pig द्वारा प्रदान किए गए लोड फ़ंक्शन के सेट से एक फ़ंक्शन चुनना होगा (BinStorage, JsonLoader, PigStorage, TextLoader)।

  • Schema- हमें डेटा के स्कीमा को परिभाषित करना होगा। हम आवश्यक स्कीमा को निम्नानुसार परिभाषित कर सकते हैं -

(column1 : data type, column2 : data type, column3 : data type);

Note- हम स्कीमा को निर्दिष्ट किए बिना डेटा लोड करते हैं। उस स्थिति में, स्तंभों को $ 01, $ 02, आदि के रूप में संबोधित किया जाएगा ... (चेक)।

उदाहरण

एक उदाहरण के रूप में, आइए हम डेटा को लोड करते हैं student_data.txt नामित स्कीमा के तहत सुअर में Student का उपयोग करते हुए LOAD आदेश।

पिग ग्रंट शेल शुरू करें

सबसे पहले, लिनक्स टर्मिनल खोलें। जैसा कि नीचे दिखाया गया है MapReduce मोड में पिग ग्रंट शेल शुरू करें।

$ Pig –x mapreduce

जैसा कि नीचे दिखाया गया है, यह पिग ग्रंट शेल को शुरू करेगा।

15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType

2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
  
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
 
grunt>

लोड स्टेटमेंट निष्पादित करें

अब फाइल से डेटा लोड करें student_data.txt ग्रंट शेल में निम्न सुअर लैटिन कथन को निष्पादित करके सुअर में।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

निम्नलिखित कथन का विवरण निम्नलिखित है।

संबंध का नाम हमने स्कीमा में डेटा संग्रहीत किया है student
इनपुट फ़ाइल पथ हम फ़ाइल से डेटा पढ़ रहे हैं student_data.txt, जो HDFS के / pig_data / निर्देशिका में है।
भंडारण समारोह हमने इस्तेमाल किया है PigStorage()समारोह। यह संरचित पाठ फ़ाइलों के रूप में डेटा को लोड और संग्रहीत करता है। यह एक सीमांकक का उपयोग करता है जिसके उपयोग से एक टपल की प्रत्येक इकाई को एक पैरामीटर के रूप में अलग किया जाता है। डिफ़ॉल्ट रूप से, यह पैरामीटर के रूप में 't' लेता है।
योजना

हमने निम्न स्कीमा का उपयोग करके डेटा संग्रहीत किया है।

स्तंभ आईडी पहला नाम उपनाम फ़ोन Faridabad
डाटा प्रकार पूर्णांक चारपाई चारपाई चारपाई चारपाई

Note - loadबयान केवल सुअर में निर्दिष्ट संबंध में डेटा लोड करेगा। के निष्पादन को सत्यापित करने के लिएLoad बयान, आप का उपयोग करने के लिए है Diagnostic Operators जिसकी चर्चा अगले अध्यायों में की गई है।