Apache Pig-데이터 읽기

일반적으로 Apache Pig는 Hadoop 위에서 작동합니다. 에 존재하는 대용량 데이터 세트를 분석하는 분석 도구입니다.Hadoop File System. Apache Pig를 사용하여 데이터를 분석하려면 처음에 Apache Pig에 데이터를로드해야합니다. 이 장에서는 HDFS에서 Apache Pig로 데이터를로드하는 방법을 설명합니다.

HDFS 준비

MapReduce 모드에서 Pig는 HDFS에서 데이터를 읽고 (로드) 결과를 다시 HDFS에 저장합니다. 따라서 HDFS를 시작하고 HDFS에서 다음 샘플 데이터를 생성하겠습니다.

학생 아이디 이름 전화 시티
001 Rajiv 레디 9848022337 하이데라바드
002 시드 다스 Battacharya 9848022338 콜카타
003 Rajesh Khanna 9848022339 델리
004 Preethi Agarwal 9848022330 푸네
005 Trupthi Mohanthy 9848022336 부와 네슈와 르
006 Archana 미 슈라 9848022335 첸나이

위의 데이터 세트에는 6 명의 학생의 ID, 이름, 성, 전화 번호 및 도시와 같은 개인 정보가 포함되어 있습니다.

1 단계 : Hadoop 확인

먼저 아래 그림과 같이 Hadoop 버전 명령을 사용하여 설치를 확인하십시오.

$ hadoop version

시스템에 Hadoop이 포함되어 있고 PATH 변수를 설정 한 경우 다음 출력이 표시됩니다.

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar

2 단계 : HDFS 시작

찾아보기 sbin Hadoop의 디렉토리 및 시작 yarn 및 Hadoop dfs (분산 파일 시스템)는 아래와 같습니다.

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
 
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out

3 단계 : HDFS에서 디렉토리 생성

Hadoop DFS에서 다음 명령을 사용하여 디렉토리를 생성 할 수 있습니다. mkdir. HDFS에서 이름으로 새 디렉토리를 만듭니다.Pig_Data 아래 표시된대로 필요한 경로에서.

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data

4 단계 : HDFS에 데이터 배치

Pig의 입력 파일은 개별 줄에 각 튜플 / 레코드를 포함합니다. 그리고 레코드의 엔터티는 구분 기호로 구분됩니다 (이 예에서는“,”).

로컬 파일 시스템에서 입력 파일을 만듭니다. student_data.txt 아래와 같이 데이터를 포함합니다.

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

이제 다음을 사용하여 파일을 로컬 파일 시스템에서 HDFS로 이동합니다. put아래와 같이 명령. (당신이 사용할 수있는copyFromLocal 명령도.)

$ cd $HADOOP_HOME/bin 
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/

파일 확인

당신은 사용할 수 있습니다 cat 다음과 같이 파일이 HDFS로 이동되었는지 확인하는 명령입니다.

$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt

산출

아래와 같이 파일의 내용을 볼 수 있습니다.

15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
  
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai

부하 연산자

다음을 사용하여 파일 시스템 (HDFS / 로컬)에서 Apache Pig로 데이터를로드 할 수 있습니다. LOAD 운영자 Pig Latin.

통사론

load 문은 "="연산자로 나눈 두 부분으로 구성됩니다. 왼쪽에 관계의 이름을 언급해야합니다.where 데이터를 저장하고 싶고 오른쪽에서 정의해야합니다. how우리는 데이터를 저장합니다. 아래에 주어진 구문은Load 운영자.

Relation_name = LOAD 'Input file path' USING function as schema;

어디,

  • relation_name − 데이터를 저장하려는 관계를 언급해야합니다.

  • Input file path− 파일이 저장된 HDFS 디렉토리를 언급해야합니다. (MapReduce 모드에서)

  • function − Apache Pig에서 제공하는로드 함수 집합에서 함수를 선택해야합니다 (BinStorage, JsonLoader, PigStorage, TextLoader).

  • Schema− 데이터의 스키마를 정의해야합니다. 다음과 같이 필요한 스키마를 정의 할 수 있습니다.

(column1 : data type, column2 : data type, column3 : data type);

Note− 스키마를 지정하지 않고 데이터를로드합니다. 이 경우 열은 $ 01, $ 02 등으로 지정됩니다. (확인).

예를 들어 데이터를 student_data.txt 라는 스키마 아래의 Pig에서 Student 사용 LOAD 명령.

Pig Grunt Shell 시작

먼저 Linux 터미널을 엽니 다. 아래와 같이 MapReduce 모드에서 Pig Grunt 셸을 시작합니다.

$ Pig –x mapreduce

아래와 같이 Pig Grunt 셸을 시작합니다.

15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType

2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
  
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
 
grunt>

Load 문 실행

이제 파일에서 데이터를로드합니다. student_data.txt Grunt 쉘에서 다음 Pig Latin 문을 실행하여 Pig로.

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

다음은 위의 설명에 대한 설명입니다.

관계 이름 스키마에 데이터를 저장했습니다. student.
입력 파일 경로 파일에서 데이터를 읽고 있습니다. student_data.txt, HDFS의 / pig_data / 디렉토리에 있습니다.
저장 기능 우리는 PigStorage()함수. 데이터를 구조화 된 텍스트 파일로로드하고 저장합니다. 튜플의 각 엔티티가 분리되는 구분 기호를 매개 변수로 사용합니다. 기본적으로 '\ t'를 매개 변수로 사용합니다.
개요

다음 스키마를 사용하여 데이터를 저장했습니다.

기둥 신분증 이름 전화 시티
데이터 형식 int 문자 배열 문자 배열 문자 배열 문자 배열

Noteload문은 단순히 데이터를 Pig의 지정된 관계로로드합니다. 실행을 확인하려면Load 성명을 사용하려면 Diagnostic Operators 다음 장에서 설명합니다.