Apache Pig-조인 연산자

그만큼 JOIN연산자는 둘 이상의 관계에서 레코드를 결합하는 데 사용됩니다. 조인 작업을 수행하는 동안 각 관계에서 하나 (또는 그룹)의 튜플을 키로 선언합니다. 이 키가 일치하면 두 개의 특정 튜플이 일치하고 그렇지 않으면 레코드가 삭제됩니다. 조인은 다음 유형이 될 수 있습니다-

Self-join
Inner-join
외부 조인-왼쪽 조인, 오른쪽 조인 및 완전 조인

이 장에서는 Pig Latin에서 조인 연산자를 사용하는 방법을 예제와 함께 설명합니다. 즉, 두 개의 파일이 있다고 가정합니다.customers.txt 과 orders.txt 에 /pig_data/ 아래 그림과 같이 HDFS의 디렉토리.

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00 
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

그리고이 두 파일을 관계식으로 Pig에로드했습니다. customers 과 orders 아래 그림과 같이.

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

이제이 두 관계에 대해 다양한 조인 작업을 수행해 보겠습니다.

자체 가입

Self-join 테이블이 두 개의 관계인 것처럼 테이블을 자신과 결합하는 데 사용되며 일시적으로 적어도 하나의 관계 이름을 바꿉니다.

일반적으로 Apache Pig에서 셀프 조인을 수행하려면 다른 별칭 (이름)으로 동일한 데이터를 여러 번로드합니다. 따라서 파일의 내용을로드하겠습니다.customers.txt 아래와 같이 두 개의 테이블로.

grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);

통사론

다음은 수행 구문입니다. self-join 사용하여 작업 JOIN 운영자.

grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;

예

공연하자 self-join 관계에 대한 작업 customers, 두 관계를 결합하여 customers1 과 customers2 아래 그림과 같이.

grunt> customers3 = JOIN customers1 BY id, customers2 BY id;

확인

관계 확인 customers3 사용 DUMP 연산자는 아래와 같습니다.

grunt> Dump customers3;

산출

관계의 내용을 표시하는 다음 출력을 생성합니다. customers.

(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)

내부 조인

Inner Join꽤 자주 사용됩니다. 그것은 또한equijoin. 내부 조인은 두 테이블에 일치하는 항목이있을 때 행을 반환합니다.

join-predicate를 기반으로 두 관계 (예 : A와 B)의 열 값을 결합하여 새로운 관계를 만듭니다. 쿼리는 A의 각 행을 B의 각 행과 비교하여 join-predicate를 충족하는 모든 행 쌍을 찾습니다. join-predicate가 충족되면 일치하는 A 및 B 행 쌍의 열 값이 결과 행으로 결합됩니다.

통사론

수행 구문은 다음과 같습니다. inner join 사용하여 작업 JOIN 운영자.

grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;

예

공연하자 inner join 두 관계에 대한 작업 customers 과 orders 아래 그림과 같이.

grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;

확인

관계 확인 coustomer_orders 사용 DUMP 연산자는 아래와 같습니다.

grunt> Dump coustomer_orders;

산출

이름이 지정된 관계의 내용을 다음과 같이 출력합니다. coustomer_orders.

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Note −

외부 결합 : 내부 결합과 달리outer join하나 이상의 관계에서 모든 행을 반환합니다. 외부 결합 작업은 세 가지 방법으로 수행됩니다.

왼쪽 외부 결합
오른쪽 외부 결합
완전 외부 결합

왼쪽 외부 결합

그만큼 left outer Join 연산은 오른쪽 관계에 일치하는 항목이없는 경우에도 왼쪽 테이블의 모든 행을 반환합니다.

통사론

다음은 수행 구문입니다. left outer join 사용하여 작업 JOIN 운영자.

grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;

예

아래와 같이 두 관계 고객 및 주문에 대해 왼쪽 외부 조인 작업을 수행해 보겠습니다.

grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;

확인

관계 확인 outer_left 사용 DUMP 연산자는 아래와 같습니다.

grunt> Dump outer_left;

산출

관계의 내용을 표시하는 다음 출력을 생성합니다. outer_left.

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

오른쪽 외부 결합

그만큼 right outer join 작업은 왼쪽 테이블에 일치하는 항목이없는 경우에도 오른쪽 테이블의 모든 행을 반환합니다.

통사론

다음은 수행 구문입니다. right outer join 사용하여 작업 JOIN 운영자.

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

예

공연하자 right outer join 두 관계에 대한 작업 customers 과 orders 아래 그림과 같이.

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

확인

관계 확인 outer_right 사용 DUMP 연산자는 아래와 같습니다.

grunt> Dump outer_right

산출

관계의 내용을 표시하는 다음 출력을 생성합니다. outer_right.

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

전체 외부 결합

그만큼 full outer join 연산은 관계 중 하나에 일치하는 항목이 있으면 행을 반환합니다.

통사론

다음은 수행 구문입니다. full outer join 사용 JOIN 운영자.

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

예

공연하자 full outer join 두 관계에 대한 작업 customers 과 orders 아래 그림과 같이.

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

확인

관계 확인 outer_full 사용 DUMP 연산자는 아래와 같습니다.

grun> Dump outer_full;

산출

관계의 내용을 표시하는 다음 출력을 생성합니다. outer_full.

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

여러 키 사용

여러 키를 사용하여 JOIN 작업을 수행 할 수 있습니다.

통사론

다음은 여러 키를 사용하여 두 테이블에서 JOIN 작업을 수행하는 방법입니다.

grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);

즉, 두 개의 파일이 있다고 가정합니다. employee.txt 과 employee_contact.txt 에 /pig_data/ 아래 그림과 같이 HDFS의 디렉토리.

employee.txt

001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001

employee_contact.txt

001,9848022337,[email protected],Hyderabad,003
002,9848022338,[email protected],Kolkata,003
003,9848022339,[email protected],Delhi,003
004,9848022330,[email protected],Pune,003
005,9848022336,[email protected],Bhuwaneshwar,003
006,9848022335,[email protected],Chennai,003
007,9848022334,[email protected],trivendram,002
008,9848022333,[email protected],Chennai,001

그리고이 두 파일을 관계식으로 Pig에로드했습니다. employee 과 employee_contact 아래 그림과 같이.

grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
  
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',') 
   as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);

이제이 두 관계의 내용을 JOIN 연산자는 아래와 같습니다.

grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);

확인

관계 확인 emp 사용 DUMP 연산자는 아래와 같습니다.

grunt> Dump emp;

산출

다음과 같은 출력을 생성하여 다음과 같은 관계의 내용을 표시합니다. emp 아래 그림과 같이.

(1,Rajiv,Reddy,21,programmer,113,1,9848022337,[email protected],Hyderabad,113)
(2,siddarth,Battacharya,22,programmer,113,2,9848022338,[email protected],Kolka ta,113)  
(3,Rajesh,Khanna,22,programmer,113,3,9848022339,[email protected],Delhi,113)  
(4,Preethi,Agarwal,21,programmer,113,4,9848022330,[email protected],Pune,113)  
(5,Trupthi,Mohanthy,23,programmer,113,5,9848022336,[email protected],Bhuwaneshw ar,113)  
(6,Archana,Mishra,23,programmer,113,6,9848022335,[email protected],Chennai,113)  
(7,Komal,Nayak,24,teamlead,112,7,9848022334,[email protected],trivendram,112)  
(8,Bharathi,Nambiayar,24,manager,111,8,9848022333,[email protected],Chennai,111)