एसएएस - मर्ज डेटा सेट

एकल डेटा सेट देने के लिए एक विशिष्ट सामान्य चर के आधार पर एकाधिक एसएएस डेटा सेट को मर्ज किया जा सकता है। यह प्रयोग किया जाता हैMERGE बयान और BYबयान। मर्ज किए गए डेटा सेट में टिप्पणियों की कुल संख्या अक्सर मूल डेटा सेटों में टिप्पणियों की संख्या के योग से कम होती है। ऐसा इसलिए है क्योंकि दोनों चर सेट के रूप में मिलते हैं जब सामान्य चर के मान में एक मैच होता है तो दोनों डेटा सेट एक रिकॉर्ड के रूप में विलय हो जाते हैं।

नीचे दिए गए डेटा सेट को मर्ज करने के लिए दो आवश्यक शर्तें हैं -

  • इनपुट डेटा सेट में विलय के लिए कम से कम एक सामान्य चर होना चाहिए।
  • इनपुट डेटा सेट को सामान्य वैरिएबल द्वारा सॉर्ट किया जाना चाहिए जिसका उपयोग मर्ज करने के लिए किया जाएगा।

वाक्य - विन्यास

SAS में MERGE और BY स्टेटमेंट के लिए मूल सिंटैक्स है -

MERGE Data-Set 1 Data-Set 2
BY Common Variable

निम्नलिखित मापदंडों का वर्णन है -

  • Data-set1,Data-set2 डेटा सेट नाम एक के बाद एक लिखे गए हैं।

  • Common Variable वह चर है, जिसके मिलान मूल्यों के आधार पर डेटा सेट को मर्ज किया जाएगा।

डाटा मर्ज करना

आइए एक उदाहरण की मदद से डेटा मर्जिंग को समझें।

उदाहरण

दो एसएएस डेटा पर विचार करें जिसमें एक कर्मचारी के नाम और वेतन के साथ कर्मचारी आईडी और दूसरा कर्मचारी आईडी के साथ कर्मचारी आईडी और विभाग है। इस मामले में प्रत्येक कर्मचारी के लिए पूरी जानकारी प्राप्त करने के लिए हम इन दो डेटा सेटों को मर्ज कर सकते हैं। अंतिम डेटा सेट में अभी भी प्रति कर्मचारी एक अवलोकन होगा, लेकिन इसमें वेतन और विभाग चर दोनों शामिल होंगे।

# Data set 1	
ID NAME SALARY	
1 Rick 623.3		 
2 Dan 515.2 		
3 Mike 611.5 		
4 Ryan 729.1 
5 Gary 843.25 
6 Tusar 578.6 
7 Pranab 632.8 
8 Rasmi 722.5 

# Data set 2
ID DEPT
1 IT 
2 OPS
3 IT 
4 HR 
5 FIN 
6 IT 
7 OPS
8 FIN 

# Merged data set
ID NAME SALARY DEPT	
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN

उपरोक्त परिणाम निम्न कोड का उपयोग करके प्राप्त किया जाता है जिसमें सामान्य चर (ID) का उपयोग BY कथन में किया जाता है। कृपया ध्यान दें कि दोनों डेटासेट के अवलोकन पहले से ही आईडी कॉलम में सॉर्ट किए गए हैं।

DATA SALARY; 
   INPUT empid name $ salary  ; 
DATALINES; 
1 Rick 623.3		 
2 Dan 515.2 		
3 Mike 611.5 		
4 Ryan 729.1 
5 Gary 843.25 
6 Tusar 578.6 
7 Pranab 632.8 
8 Rasmi 722.5 
;
RUN; 
DATA DEPT; 
   INPUT empid dEPT $ ; 
DATALINES; 
1 IT 
2 OPS
3 IT 
4 HR 
5 FIN 
6 IT 
7 OPS
8 FIN 
;
RUN; 
DATA All_details;
MERGE SALARY DEPT;
BY (empid);
RUN;
PROC PRINT DATA = All_details; 
RUN;

मिलान कॉलम में गुम मान

ऐसे मामले हो सकते हैं जब सामान्य चर के कुछ मान डेटा सेट के बीच मेल नहीं खाएंगे। ऐसे मामलों में डेटा सेट अभी भी मर्ज हो जाते हैं, लेकिन परिणाम में लापता मान देते हैं।

उदाहरण

डेटासेट से कर्मचारी आईडी 3 के लापता होने के मामले पर विचार करें और कर्मचारी आईडी 6 के लापता फॉर्म डेटा को डीईपीटी में सेट करें। जब उपरोक्त कोड लागू किया जाता है, तो हमें नीचे परिणाम मिलता है।

ID NAME SALARY DEPT	
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 .		.		IT
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   .
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN

केवल माचिस जोड़ना

परिणाम में लापता मूल्यों से बचने के लिए हम आम चर के लिए मिलान किए गए मूल्यों के साथ केवल टिप्पणियों को रखने पर विचार कर सकते हैं। कि का उपयोग करके हासिल किया हैINबयान। एसएएस कार्यक्रम के विलय के बयान को बदलने की आवश्यकता है।

उदाहरण

नीचे दिए गए उदाहरण में, IN= मान केवल उन टिप्पणियों को रखता है जहां दोनों डेटा से मान सेट होते हैं SALARY तथा DEPT मेल खाते हैं।

DATA All_details;
MERGE SALARY(IN = a) DEPT(IN = b);
BY (empid);
IF a = 1 and b = 1;
RUN;
PROC PRINT DATA = All_details; 
RUN;

उपरोक्त बदले गए भाग के साथ उपरोक्त एसएएस कार्यक्रम के निष्पादन पर, हमें निम्नलिखित आउटपुट मिलते हैं।

1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN