ईटीएल परीक्षण - साक्षात्कार प्रश्न

ETL का मतलब एक्सट्रैक्ट, ट्रांसफॉर्म और लोड है। यह डेटा वेयरहाउसिंग सिस्टम में एक महत्वपूर्ण अवधारणा है।Extraction अलग-अलग डेटा स्रोतों जैसे कि ट्रांसेक्शनल सिस्टम या एप्लिकेशन से डेटा निकालने के लिए खड़ा है। Transformationरूपांतरण नियमों को डेटा पर लागू करने के लिए खड़ा है ताकि यह विश्लेषणात्मक रिपोर्टिंग के लिए उपयुक्त हो जाए। loading प्रक्रिया में लक्ष्य प्रणाली में डेटा को स्थानांतरित करना शामिल है, आम तौर पर एक डेटा वेयरहाउस।

ईटीएल चक्र में शामिल तीन परतें हैं -

  • Staging Layer - अलग-अलग स्रोत डेटा सिस्टम से निकाले गए डेटा को संग्रहीत करने के लिए स्टेजिंग परत का उपयोग किया जाता है।

  • Data Integration Layer - एकीकरण परत डेटा को स्टेजिंग लेयर से बदल देती है और डेटा को डेटाबेस में ले जाती है, जहाँ डेटा को श्रेणीबद्ध समूहों में व्यवस्थित किया जाता है, जिसे अक्सर कहा जाता है dimensions, और तथ्यों और समग्र तथ्यों में। DW सिस्टम में तथ्यों और आयाम तालिकाओं के संयोजन को कहा जाता हैschema

  • Access Layer - एक्सेस लेयर का उपयोग एंड-यूज़र्स द्वारा एनालिटिकल रिपोर्टिंग के लिए डेटा को पुनः प्राप्त करने के लिए किया जाता है।

एक ETL उपकरण का उपयोग विभिन्न डेटा स्रोतों से डेटा निकालने, डेटा को रूपांतरित करने और एक DW सिस्टम में लोड करने के लिए किया जाता है। इसके विपरीत, एक बीआई उपकरण का उपयोग अंत उपयोगकर्ताओं के लिए इंटरैक्टिव और एडहॉक रिपोर्ट उत्पन्न करने के लिए किया जाता है, वरिष्ठ प्रबंधन के लिए डैशबोर्ड, मासिक, त्रैमासिक और वार्षिक बोर्ड बैठकों के लिए डेटा विज़ुअलाइज़ेशन।

ज्यादातर आम ETL टूल में शामिल हैं - SAP BO डेटा सर्विसेज (BODS), इंफॉर्मेटिका, माइक्रोसॉफ्ट - SSIS, ओरेकल डेटा इंटीग्रेटर ODI, टैलेंड ओपन स्टूडियो, क्लोवर ETL ओपन सोर्स इत्यादि।

अधिकांश आम बीआई टूल में शामिल हैं - एसएपी बिजनेस ऑब्जेक्ट्स, एसएपी लुमिरा, आईबीएम कॉग्नोस, जैस्परस्पॉफ्ट, माइक्रोसॉफ्ट बीआई प्लेटफॉर्म, झांकी, ओरेकल बिजनेस इंटेलिजेंस एंटरप्राइज एडिशन, आदि।

बाजार में उपलब्ध लोकप्रिय ईटीएल उपकरण हैं -

  • Informatica - पावर सेंटर
  • आईबीएम - वेबस्पेयर डेटास्टेज (पूर्व में एस्केंशियल डेटास्टेज के रूप में जाना जाता है)
  • SAP - व्यापार ऑब्जेक्ट डेटा सेवाएँ BODS
  • आईबीएम - कॉग्नोस डेटा मैनेजर (पूर्व में कॉग्नोस डिसिजन स्ट्रीम के रूप में जाना जाता है)
  • Microsoft - SQL सर्वर एकीकरण सेवाएँ SSIS
  • Oracle - डेटा इंटीग्रेटर ODI (पूर्व में सनोप्सिस डेटा कंडक्टर के रूप में जाना जाता है)
  • SAS - डेटा इंटीग्रेशन स्टूडियो
  • ओरेकल - वेयरहाउस बिल्डर
  • ABInitio
  • ओपन सोर्स क्लोवर ईटीएल

स्टेजिंग क्षेत्र एक मध्यवर्ती क्षेत्र है जो डेटा स्रोतों और डेटा वेयरहाउस / डेटा कार्ट सिस्टम के बीच बैठता है। मंचन क्षेत्रों को कई लाभ प्रदान करने के लिए डिज़ाइन किया जा सकता है, लेकिन उनके उपयोग के लिए प्राथमिक प्रेरणा ETL प्रक्रियाओं की दक्षता में वृद्धि करना, डेटा अखंडता सुनिश्चित करना और डेटा गुणवत्ता संचालन का समर्थन करना है।

डेटा माइनिंग की तुलना में डेटा वेयरहाउसिंग एक व्यापक अवधारणा है। डेटा माइनिंग में डेटा से छिपी जानकारी को निकालना और भविष्य की भविष्यवाणियों के लिए इसकी व्याख्या करना शामिल है। इसके विपरीत डेटा वेयरहाउसिंग में विस्तृत रिपोर्ट और तदर्थ रिपोर्ट, सूचना डैशबोर्ड और चार्ट बनाने के लिए सूचना प्रसंस्करण उत्पन्न करने के लिए विश्लेषणात्मक रिपोर्टिंग जैसे संचालन शामिल हैं।

OLTP का अर्थ ऑनलाइन ट्रांसेक्शनल प्रोसेसिंग सिस्टम है जो आमतौर पर एक रिलेशनल डेटाबेस है और इसका उपयोग दिन-प्रतिदिन के लेनदेन को प्रबंधित करने के लिए किया जाता है।

OLAP का अर्थ ऑनलाइन विश्लेषणात्मक प्रसंस्करण प्रणाली है जो आमतौर पर एक बहुआयामी प्रणाली है और इसे डेटा वेयरहाउस भी कहा जाता है।

मान लीजिए कि कोई कंपनी अपने उत्पाद ग्राहकों को बेचती है। हर बिक्री एक तथ्य है जो कंपनी के भीतर होती है और इन तथ्यों को रिकॉर्ड करने के लिए तथ्य तालिका का उपयोग किया जाता है। प्रत्येक तथ्य तालिका आयाम तालिका और उपायों / तथ्यों को तथ्य तालिका में शामिल करने के लिए प्राथमिक कुंजियों को संग्रहीत करती है।

Example - Fact_Units

Cust_ID Prod_Id Time_Id बेची गई इकाइयों की संख्या
101 24 1 25
102 25 2 15
103 26 3 30

एक आयाम तालिका उन विशेषताओं या आयामों को संग्रहीत करती है जो एक तथ्य तालिका में वस्तुओं का वर्णन करती हैं। यह एक तथ्य तालिका के साथी तालिकाओं का एक सेट है।

Example - Dim_Customer

Cust_id CUST_NAME लिंग
101 जेसन
102 अन्ना एफ

डेटा मार्ट डेटा वेयरहाउस का एक सरल रूप है और यह एकल कार्यात्मक क्षेत्र पर केंद्रित है। यह आमतौर पर केवल कुछ स्रोतों से डेटा प्राप्त करता है।

Example - एक संगठन में, वित्त, विपणन, मानव संसाधन, और अन्य व्यक्तिगत विभागों के लिए डेटा मौसा मौजूद हो सकते हैं जो अपने विशिष्ट कार्यों से संबंधित डेटा संग्रहीत करते हैं।

एक अधिक महत्वपूर्ण माप बनाने के लिए एकल स्तंभ की कई पंक्तियों को समूहित करने के लिए सकल कार्यों का उपयोग किया जाता है। जब हम डेटा वेयरहाउस में एकत्रित तालिकाओं को सहेजते हैं तो उनका उपयोग प्रदर्शन अनुकूलन के लिए भी किया जाता है।

आम सकल कार्य हैं -

मिनट किसी दिए गए कॉलम में सबसे छोटा मान लौटाता है
मैक्स किसी दिए गए कॉलम में सबसे बड़ा मान लौटाता है
योग किसी दिए गए कॉलम में संख्यात्मक मानों का योग देता है
औसत किसी दिए गए कॉलम का औसत मान लौटाता है
गिनती दिए गए कॉलम में मानों की कुल संख्या लौटाता है
COUNT (*) किसी तालिका में पंक्तियों की संख्या लौटाता है

Example

SELECT AVG(salary) 
FROM employee 
WHERE title = 'developer';

डेटाबेस की संरचना या स्कीमा को परिभाषित करने के लिए डेटा डेफिनिशन लैंग्वेज (DDL) स्टेटमेंट्स का उपयोग किया जाता है।

Examples -

  • CREATE - एक डेटाबेस में ऑब्जेक्ट बनाने के लिए

  • ALTER - एक डेटाबेस की संरचना को बदल देता है

Data Manipulation Language (DML) स्टेटमेंट का उपयोग डेटाबेस के भीतर डेटा में हेरफेर के लिए किया जाता है।

Examples -

  • SELECT - एक डेटाबेस से डेटा को पुनः प्राप्त करता है

  • INSERT - एक तालिका में डेटा सम्मिलित करता है

  • UPDATE - एक टेबल के भीतर मौजूदा डेटा को अपडेट करता है

  • DELETE - एक मेज से सभी रिकॉर्ड को हटाता है, रिकॉर्ड के लिए जगह बनी हुई है

डेटा कंट्रोल लैंग्वेज (DCL) स्टेटमेंट का उपयोग डेटाबेस ऑब्जेक्ट्स पर एक्सेस को नियंत्रित करने के लिए किया जाता है।

Examples -

  • GRANT - डेटाबेस के लिए उपयोगकर्ता की पहुँच विशेषाधिकार देता है

  • REVOKE - GRANT कमांड के साथ दिए गए विशेषाधिकारों को वापस लेता है

किसी SQL कथन में शर्तों को निर्दिष्ट करने और किसी कथन में कई स्थितियों के लिए संयोजन के रूप में कार्य करने के लिए ऑपरेटर्स का उपयोग किया जाता है। आम ऑपरेटर प्रकार हैं -

  • अंकगणितीय आपरेटर
  • तुलनात्मक / रिलेशनल ऑपरेटर्स
  • लॉजिकल ऑपरेटर्स
  • ऑपरेटर सेट करें
  • संचालक स्थितियों को नकारते थे

SQL में आम सेट ऑपरेटर हैं -

  • UNION
  • यूनिअन ऑल
  • INTERSECT
  • MINUS

इंटर्सेक्ट ऑपरेशन का उपयोग दो सेलेक्ट स्टेटमेंट्स को मिलाने के लिए किया जाता है, लेकिन यह केवल उन रिकॉर्ड्स को वापस करता है जो दोनों सेलेक्ट स्टेटमेंट्स से कॉमन हैं। Intersect के मामले में, कॉलम और डेटाटाइप की संख्या समान होनी चाहिए। MySQL INTERSECT ऑपरेटर का समर्थन नहीं करता है। एक अंतरजिला क्वेरी निम्नानुसार है -

select * from First 
INTERSECT 
select * from second

माइनस ऑपरेशन दो चुनिंदा कथनों के परिणाम को जोड़ता है और केवल उन्हीं परिणामों को वापस करता है जो परिणाम के पहले सेट से संबंधित हैं। एक माइनस क्वेरी निम्नानुसार दिखाई देती है -

select * from First 
MINUS 
select * from second

यदि आप स्रोत माइनस टारगेट और माइनस सोर्स को टारगेट करते हैं, और यदि माइनस क्वेरी एक मान लौटाती है, तो इसे बेमेल पंक्तियों का मामला माना जाना चाहिए।

यदि माइनस क्वेरी एक मान लौटाती है और काउंट इंटरसेक्ट सोर्स काउंट या टार्गेट टेबल से कम होता है, तो सोर्स और टारगेट टेबल डुप्लीकेट रो को कॉपी करते हैं।

Group-by क्लॉज के साथ प्रयोग किया जाता है select इसी प्रकार के डेटा को एकत्र करने के लिए विवरण। HAVING के समान है WHERE इसके भीतर बयानों को छोड़कर एक समग्र प्रकृति के हैं।

Syntax -

SELECT dept_no, count ( 1 ) FROM employee GROUP BY dept_no;  
SELECT dept_no, count ( 1 ) FROM employee GROUP BY dept_no HAVING COUNT( 1 ) > 1;

Example - कर्मचारी की मेज

Country Salary
भारत 3000
अमेरिका 2500
भारत 500
अमेरिका 1500

Group by Country

Country Salary
भारत 3000
भारत 500
अमेरिका 2500
अमेरिका 1500

डेटा के उत्पादन वेयरहाउस सिस्टम में ले जाने से पहले ईटीएल परीक्षण किया जाता है। इसे कभी-कभी टेबल बैलेंसिंग या उत्पादन सामंजस्य भी कहा जाता है।

ईटीएल परीक्षण का मुख्य उद्देश्य विश्लेषणात्मक रिपोर्टिंग के लिए डेटा के प्रसंस्करण से पहले होने वाले डेटा दोषों और सामान्य त्रुटियों की पहचान करना और उन्हें कम करना है।

निम्न तालिका डेटाबेस और ETL परीक्षण की प्रमुख विशेषताओं और उनकी तुलना को पकड़ती है -

समारोह डेटाबेस परीक्षण ईटीएल परीक्षण
प्राथमिक लक्ष्य डेटा सत्यापन और एकीकरण BI रिपोर्टिंग के लिए डेटा निष्कर्षण, रूपांतरण और लोडिंग
लागू प्रणाली लेनदेन प्रणाली जहां व्यापार प्रवाह होता है ऐतिहासिक डेटा युक्त प्रणाली और व्यापार प्रवाह के वातावरण में नहीं
बाजार में आम उपकरण QTP, सेलेनियम, आदि। QuerySurge, Informatica, आदि।
व्यावसायिक आवश्यकता इसका उपयोग कई अनुप्रयोगों, गंभीर प्रभाव से डेटा को एकीकृत करने के लिए किया जाता है। इसका उपयोग विश्लेषणात्मक रिपोर्टिंग, सूचना और पूर्वानुमान के लिए किया जाता है।
मोडलिंग ईआर विधि बहुआयामी
डेटाबेस प्रकार यह आमतौर पर ओएलटीपी सिस्टम में उपयोग किया जाता है इसे OLAP सिस्टम पर लागू किया जाता है
डाटा प्रकार अधिक जोड़ के साथ सामान्यीकृत डेटा कम जुड़ाव, अधिक अनुक्रमित और एकत्रीकरण के साथ डी-सामान्यीकृत डेटा।

ईटीएल परीक्षण को उनके कार्य के आधार पर निम्नलिखित श्रेणियों में विभाजित किया जा सकता है -

  • Source to Target Count Testing - इसमें स्रोत और लक्ष्य प्रणाली में रिकॉर्ड की गिनती का मिलान शामिल है।

  • Source to Target Data Testing- इसमें स्रोत और लक्ष्य प्रणाली के बीच डेटा सत्यापन शामिल है। इसमें डेटा इंटीग्रेशन और थ्रेशोल्ड वैल्यू चेक और डुप्लीकेट डेटा चेक इन टार्गेट सिस्टम शामिल है।

  • Data Mapping or Transformation Testing- यह स्रोत और लक्ष्य प्रणाली में वस्तुओं के मानचित्रण की पुष्टि करता है। इसमें लक्ष्य प्रणाली में डेटा की कार्यक्षमता की जाँच करना भी शामिल है।

  • End-User Testing- इसमें अंतिम उपयोगकर्ताओं के लिए रिपोर्ट तैयार करना शामिल है ताकि यह सत्यापित किया जा सके कि रिपोर्ट में डेटा उम्मीद के मुताबिक है। इसमें रिपोर्ट में विचलन ढूंढना और रिपोर्ट सत्यापन के लिए लक्ष्य प्रणाली में डेटा की जांच करना शामिल है।

  • Retesting - इसमें लक्ष्य प्रणाली में डेटा में कीड़े और दोषों को ठीक करना और डेटा सत्यापन के लिए फिर से रिपोर्ट चलाना शामिल है।

  • System Integration Testing - इसमें सभी व्यक्तिगत प्रणालियों का परीक्षण करना शामिल है, और बाद में परिणाम को खोजने के लिए गठबंधन करना है कि क्या कोई विचलन है।

  • ETL प्रक्रिया के दौरान डेटा हानि।

  • गलत, अपूर्ण या डुप्लिकेट डेटा।

  • डीडब्ल्यू प्रणाली में ऐतिहासिक डेटा होता है, इसलिए लक्ष्य प्रणाली में ईटीएल परीक्षण करने के लिए डेटा की मात्रा बहुत बड़ी और वास्तव में जटिल होती है।

  • ईटीएल उपकरण में नौकरी के कार्यक्रम देखने के लिए आम तौर पर ईटीएल परीक्षक प्रदान नहीं किए जाते हैं। रिपोर्ट के अंतिम लेआउट और रिपोर्ट के डेटा को देखने के लिए उनके पास BI रिपोर्टिंग टूल तक पहुंच होती है।

  • डेटा की मात्रा के रूप में परीक्षण मामलों को उत्पन्न करने और बनाने के लिए कठिन है बहुत अधिक और जटिल।

  • ETL परीक्षकों को सामान्य रूप से अंतिम उपयोगकर्ता रिपोर्ट आवश्यकताओं और सूचना के व्यवसाय प्रवाह का अंदाजा नहीं होता है।

  • ETL परीक्षण में लक्ष्य प्रणाली में डेटा सत्यापन के लिए विभिन्न जटिल एसक्यूएल अवधारणाओं को शामिल किया गया है।

  • कभी-कभी मैपिंग जानकारी को लक्षित करने के लिए स्रोत के साथ परीक्षक प्रदान नहीं किए जाते हैं।

  • अस्थिर परीक्षण वातावरण विकास और प्रक्रिया के परीक्षण में देरी का परिणाम है।

ETL परीक्षक की मुख्य जिम्मेदारियों में शामिल हैं -

  • स्रोत प्रणाली में तालिकाओं को सत्यापित करना - चेक की गणना, डेटा प्रकार की जांच, चाबियाँ गायब नहीं हैं, डुप्लिकेट डेटा।

  • डेटा लोड करने से पहले परिवर्तन तर्क को लागू करना: डेटा सीमा सत्यापन, सरोगेट की जाँच, आदि।

  • डेटा स्टेजिंग क्षेत्र से लक्ष्य प्रणाली के लिए लोड हो रहा है: महत्वपूर्ण मान और गणना किए गए उपाय, प्रमुख फ़ील्ड गायब नहीं हैं, लक्ष्य तालिका में गणना की जाँच करें, बीआई रिपोर्ट सत्यापन इत्यादि।

  • ईटीएल टूल और उसके घटकों का परीक्षण, टेस्ट केस - टेस्ट प्लान, टेस्ट केस, टेस्ट ईटीएल टूल और इसके कार्य, टेस्ट डीडब्ल्यू सिस्टम आदि का निर्माण, डिजाइन और निष्पादन।

परिवर्तन नियमों का एक समूह है जो डेटा उत्पन्न, संशोधित या पारित करता है। परिवर्तन दो प्रकार के हो सकते हैं - सक्रिय और निष्क्रिय।

एक सक्रिय परिवर्तन में, आउटपुट के रूप में बनाई जाने वाली पंक्तियों की संख्या एक परिवर्तन होने के बाद बदल सकती है। निष्क्रिय परिवर्तन के दौरान ऐसा नहीं होता है। जानकारी इनपुट के रूप में उसी नंबर से गुजरती है।

विभाजन तब होता है जब आप डेटा स्टोर के क्षेत्र को भागों में विभाजित करते हैं। यह आम तौर पर लेनदेन के प्रदर्शन को बेहतर बनाने के लिए किया जाता है।

यदि आपका DW सिस्टम आकार में विशाल है, तो डेटा का पता लगाने में समय लगेगा। भंडारण स्थान का विभाजन आपको डेटा को आसान और तेज़ खोजने और विश्लेषण करने की अनुमति देता है।

विभाजन दो प्रकार के हो सकते हैं - राउंड-रॉबिन विभाजन और हैश विभाजन।

राउंड-रॉबिन विभाजन में, डेटा को समान रूप से सभी विभाजनों के बीच वितरित किया जाता है, इसलिए प्रत्येक विभाजन में पंक्तियों की संख्या अपेक्षाकृत समान होती है। हैश विभाजन तब होता है जब सर्वर डेटा को समूहीकृत करने के लिए विभाजन कुंजी बनाने के लिए हैश फ़ंक्शन का उपयोग करता है।

  • एक मैपेटलेट परिवर्तन नियमों को परिभाषित करता है।

  • स्रोत से लक्ष्य प्रणाली में स्थानांतरित होने पर डेटा को निर्देश देने के लिए सत्र परिभाषित किए जाते हैं।

  • वर्कफ़्लो निर्देशों का एक सेट है जो सर्वर को कार्य निष्पादन पर निर्देश देता है।

  • मैपिंग स्रोत से गंतव्य तक डेटा की आवाजाही है।

लुकअप परिवर्तन आपको रिलेशनल टेबल से डेटा एक्सेस करने की अनुमति देता है जो मैपिंग दस्तावेजों में परिभाषित नहीं हैं। यह आपको यह निर्धारित करने के लिए धीरे-धीरे बदलते आयाम तालिकाओं को अपडेट करने की अनुमति देता है कि रिकॉर्ड पहले से ही लक्ष्य में मौजूद हैं या नहीं।

एक सरोगेट कुंजी कुछ अर्थ के साथ अनुक्रम-जनरेट की गई संख्याएं होती हैं, और केवल पंक्ति को विशिष्ट रूप से पहचानने के लिए। यह उपयोगकर्ताओं या एप्लिकेशन को दिखाई नहीं देता है। इसे कैंडिडेट कुंजी भी कहा जाता है।

सरोगेट कुंजी में अनुक्रम-जनित संख्याएँ होती हैं जिनका कोई अर्थ नहीं होता है। यह विशिष्ट रूप से पंक्तियों की पहचान करने के लिए है।

प्राथमिक कुंजी का उपयोग पंक्तियों की विशिष्ट पहचान करने के लिए किया जाता है। यह उपयोगकर्ताओं को दिखाई देता है और आवश्यकता के अनुसार बदला जा सकता है।

ऐसे मामलों में, आप चेकसम विधि लागू कर सकते हैं। आप स्रोत और लक्ष्य प्रणालियों में रिकॉर्ड की संख्या की जांच करके शुरू कर सकते हैं। रकम का चयन करें और जानकारी की तुलना करें।

इस परीक्षण में, एक परीक्षक डेटा की श्रेणी को मान्य करता है। अपेक्षित परिणाम के अनुसार लक्ष्य प्रणाली में सभी थ्रेशोल्ड मानों की जाँच की जानी चाहिए।

Example - आयु विशेषता का मान 100 से अधिक नहीं होना चाहिए। दिनांक कॉलम DD / MM / YY में, माह फ़ील्ड का मान 12 से अधिक नहीं होना चाहिए।

Select Cust_Id, Cust_NAME, Quantity, COUNT (*)
FROM Customer GROUP BY Cust_Id, Cust_NAME, Quantity HAVING COUNT (*) >1;

जब कोई प्राथमिक कुंजी परिभाषित नहीं होती है, तो डुप्लिकेट मान दिखाई दे सकते हैं।

डेटा मैपिंग गलत मैपिंग के कारण भी हो सकती है, और डेटा को स्रोत से लक्ष्य प्रणाली में स्थानांतरित करते समय मैन्युअल त्रुटियां हो सकती हैं।

प्रतिगमन परीक्षण तब होता है जब हम नई कार्यक्षमता जोड़ने के लिए डेटा परिवर्तन और एकत्रीकरण नियमों में बदलाव करते हैं और परीक्षक को नई त्रुटियों को खोजने में मदद करते हैं। वे कीड़े जो डेटा में दिखाई देते हैं जो प्रतिगमन परीक्षण में आते हैं उन्हें प्रतिगमन कहा जाता है।

तीन दृष्टिकोण हैं - टॉप-डाउन, बॉटम-अप और हाइब्रिड।

सबसे आम ईटीएल परीक्षण परिदृश्य हैं -

  • संरचना सत्यापन
  • मानचित्रण दस्तावेज़ को मान्य करना
  • वैधानिक अड़चनें
  • डेटा संगतता जाँच
  • डेटा पूर्णता सत्यापन
  • डेटा सुधार की वैधता
  • डेटा ट्रांसफ़ॉर्मेशन सत्यापन
  • डेटा गुणवत्ता सत्यापन
  • शून्य मान्यता
  • डुप्लिकेट मान्यता
  • दिनांक सत्यापन जाँच
  • माइनस क्वेरी का उपयोग करके पूर्ण डेटा सत्यापन
  • अन्य परीक्षण परिदृश्य
  • डेटा की सफाई

डेटा शुद्धिकरण डेटा वेयरहाउस से डेटा हटाने की एक प्रक्रिया है। यह रिक्त मानों या अतिरिक्त रिक्त स्थान वाली पंक्तियों की तरह जंक डेटा को हटा देता है।

कॉस्मेटिक बग किसी एप्लिकेशन के GUI से संबंधित है। यह फ़ॉन्ट शैली, फ़ॉन्ट आकार, रंग, संरेखण, वर्तनी की गलतियों, नेविगेशन आदि से संबंधित हो सकता है।

इसे सीमा मूल्य विश्लेषण संबंधित बग कहा जाता है।

आप इसे मैपिंग वैरिएबल और फ़िल्टर किए गए परिवर्तन बनाकर कर सकते हैं। विशेष रूप से सॉर्ट किए गए रिकॉर्ड की आवश्यकता के लिए आपको एक अनुक्रम उत्पन्न करना पड़ सकता है।

Value comparison- इसमें स्रोत और लक्ष्य प्रणालियों में डेटा की तुलना न्यूनतम या बिना परिवर्तन के साथ की जाती है। यह विभिन्न ईटीएल परीक्षण उपकरणों का उपयोग करके किया जा सकता है जैसे कि इंफॉर्मेटिका में सोर्स क्वालिफायर ट्रांसफॉर्मेशन।

स्रोत और लक्ष्य प्रणालियों में अलग-अलग मूल्यों की तुलना करके महत्वपूर्ण डेटा कॉलम की जाँच की जा सकती है।

आप डेटा पूर्णता सत्यापन करने के लिए Minus और Intersect स्टेटमेंट का उपयोग कर सकते हैं। जब आप स्रोत माइनस टारगेट करते हैं और माइनस सोर्स को टारगेट करते हैं और माइनस क्वेरी एक वैल्यू लौटाती है, तो यह पंक्तियों को मिसमैच करने का संकेत है।

यदि माइनस क्वेरी एक मान लौटाती है और काउंट इंटरसेक्ट सोर्स काउंट या टारगेट टेबल से कम है, तो डुप्लिकेट पंक्तियाँ मौजूद हैं।

Shortcut Transformationकिसी ऑब्जेक्ट का संदर्भ है जो साझा फ़ोल्डर में उपलब्ध है। ये संदर्भ आमतौर पर विभिन्न स्रोतों और लक्ष्यों के लिए उपयोग किए जाते हैं जिन्हें विभिन्न परियोजनाओं या वातावरणों के बीच साझा किया जाना है।

रिपोजिटरी मैनेजर में, 'साझा' स्थिति निर्दिष्ट करके एक शॉर्टकट बनाया जाता है। बाद में, ऑब्जेक्ट को इस फ़ोल्डर से दूसरे फ़ोल्डर में खींचा जा सकता है। यह प्रक्रिया ऑब्जेक्ट के लिए एकल बिंदु नियंत्रण की अनुमति देती है और कई परियोजनाओं में सभी आयात स्रोत और लक्ष्य अपने स्थानीय फ़ोल्डर में नहीं होते हैं।

Reusable Transformation एक फ़ोल्डर के लिए स्थानीय है। Example- गोदाम ग्राहक आईडी आवंटित करने के लिए पुन: प्रयोज्य अनुक्रम जनरेटर। कई स्रोत प्रणालियों से ग्राहक विवरण लोड करना और प्रत्येक नए स्रोत-कुंजी को अद्वितीय आईडी आवंटित करना उपयोगी है।

जब आप किसी एकल तालिका को स्वयं से जोड़ते हैं, तो इसे सेल्फ-जॉइन कहा जाता है।

डेटाबेस सामान्यीकरण डेटा अतिरेक को कम करने के लिए एक रिलेशनल डेटाबेस की विशेषताओं और तालिकाओं को व्यवस्थित करने की प्रक्रिया है।

सामान्यीकरण में एक तालिका को कम निरर्थक (और छोटी) तालिकाओं में विघटित करना शामिल है लेकिन बिना जानकारी खोए।

एक तथ्य-कम तथ्य तालिका एक तथ्य तालिका है जिसमें कोई उपाय नहीं है। यह अनिवार्य रूप से आयामों का प्रतिच्छेदन है। दो प्रकार के तथ्य-कम टेबल हैं: एक घटना को पकड़ने के लिए है, और दूसरा शर्तों का वर्णन करने के लिए है।

समय के साथ धीरे-धीरे बदलते आयाम एक विशेषता के बदलते मूल्य को संदर्भित करते हैं। SCD तीन प्रकार के होते हैं - टाइप 1, टाइप 2 और टाइप 3।