डेटा भण्डारण - योजनाएँ

स्कीमा पूरे डेटाबेस का एक तार्किक विवरण है। इसमें सभी संबंधित डेटा-आइटम और समुच्चय सहित सभी रिकॉर्ड प्रकारों के रिकॉर्ड का नाम और विवरण शामिल है। एक डेटाबेस की तरह, एक डेटा गोदाम को भी एक स्कीमा बनाए रखने की आवश्यकता होती है। एक डेटाबेस रिलेशनल मॉडल का उपयोग करता है, जबकि एक डेटा वेयरहाउस स्टार, स्नोफ्लेक, और फैक्ट कांस्टेलेशन स्कीमा का उपयोग करता है। इस अध्याय में, हम डेटा वेयरहाउस में उपयोग किए गए स्कीमाओं पर चर्चा करेंगे।

स्टार स्कीमा

  • एक स्टार स्कीमा में प्रत्येक आयाम को केवल एक-आयाम तालिका के साथ दर्शाया गया है।

  • इस आयाम तालिका में विशेषताओं का समूह है।

  • निम्नलिखित आरेख चार आयामों, अर्थात् समय, आइटम, शाखा और स्थान के संबंध में एक कंपनी के बिक्री डेटा को दर्शाता है।

  • केंद्र में एक तथ्य तालिका है। इसमें चार आयामों में से प्रत्येक की कुंजी है।

  • इस तथ्य तालिका में डॉलर की बिक्री और बेची गई इकाइयाँ भी शामिल हैं।

Note- प्रत्येक आयाम में केवल एक आयाम तालिका होती है और प्रत्येक तालिका विशेषताओं का एक समूह रखती है। उदाहरण के लिए, स्थान आयाम तालिका में विशेषता स्थान {location_key, street, city, Province_or_state, देश} सम्‍मिलित है। इस अवरोध के कारण डेटा अतिरेक हो सकता है। उदाहरण के लिए, "वैंकूवर" और "विक्टोरिया" दोनों शहर कनाडाई प्रांत ब्रिटिश कोलंबिया में हैं। ऐसे शहरों के लिए प्रविष्टियाँ, प्रांतीय प्रांत_ देश और देश के साथ डेटा अतिरेक पैदा कर सकती हैं।

स्नोफ्लेक स्कीमा

  • स्नोफ्लेक स्कीमा में कुछ आयाम तालिकाओं को सामान्य किया जाता है।

  • The normalization splits up the data into additional tables.

  • Unlike Star schema, the dimensions table in a snowflake schema are normalized. For example, the item dimension table in star schema is normalized and split into two dimension tables, namely item and supplier table.

  • Now the item dimension table contains the attributes item_key, item_name, type, brand, and supplier-key.

  • The supplier key is linked to the supplier dimension table. The supplier dimension table contains the attributes supplier_key and supplier_type.

Note − Due to normalization in the Snowflake schema, the redundancy is reduced and therefore, it becomes easy to maintain and the save storage space.

Fact Constellation Schema

  • A fact constellation has multiple fact tables. It is also known as galaxy schema.

  • The following diagram shows two fact tables, namely sales and shipping.

  • The sales fact table is same as that in the star schema.

  • The shipping fact table has the five dimensions, namely item_key, time_key, shipper_key, from_location, to_location.

  • The shipping fact table also contains two measures, namely dollars sold and units sold.

  • It is also possible to share dimension tables between fact tables. For example, time, item, and location dimension tables are shared between the sales and shipping fact table.

Schema Definition

Multidimensional schema is defined using Data Mining Query Language (DMQL). The two primitives, cube definition and dimension definition, can be used for defining the data warehouses and data marts.

Syntax for Cube Definition

define cube < cube_name > [ < dimension-list > }: < measure_list >

Syntax for Dimension Definition

define dimension < dimension_name > as ( < attribute_or_dimension_list > )

Star Schema Definition

The star schema that we have discussed can be defined using Data Mining Query Language (DMQL) as follows −

define cube sales star [time, item, branch, location]:   
    	   
dollars sold = sum(sales in dollars), units sold = count(*)    	  

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier type)        	
define dimension branch as (branch key, branch name, branch type)              	
define dimension location as (location key, street, city, province or state, country)

Snowflake Schema Definition

Snowflake schema can be defined using DMQL as follows −

define cube sales snowflake [time, item, branch, location]:

dollars sold = sum(sales in dollars), units sold = count(*)

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier (supplier key, supplier type))
define dimension branch as (branch key, branch name, branch type)
define dimension location as (location key, street, city (city key, city, province or state, country))

Fact Constellation Schema Definition

Fact constellation schema can be defined using DMQL as follows −

define cube sales [time, item, branch, location]:

dollars sold = sum(sales in dollars), units sold = count(*)

define dimension time as (time key, day, day of week, month, quarter, year)
define dimension item as (item key, item name, brand, type, supplier type)
define dimension branch as (branch key, branch name, branch type)
define dimension location as (location key, street, city, province or state,country)
define cube shipping [time, item, shipper, from location, to location]:

dollars cost = sum(cost in dollars), units shipped = count(*)

define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper key, shipper name, location as location in cube sales, shipper type)
define dimension from location as location in cube sales
define dimension to location as location in cube sales