डाटा माइनिंग - क्वेरी भाषा
डेटा माइनिंग क्वेरी लैंग्वेज (DMQL) को हान, फू, वांग, एट अल द्वारा प्रस्तावित किया गया था। DBMiner डाटा खनन प्रणाली के लिए। डेटा माइनिंग क्वेरी लैंग्वेज वास्तव में स्ट्रक्चर्ड क्वेरी लैंग्वेज (SQL) पर आधारित है। डेटा माइनिंग क्वेरी लैंग्वेज को तदर्थ और इंटरेक्टिव डेटा माइनिंग को सपोर्ट करने के लिए डिज़ाइन किया जा सकता है। यह DMQL प्रिमिटिव निर्दिष्ट करने के लिए कमांड प्रदान करता है। DMQL डेटाबेस और डेटा वेयरहाउस के साथ भी काम कर सकता है। DMQL का उपयोग डेटा माइनिंग कार्यों को परिभाषित करने के लिए किया जा सकता है। विशेष रूप से हम DMQL में डेटा वेयरहाउस और डेटा marts को परिभाषित करने के तरीके की जांच करते हैं।
टास्क-प्रासंगिक डेटा विनिर्देश के लिए सिंटैक्स
यहाँ टास्क प्रासंगिक डेटा निर्दिष्ट करने के लिए DMQL का वाक्य विन्यास है -
use database database_name
or
use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list
ज्ञान के प्रकार को निर्दिष्ट करने के लिए सिंटैक्स
यहां हम वर्ण-व्यवस्था, भेदभाव, संघ, वर्गीकरण और भविष्यवाणी के लिए वाक्यविन्यास पर चर्चा करेंगे।
निस्र्पण
लक्षण वर्णन का सिंटैक्स है -
mine characteristics [as pattern_name]
analyze {measure(s) }
विश्लेषण खंड, कुल उपायों को निर्दिष्ट करता है, जैसे कि गिनती, योग, या गिनती%।
उदाहरण के लिए -
Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%
भेदभाव
भेदभाव के लिए वाक्य रचना है -
mine comparison [as {pattern_name]}
For {target_class } where {t arget_condition }
{versus {contrast_class_i }
where {contrast_condition_i}}
analyze {measure(s) }
उदाहरण के लिए, एक उपयोगकर्ता उन बड़े ग्राहकों को परिभाषित कर सकता है, जो औसतन $ 100 या अधिक लागत वाली वस्तुओं को खरीदते हैं; और बजट खर्च करने वाले ग्राहक के रूप में जो औसतन $ 100 से कम पर आइटम खरीदते हैं। इन श्रेणियों में से प्रत्येक के लिए ग्राहकों के लिए भेदभावपूर्ण विवरण का खनन DMQL में निर्दिष्ट किया जा सकता है -
mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count
संगति
एसोसिएशन के लिए वाक्य रचना is− है
mine associations [ as {pattern_name} ]
{matching {metapattern} }
उदाहरण के लिए -
mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
जहां X ग्राहक संबंध की कुंजी है; P और Q विधेय चर हैं; और W, Y और Z ऑब्जेक्ट चर हैं।
वर्गीकरण
वर्गीकरण के लिए वाक्य रचना है -
mine classification [as pattern_name]
analyze classifying_attribute_or_dimension
उदाहरण के लिए, मेरा पैटर्न, ग्राहक क्रेडिट रेटिंग को वर्गीकृत करने के लिए, जहां कक्षाएं विशेषता credit_rating द्वारा निर्धारित की जाती हैं, और मेरा वर्गीकरण classifyCustomerCreditRating के रूप में निर्धारित किया जाता है।
analyze credit_rating
भविष्यवाणी
भविष्यवाणी के लिए वाक्य रचना है -
mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}
संकल्पना पदानुक्रम विशिष्टता के लिए सिंटैक्स
अवधारणा पदानुक्रम निर्दिष्ट करने के लिए, निम्नलिखित सिंटैक्स का उपयोग करें -
use hierarchy <hierarchy> for <attribute_or_dimension>
हम विभिन्न सिंटैक्स का उपयोग विभिन्न प्रकार की पदानुक्रमों को परिभाषित करने के लिए करते हैं जैसे कि
-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior
-operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as
{age_category(1), ..., age_category(5)}
:= cluster(default, age, 5) < all(age)
-rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as
level_1: low_profit_margin < level_0: all
if (price - cost)< $50
level_1: medium-profit_margin < level_0: all
if ((price - cost) > $50) and ((price - cost) ≤ $250))
level_1: high_profit_margin < level_0: all
रोचकता के लिए सिंटैक्स, विशिष्टता को मापता है
दिलचस्प उपाय और सीमाएं उपयोगकर्ता द्वारा कथन के साथ निर्दिष्ट की जा सकती हैं -
with <interest_measure_name> threshold = threshold_value
उदाहरण के लिए -
with support threshold = 0.05
with confidence threshold = 0.7
पैटर्न प्रस्तुति और विज़ुअलाइज़ेशन विशिष्टता के लिए सिंटैक्स
हमारे पास एक सिंटैक्स है, जो उपयोगकर्ताओं को एक या अधिक रूपों में खोजे गए पैटर्न के प्रदर्शन को निर्दिष्ट करने की अनुमति देता है।
display as <result_form>
उदाहरण के लिए -
display as table
DMQL की पूर्ण विशिष्टता
एक कंपनी के बाजार प्रबंधक के रूप में, आप उन ग्राहकों की खरीद की आदतों को चिह्नित करना चाहेंगे जो $ 100 से कम कीमत पर वस्तुओं की खरीद कर सकते हैं; ग्राहक की आयु के संबंध में, खरीदी गई वस्तु का प्रकार और वह स्थान जहाँ वस्तु खरीदी गई थी। आप उस विशेषता वाले ग्राहकों का प्रतिशत जानना चाहेंगे। विशेष रूप से, आप केवल कनाडा में की गई खरीदारी में रुचि रखते हैं, और अमेरिकन एक्सप्रेस क्रेडिट कार्ड से भुगतान किया जाता है। आप तालिका के रूप में परिणामी विवरण देखना चाहेंगे।
use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S, branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table
डेटा खनन भाषाएँ मानकीकरण
डेटा माइनिंग भाषाओं का मानकीकरण निम्नलिखित उद्देश्यों को पूरा करेगा -
डेटा माइनिंग सॉल्यूशंस के व्यवस्थित विकास में मदद करता है।
कई डेटा माइनिंग सिस्टम और फ़ंक्शंस के बीच अंतर को बेहतर बनाता है।
शिक्षा और तेजी से सीखने को बढ़ावा देता है।
उद्योग और समाज में डेटा माइनिंग सिस्टम के उपयोग को बढ़ावा देता है।