Data Mining - Abfragesprache

Die Data Mining Query Language (DMQL) wurde von Han, Fu, Wang et al. für das DBMiner Data Mining-System. Die Data Mining-Abfragesprache basiert tatsächlich auf der strukturierten Abfragesprache (SQL). Data Mining-Abfragesprachen können so gestaltet werden, dass sie Ad-hoc- und interaktives Data Mining unterstützen. Diese DMQL bietet Befehle zum Angeben von Grundelementen. DMQL kann auch mit Datenbanken und Data Warehouses arbeiten. Mit DMQL können Data Mining-Aufgaben definiert werden. Insbesondere untersuchen wir, wie Data Warehouses und Data Marts in DMQL definiert werden.

Syntax für die aufgabenrelevante Datenspezifikation

Hier ist die Syntax von DMQL zur Angabe aufgabenrelevanter Daten:

use database database_name

or 

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

Syntax zur Angabe der Art des Wissens

Hier werden wir die Syntax für Charakterisierung, Diskriminierung, Assoziation, Klassifizierung und Vorhersage diskutieren.

Charakterisierung

Die Syntax für die Charakterisierung lautet -

mine characteristics [as pattern_name]
   analyze  {measure(s) }

Die Analyseklausel gibt aggregierte Kennzahlen an, z. B. Anzahl, Summe oder Anzahl%.

Zum Beispiel -

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

Diskriminierung

Die Syntax für Diskriminierung lautet -

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition } 
{versus  {contrast_class_i }
where {contrast_condition_i}}  
analyze  {measure(s) }

Beispielsweise kann ein Benutzer große Ausgaben als Kunden definieren, die Artikel kaufen, die durchschnittlich 100 USD oder mehr kosten. und Budgetausgaben als Kunden, die Artikel für durchschnittlich weniger als 100 US-Dollar kaufen. Das Mining von Diskriminanzbeschreibungen für Kunden aus jeder dieser Kategorien kann in der DMQL als - angegeben werden.

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count

Verband

Die Syntax für Association lautet−

mine associations [ as {pattern_name} ]
{matching {metapattern} }

Zum Beispiel -

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

wobei X der Schlüssel der Kundenbeziehung ist; P und Q sind Prädikatvariablen; und W, Y und Z sind Objektvariablen.

Einstufung

Die Syntax für die Klassifizierung lautet -

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

Um beispielsweise Muster abzubauen, wird die Klassifizierung der Kundenbonität, bei der die Klassen durch das Attribut credit_rating bestimmt werden, und die Klassifizierung der Mine als classifyCustomerCreditRating bestimmt.

analyze credit_rating

Prognose

Die Syntax für die Vorhersage lautet -

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Syntax für die Spezifikation der Konzepthierarchie

Verwenden Sie die folgende Syntax, um Konzepthierarchien anzugeben:

use hierarchy <hierarchy> for <attribute_or_dimension>

Wir verwenden verschiedene Syntaxen, um verschiedene Arten von Hierarchien zu definieren, wie z

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)} 
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50
   level_1:  medium-profit_margin < level_0:  all
   
if ((price - cost) > $50)  and ((price - cost) ≤ $250)) 
   level_1:  high_profit_margin < level_0:  all

Syntax für die Spezifikation von Interessensmaßen

Interessante Maße und Schwellenwerte können vom Benutzer mit der Anweisung angegeben werden -

with <interest_measure_name>  threshold = threshold_value

Zum Beispiel -

with support threshold = 0.05
with confidence threshold = 0.7

Syntax für die Musterpräsentation und Visualisierungsspezifikation

Wir haben eine Syntax, mit der Benutzer die Anzeige erkannter Muster in einer oder mehreren Formen festlegen können.

display as <result_form>

Zum Beispiel -

display as table

Vollständige Spezifikation von DMQL

Als Marktmanager eines Unternehmens möchten Sie die Kaufgewohnheiten von Kunden charakterisieren, die Artikel zu einem Preis von mindestens 100 US-Dollar kaufen können. in Bezug auf das Alter des Kunden, die Art des gekauften Artikels und den Ort, an dem der Artikel gekauft wurde. Sie möchten wissen, wie viel Prozent der Kunden diese Eigenschaft haben. Insbesondere interessieren Sie sich nur für Einkäufe in Kanada, die mit einer American Express-Kreditkarte bezahlt werden. Sie möchten die resultierenden Beschreibungen in Form einer Tabelle anzeigen.

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

Standardisierung von Data Mining-Sprachen

Die Standardisierung der Data Mining-Sprachen dient folgenden Zwecken:

  • Hilft bei der systematischen Entwicklung von Data Mining-Lösungen.

  • Verbessert die Interoperabilität zwischen mehreren Data Mining-Systemen und -Funktionen.

  • Fördert Bildung und schnelles Lernen.

  • Fördert den Einsatz von Data Mining-Systemen in Industrie und Gesellschaft.