Data Mining - Abfragesprache
Die Data Mining Query Language (DMQL) wurde von Han, Fu, Wang et al. für das DBMiner Data Mining-System. Die Data Mining-Abfragesprache basiert tatsächlich auf der strukturierten Abfragesprache (SQL). Data Mining-Abfragesprachen können so gestaltet werden, dass sie Ad-hoc- und interaktives Data Mining unterstützen. Diese DMQL bietet Befehle zum Angeben von Grundelementen. DMQL kann auch mit Datenbanken und Data Warehouses arbeiten. Mit DMQL können Data Mining-Aufgaben definiert werden. Insbesondere untersuchen wir, wie Data Warehouses und Data Marts in DMQL definiert werden.
Syntax für die aufgabenrelevante Datenspezifikation
Hier ist die Syntax von DMQL zur Angabe aufgabenrelevanter Daten:
use database database_name
or
use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list
Syntax zur Angabe der Art des Wissens
Hier werden wir die Syntax für Charakterisierung, Diskriminierung, Assoziation, Klassifizierung und Vorhersage diskutieren.
Charakterisierung
Die Syntax für die Charakterisierung lautet -
mine characteristics [as pattern_name]
analyze {measure(s) }
Die Analyseklausel gibt aggregierte Kennzahlen an, z. B. Anzahl, Summe oder Anzahl%.
Zum Beispiel -
Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%
Diskriminierung
Die Syntax für Diskriminierung lautet -
mine comparison [as {pattern_name]}
For {target_class } where {t arget_condition }
{versus {contrast_class_i }
where {contrast_condition_i}}
analyze {measure(s) }
Beispielsweise kann ein Benutzer große Ausgaben als Kunden definieren, die Artikel kaufen, die durchschnittlich 100 USD oder mehr kosten. und Budgetausgaben als Kunden, die Artikel für durchschnittlich weniger als 100 US-Dollar kaufen. Das Mining von Diskriminanzbeschreibungen für Kunden aus jeder dieser Kategorien kann in der DMQL als - angegeben werden.
mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count
Verband
Die Syntax für Association lautet−
mine associations [ as {pattern_name} ]
{matching {metapattern} }
Zum Beispiel -
mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
wobei X der Schlüssel der Kundenbeziehung ist; P und Q sind Prädikatvariablen; und W, Y und Z sind Objektvariablen.
Einstufung
Die Syntax für die Klassifizierung lautet -
mine classification [as pattern_name]
analyze classifying_attribute_or_dimension
Um beispielsweise Muster abzubauen, wird die Klassifizierung der Kundenbonität, bei der die Klassen durch das Attribut credit_rating bestimmt werden, und die Klassifizierung der Mine als classifyCustomerCreditRating bestimmt.
analyze credit_rating
Prognose
Die Syntax für die Vorhersage lautet -
mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}
Syntax für die Spezifikation der Konzepthierarchie
Verwenden Sie die folgende Syntax, um Konzepthierarchien anzugeben:
use hierarchy <hierarchy> for <attribute_or_dimension>
Wir verwenden verschiedene Syntaxen, um verschiedene Arten von Hierarchien zu definieren, wie z
-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior
-operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as
{age_category(1), ..., age_category(5)}
:= cluster(default, age, 5) < all(age)
-rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as
level_1: low_profit_margin < level_0: all
if (price - cost)< $50
level_1: medium-profit_margin < level_0: all
if ((price - cost) > $50) and ((price - cost) ≤ $250))
level_1: high_profit_margin < level_0: all
Syntax für die Spezifikation von Interessensmaßen
Interessante Maße und Schwellenwerte können vom Benutzer mit der Anweisung angegeben werden -
with <interest_measure_name> threshold = threshold_value
Zum Beispiel -
with support threshold = 0.05
with confidence threshold = 0.7
Syntax für die Musterpräsentation und Visualisierungsspezifikation
Wir haben eine Syntax, mit der Benutzer die Anzeige erkannter Muster in einer oder mehreren Formen festlegen können.
display as <result_form>
Zum Beispiel -
display as table
Vollständige Spezifikation von DMQL
Als Marktmanager eines Unternehmens möchten Sie die Kaufgewohnheiten von Kunden charakterisieren, die Artikel zu einem Preis von mindestens 100 US-Dollar kaufen können. in Bezug auf das Alter des Kunden, die Art des gekauften Artikels und den Ort, an dem der Artikel gekauft wurde. Sie möchten wissen, wie viel Prozent der Kunden diese Eigenschaft haben. Insbesondere interessieren Sie sich nur für Einkäufe in Kanada, die mit einer American Express-Kreditkarte bezahlt werden. Sie möchten die resultierenden Beschreibungen in Form einer Tabelle anzeigen.
use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S, branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table
Standardisierung von Data Mining-Sprachen
Die Standardisierung der Data Mining-Sprachen dient folgenden Zwecken:
Hilft bei der systematischen Entwicklung von Data Mining-Lösungen.
Verbessert die Interoperabilität zwischen mehreren Data Mining-Systemen und -Funktionen.
Fördert Bildung und schnelles Lernen.
Fördert den Einsatz von Data Mining-Systemen in Industrie und Gesellschaft.