데이터 마이닝-쿼리 언어
DMQL (Data Mining Query Language)은 Han, Fu, Wang 등이 제안했습니다. DBMiner 데이터 마이닝 시스템을 위해. 데이터 마이닝 쿼리 언어는 실제로 SQL (구조적 쿼리 언어)을 기반으로합니다. 데이터 마이닝 쿼리 언어는 임시 및 대화 형 데이터 마이닝을 지원하도록 설계 할 수 있습니다. 이 DMQL은 기본 요소를 지정하기위한 명령을 제공합니다. DMQL은 데이터베이스 및 데이터웨어 하우스에서도 작동 할 수 있습니다. DMQL을 사용하여 데이터 마이닝 작업을 정의 할 수 있습니다. 특히 DMQL에서 데이터웨어 하우스 및 데이터 마트를 정의하는 방법을 검토합니다.
작업 관련 데이터 사양에 대한 구문
다음은 작업 관련 데이터를 지정하기위한 DMQL 구문입니다.
use database database_name
or
use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list
지식의 종류를 지정하기위한 구문
여기서는 특성화, 차별, 연관, 분류 및 예측에 대한 구문에 대해 설명합니다.
성격 묘사
특성화 구문은 다음과 같습니다.
mine characteristics [as pattern_name]
analyze {measure(s) }
analyze 절은 개수, 합계 또는 개수 %와 같은 집계 측정 값을 지정합니다.
예를 들면-
Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%
차별
차별의 구문은 다음과 같습니다.
mine comparison [as {pattern_name]}
For {target_class } where {t arget_condition }
{versus {contrast_class_i }
where {contrast_condition_i}}
analyze {measure(s) }
예를 들어, 사용자는 평균 100 달러 이상의 항목을 구매하는 고객으로 고액 지출자를 정의 할 수 있습니다. 평균 100 달러 미만으로 항목을 구매하는 고객으로서 예산을 지출합니다. 이러한 각 범주의 고객에 대한 식별 설명의 마이닝은 DMQL에 다음과 같이 지정할 수 있습니다.
mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count
협회
Association의 구문은 다음과 같습니다.
mine associations [ as {pattern_name} ]
{matching {metapattern} }
예를 들어-
mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
여기서 X는 고객 관계의 핵심입니다. P와 Q는 술어 변수입니다. W, Y, Z는 객체 변수입니다.
분류
분류의 구문은 다음과 같습니다.
mine classification [as pattern_name]
analyze classifying_attribute_or_dimension
예를 들어, 패턴을 채굴하려면 credit_rating 속성에 의해 클래스가 결정되는 고객 신용 등급을 분류하고, 광산 분류는 classifyCustomerCreditRating으로 결정됩니다.
analyze credit_rating
예측
예측 구문은 다음과 같습니다.
mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}
개념 계층 사양 구문
개념 계층을 지정하려면 다음 구문을 사용하십시오.
use hierarchy <hierarchy> for <attribute_or_dimension>
우리는 다음과 같은 다른 유형의 계층을 정의하기 위해 다른 구문을 사용합니다.
-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior
-operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as
{age_category(1), ..., age_category(5)}
:= cluster(default, age, 5) < all(age)
-rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as
level_1: low_profit_margin < level_0: all
if (price - cost)< $50
level_1: medium-profit_margin < level_0: all
if ((price - cost) > $50) and ((price - cost) ≤ $250))
level_1: high_profit_margin < level_0: all
흥미도 측정 사양 구문
흥미도 측정 및 임계 값은 다음과 같이 사용자가 지정할 수 있습니다.
with <interest_measure_name> threshold = threshold_value
예를 들어-
with support threshold = 0.05
with confidence threshold = 0.7
패턴 표현 및 시각화 사양 구문
사용자가 발견 된 패턴의 표시를 하나 이상의 형식으로 지정할 수있는 구문이 있습니다.
display as <result_form>
예를 들어-
display as table
DMQL의 전체 사양
회사의 시장 관리자는 $ 100 이상으로 가격이 책정 된 품목을 구매할 수있는 고객의 구매 습관을 특성화하고 싶습니다. 고객의 연령, 구매 항목 유형 및 항목을 구매 한 장소와 관련하여 그 특성을 가진 고객의 비율을 알고 싶습니다. 특히 캐나다에서 이루어진 구매에만 관심이 있고 American Express 신용 카드로 결제했습니다. 결과 설명을 표 형식으로보고 싶습니다.
use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S, branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table
데이터 마이닝 언어 표준화
데이터 마이닝 언어를 표준화하면 다음과 같은 목적에 사용됩니다.
데이터 마이닝 솔루션의 체계적인 개발을 지원합니다.
여러 데이터 마이닝 시스템 및 기능 간의 상호 운용성을 향상시킵니다.
교육과 신속한 학습을 촉진합니다.
산업 및 사회에서 데이터 마이닝 시스템 사용을 장려합니다.