Data Mining - Evaluasi

Gudang data

Sebuah gudang data menunjukkan karakteristik berikut untuk mendukung proses pengambilan keputusan manajemen -

  • Subject Oriented- Data warehouse berorientasi pada subjek karena ini memberi kita informasi seputar subjek daripada operasi organisasi yang sedang berlangsung. Subjek ini dapat berupa produk, pelanggan, pemasok, penjualan, pendapatan, dll. Data warehouse tidak berfokus pada operasi yang sedang berlangsung, melainkan berfokus pada pemodelan dan analisis data untuk pengambilan keputusan.

  • Integrated - Data warehouse dibangun dengan integrasi data dari sumber heterogen seperti database relasional, file datar, dll. Integrasi ini meningkatkan analisis data yang efektif.

  • Time Variant- Data yang dikumpulkan di gudang data diidentifikasi dengan jangka waktu tertentu. Data dalam gudang data memberikan informasi dari sudut pandang historis.

  • Non-volatile- Nonvolatile berarti data sebelumnya tidak dihapus ketika data baru ditambahkan ke dalamnya. Gudang data disimpan terpisah dari basis data operasional sehingga perubahan yang sering terjadi dalam basis data operasional tidak tercermin dalam gudang data.

Data Warehousing

Data warehousing adalah proses membangun dan menggunakan data warehouse. Sebuah gudang data dibangun dengan mengintegrasikan data dari berbagai sumber yang heterogen. Ini mendukung pelaporan analitis, kueri terstruktur dan / atau ad hoc, dan pengambilan keputusan.

Data warehousing melibatkan pembersihan data, integrasi data, dan konsolidasi data. Untuk mengintegrasikan database heterogen, kami memiliki dua pendekatan berikut -

  • Pendekatan Berbasis Kueri
  • Perbarui Pendekatan yang Didorong

Pendekatan Berbasis Kueri

Ini adalah pendekatan tradisional untuk mengintegrasikan database yang heterogen. Pendekatan ini digunakan untuk membangun pembungkus dan integrator di atas beberapa database heterogen. Integrator ini juga dikenal sebagai mediator.

Proses Pendekatan Berbasis Kueri

  • Saat kueri dikeluarkan ke sisi klien, kamus metadata menerjemahkan kueri tersebut ke dalam kueri, sesuai untuk situs heterogen individu yang terlibat.

  • Sekarang kueri ini dipetakan dan dikirim ke prosesor kueri lokal.

  • Hasil dari situs heterogen diintegrasikan ke dalam kumpulan jawaban global.

Kekurangan

Pendekatan ini memiliki kelemahan sebagai berikut -

  • Pendekatan Berbasis Kueri membutuhkan integrasi yang kompleks dan proses pemfilteran.

  • Ini sangat tidak efisien dan sangat mahal untuk pertanyaan yang sering diajukan.

  • Pendekatan ini mahal untuk kueri yang membutuhkan agregasi.

Pendekatan Didorong Pembaruan

Sistem gudang data saat ini mengikuti pendekatan berbasis pembaruan daripada pendekatan tradisional yang dibahas sebelumnya. Dalam pendekatan update-driven, informasi dari berbagai sumber yang heterogen diintegrasikan sebelumnya dan disimpan di gudang. Informasi ini tersedia untuk kueri dan analisis langsung.

Keuntungan

Pendekatan ini memiliki keuntungan sebagai berikut -

  • Pendekatan ini memberikan kinerja tinggi.

  • Data dapat disalin, diproses, diintegrasikan, dianotasi, diringkas dan direstrukturisasi di penyimpanan data semantik terlebih dahulu.

Pemrosesan kueri tidak memerlukan antarmuka dengan pemrosesan di sumber lokal.

Dari Data Warehousing (OLAP) ke Data Mining (OLAM)

Online Analytical Mining terintegrasi dengan Online Analytical Processing dengan data mining dan pengetahuan mining dalam database multidimensi. Berikut adalah diagram yang menunjukkan integrasi OLAP dan OLAM -

Pentingnya OLAM

OLAM penting karena alasan berikut -

  • High quality of data in data warehouses- Alat penambangan data diperlukan untuk mengerjakan data yang terintegrasi, konsisten, dan bersih. Langkah-langkah ini sangat mahal dalam pemrosesan awal data. Gudang data yang dibangun oleh preprocessing tersebut adalah sumber data berkualitas tinggi yang berharga untuk OLAP dan juga data mining.

  • Available information processing infrastructure surrounding data warehouses - Infrastruktur pemrosesan informasi mengacu pada akses, integrasi, konsolidasi, dan transformasi beberapa database heterogen, akses web dan fasilitas layanan, pelaporan dan alat analisis OLAP.

  • OLAP−based exploratory data analysis- Analisis data eksplorasi diperlukan untuk penggalian data yang efektif. OLAM menyediakan fasilitas untuk data mining pada berbagai subset data dan pada berbagai level abstraksi.

  • Online selection of data mining functions - Mengintegrasikan OLAP dengan beberapa fungsi penambangan data dan penambangan analitik online memberi pengguna fleksibilitas untuk memilih fungsi penambangan data yang diinginkan dan menukar tugas penambangan data secara dinamis.