OBIEE - Gudang Data

Dalam pasar yang kompetitif saat ini, sebagian besar perusahaan sukses merespons dengan cepat perubahan dan peluang pasar. Syarat untuk merespon secara cepat adalah dengan penggunaan data dan informasi yang efektif dan efisien.“Data Warehouse”adalah gudang pusat data yang diatur berdasarkan kategori untuk mendukung pembuat keputusan organisasi. Setelah data disimpan di gudang data, data tersebut dapat diakses untuk dianalisis.

Istilah "Data Warehouse" pertama kali ditemukan oleh Bill Inmon pada tahun 1990. Menurutnya, "Data warehouse adalah kumpulan data yang berorientasi pada subjek, terintegrasi, varian waktu, dan non-volatile untuk mendukung proses pengambilan keputusan manajemen.”

Ralph Kimball memberikan definisi gudang data berdasarkan fungsinya. Dia berkata, "Gudang data adalah salinan data transaksi yang secara khusus disusun untuk kueri dan analisis."

Data Warehouse (DW atau DWH) adalah sistem yang digunakan untuk analisis data dan tujuan pelaporan. Mereka adalah repositori yang menyimpan data dari satu atau lebih sumber data yang heterogen. Mereka menyimpan data saat ini dan historis dan digunakan untuk membuat laporan analitis. DW dapat digunakan untuk membuat dasbor interaktif untuk manajemen senior.

Misalnya, laporan analitik dapat berisi data untuk perbandingan triwulanan atau untuk perbandingan tahunan laporan penjualan suatu perusahaan.

Data di DW berasal dari beberapa sistem operasional seperti penjualan, sumber daya manusia, pemasaran, manajemen gudang, dll. Ini berisi data historis dari sistem transaksi yang berbeda tetapi juga dapat mencakup data dari sumber lain. DW digunakan untuk memisahkan pemrosesan data dan beban kerja analisis dari beban kerja transaksi dan memungkinkan untuk mengkonsolidasikan data dari beberapa sumber data.

Kebutuhan Data Warehouse

Misalnya - Anda memiliki agen pinjaman rumah, di mana datanya berasal dari beberapa aplikasi SAP / non-SAP seperti pemasaran, penjualan, ERP, HRM, dll. Data ini diekstrak, diubah, dan dimuat ke dalam DW. Jika Anda harus melakukan perbandingan penjualan triwulanan / tahunan suatu produk, Anda tidak dapat menggunakan database operasional karena ini akan membuat sistem transaksi hang. Di sinilah kebutuhan untuk menggunakan DW muncul.

Karakteristik Gudang Data

Beberapa karakteristik utama DW adalah -

  • Ini digunakan untuk pelaporan dan analisis data.
  • Ini menyediakan repositori pusat dengan data yang terintegrasi dari satu atau lebih sumber.
  • Ini menyimpan data saat ini dan historis.

Gudang Data vs. Sistem Transaksional

Berikut adalah beberapa perbedaan antara Data Warehouse dan Operational Database (Transaction System) -

  • Sistem transaksional dirancang untuk beban kerja dan transaksi yang diketahui seperti memperbarui catatan pengguna, mencari catatan, dll. Namun, transaksi DW lebih kompleks dan menyajikan bentuk data umum.

  • Sistem transaksional berisi data terkini dari suatu organisasi sedangkan DW biasanya berisi data historis.

  • Sistem transaksional mendukung pemrosesan paralel dari beberapa transaksi. Kontrol konkurensi dan mekanisme pemulihan diperlukan untuk menjaga konsistensi database.

  • Kueri database operasional memungkinkan untuk membaca dan memodifikasi operasi (menghapus dan memperbarui), sedangkan kueri OLAP hanya memerlukan akses baca-saja dari data yang disimpan (pernyataan pilih).

  • DW melibatkan pembersihan data, integrasi data, dan konsolidasi data.

DW memiliki arsitektur tiga lapisan - Lapisan Sumber Data, Lapisan Integrasi, dan Lapisan Presentasi. Diagram berikut menunjukkan arsitektur umum dari sistem Data Warehouse.

Jenis Sistem Data Warehouse

Berikut adalah jenis-jenis sistem DW -

  • Data Mart
  • Pemrosesan Analitik Online (OLAP)
  • Pemrosesan Transaksi Online (OLTP)
  • Analisis Prediktif

Data Mart

Data Mart adalah bentuk DW yang paling sederhana dan biasanya berfokus pada satu area fungsional, seperti penjualan, keuangan, atau pemasaran. Oleh karena itu, data mart biasanya hanya mendapatkan data dari beberapa sumber data.

Sumber dapat berupa sistem transaksi internal, gudang data pusat, atau aplikasi sumber data eksternal. De-normalisasi adalah norma untuk teknik pemodelan data dalam sistem ini.

Pemrosesan Analitik Online (OLAP)

Sistem OLAP berisi lebih sedikit jumlah transaksi tetapi melibatkan penghitungan kompleks seperti penggunaan Agregasi - Jumlah, Hitung, Rata-rata, dll.

Apa itu Agregasi?

Kami menyimpan tabel dengan data agregat seperti tahunan (1 baris), triwulanan (4 baris), bulanan (12 baris) dan sekarang kami ingin membandingkan data, seperti Tahunan hanya 1 baris yang akan diproses. Namun, dalam data yang tidak digabungkan, semua baris akan diproses.

Sistem OLAP biasanya menyimpan data dalam skema multidimensi seperti Skema Bintang, skema Galaxy (dengan tabel Fakta dan Dimensi digabungkan secara logis).

Dalam sistem OLAP, waktu respons untuk mengeksekusi kueri adalah ukuran efektivitas. Aplikasi OLAP banyak digunakan oleh teknik Data Mining untuk mendapatkan data dari sistem OLAP. Database OLAP menyimpan data historis teragregasi dalam skema multi-dimensi. Sistem OLAP memiliki latensi data beberapa jam dibandingkan dengan Data Mart di mana latensi biasanya mendekati beberapa hari.

Pemrosesan Transaksi Online (OLTP)

Sistem OLTP dikenal untuk sejumlah besar transaksi online pendek seperti penyisipan, pembaruan, penghapusan, dll. Sistem OLTP menyediakan pemrosesan kueri yang cepat dan juga bertanggung jawab untuk menyediakan integritas data dalam lingkungan multi-akses.

Untuk sistem OLTP, efektivitas diukur dengan jumlah transaksi yang diproses per detik. Sistem OLTP biasanya hanya berisi data saat ini. Skema yang digunakan untuk menyimpan database transaksional adalah model entitas. Normalisasi digunakan untuk teknik pemodelan data dalam sistem OLTP.

OLTP vs OLAP

Ilustrasi berikut memperlihatkan perbedaan utama antara sistem OLTP dan OLAP.

Indexes - Dalam sistem OLTP, hanya ada beberapa indeks sedangkan dalam sistem OLAP ada banyak indeks untuk pengoptimalan kinerja.

Joins- Dalam sistem OLTP, sejumlah besar gabungan dan data dinormalisasi; namun, dalam sistem OLAP, gabungan lebih sedikit dan dinormalisasi.

Aggregation - Dalam sistem OLTP, data tidak diagregasi saat dalam database OLAP lebih banyak agregasi digunakan.