OBIEE - Skema

Skema adalah deskripsi logis dari seluruh database. Ini mencakup nama dan deskripsi catatan dari semua jenis termasuk semua item data dan agregat terkait. Sama seperti database, DW juga perlu mempertahankan skema. Database menggunakan model relasional, sedangkan DW menggunakan skema Star, Snowflake, dan Fact Constellation (Galaxy schema).

Skema Bintang

Dalam Skema Bintang, ada beberapa tabel dimensi dalam bentuk yang dinormalisasi yang digabungkan ke hanya satu tabel fakta. Tabel ini digabungkan secara logis untuk memenuhi beberapa persyaratan bisnis untuk tujuan analisis. Skema ini adalah struktur multidimensi yang digunakan untuk membuat laporan menggunakan alat pelaporan BI.

Dimensi dalam skema Bintang berisi sekumpulan atribut dan tabel Fakta berisi kunci asing untuk semua dimensi dan nilai pengukuran.

Dalam Skema Bintang di atas, terdapat tabel fakta “Fakta Penjualan” di tengah dan digabungkan ke tabel 4 dimensi menggunakan kunci utama. Tabel dimensi tidak dinormalisasi lebih lanjut dan penggabungan tabel ini dikenal sebagai Skema Bintang di DW.

Tabel fakta juga berisi nilai pengukuran - dollar_sold dan units_sold.

Skema Kepingan Salju

Dalam Skema Kepingan Salju, ada beberapa tabel dimensi dalam bentuk normalisasi yang digabungkan ke hanya satu tabel fakta. Tabel ini digabungkan secara logis untuk memenuhi beberapa persyaratan bisnis untuk tujuan analisis.

Satu-satunya perbedaan antara skema Star dan Snowflakes adalah tabel dimensi dinormalisasi lebih lanjut. Normalisasi membagi data menjadi tabel tambahan. Karena normalisasi dalam skema Snowflake, redundansi data berkurang tanpa kehilangan informasi apa pun dan oleh karena itu pemeliharaan dan penghematan ruang penyimpanan menjadi mudah.

Dalam contoh Skema Kepingan Salju di atas, tabel Produk dan Pelanggan selanjutnya dinormalisasi untuk menghemat ruang penyimpanan. Terkadang, ini juga memberikan pengoptimalan kinerja saat Anda menjalankan kueri yang memerlukan pemrosesan baris secara langsung dalam tabel yang dinormalisasi sehingga tidak memproses baris dalam tabel Dimensi utama dan langsung datang ke tabel yang dinormalisasi dalam Skema.

Granularitas

Perincian dalam tabel merepresentasikan tingkat informasi yang disimpan dalam tabel. Perincian data yang tinggi berarti bahwa data berada pada atau mendekati tingkat transaksi, yang memiliki lebih banyak detail. Perincian yang rendah berarti data memiliki tingkat informasi yang rendah.

Tabel fakta biasanya dirancang pada tingkat perincian yang rendah. Ini berarti kita perlu menemukan tingkat informasi terendah yang dapat disimpan dalam tabel fakta. Dalam dimensi tanggal, tingkat perincian dapat berupa tahun, bulan, kuartal, periode, minggu, dan hari.

Proses mendefinisikan perincian terdiri dari dua langkah -

  • Menentukan dimensi yang akan dimasukkan.
  • Menentukan lokasi untuk menempatkan hierarki setiap dimensi informasi.

Dimensi yang Berubah Secara Perlahan

Dimensi yang berubah secara perlahan mengacu pada nilai yang berubah dari suatu atribut dari waktu ke waktu. Ini adalah salah satu konsep umum di DW.

Contoh

Andy adalah karyawan XYZ Inc. Dia pertama kali berlokasi di New York City pada Juli 2015. Entri asli di tabel pencarian karyawan memiliki catatan berikut -

identitas pegawai 10001
Nama Andy
Lokasi New York

Di kemudian hari, dia pindah ke LA, California. Bagaimana seharusnya XYZ Inc. sekarang memodifikasi tabel karyawannya untuk mencerminkan perubahan ini?

Ini dikenal sebagai konsep "Dimensi yang Berubah Perlahan".

Ada tiga cara untuk menyelesaikan jenis masalah ini -

Solusi 1

Rekor baru menggantikan rekor asli. Tidak ada jejak catatan lama.

Dimensi Berubah Perlahan, informasi baru hanya menimpa informasi asli. Dengan kata lain, tidak ada sejarah yang disimpan.

identitas pegawai 10001
Nama Andy
Lokasi LA, California
  • Benefit - Ini adalah cara termudah untuk menangani masalah Dimensi yang Berubah Perlahan karena tidak perlu melacak informasi lama.

  • Disadvantage - Semua informasi sejarah hilang.

  • Use - Solusi 1 harus digunakan jika DW tidak diwajibkan untuk melacak informasi historis.

Solusi 2

Catatan baru dimasukkan ke dalam tabel dimensi Karyawan. Jadi karyawannya, Andy, diperlakukan seperti dua orang.

Catatan baru ditambahkan ke tabel untuk mewakili informasi baru dan catatan asli dan baru akan hadir. Catatan baru mendapatkan kunci utamanya sendiri sebagai berikut -

identitas pegawai 10001 10002
Nama Andy Andy
Lokasi New York LA, California
  • Benefit - Metode ini memungkinkan kami untuk menyimpan semua informasi historis.

  • Disadvantage- Ukuran meja bertambah lebih cepat. Ketika jumlah baris untuk tabel sangat tinggi, ruang dan kinerja tabel dapat menjadi perhatian.

  • Use - Solusi 2 harus digunakan jika DW perlu menyimpan data historis.

Solusi 3

Catatan asli dalam dimensi Karyawan dimodifikasi untuk mencerminkan perubahan tersebut.

Akan ada dua kolom untuk menunjukkan atribut tertentu, satu menunjukkan nilai asli dan lainnya menunjukkan nilai baru. Akan ada juga kolom yang menunjukkan kapan nilai saat ini menjadi aktif.

identitas pegawai Nama Lokasi Asli Lokasi baru Tanggal Pindah
10001 Andy New York LA, California Juli 2015
  • Benefits- Ini tidak menambah ukuran tabel, karena informasi baru diperbarui. Ini memungkinkan kami untuk menyimpan informasi historis.

  • Disadvantage - Metode ini tidak menyimpan semua riwayat ketika nilai atribut diubah lebih dari sekali.

  • Use - Solusi 3 hanya boleh digunakan jika DW diwajibkan untuk menyimpan informasi tentang perubahan historis.

Normalisasi

Normalisasi adalah proses penguraian tabel menjadi tabel yang lebih kecil dan tidak terlalu berlebihan tanpa kehilangan informasi apa pun. Jadi normalisasi database adalah proses pengorganisasian atribut dan tabel database untuk meminimalkan redundansi data (data duplikat).

Tujuan Normalisasi

  • Ini digunakan untuk menghilangkan jenis data tertentu (redundansi / replikasi) untuk meningkatkan konsistensi.

  • Ini memberikan fleksibilitas maksimum untuk memenuhi kebutuhan informasi masa depan dengan menjaga tabel yang sesuai dengan tipe objek dalam bentuk yang disederhanakan.

  • Ini menghasilkan model data yang lebih jelas dan dapat dibaca.

Keuntungan

  • Integritas data.
  • Meningkatkan konsistensi data.
  • Mengurangi redundansi data dan ruang yang dibutuhkan.
  • Mengurangi biaya pembaruan.
  • Fleksibilitas maksimum dalam menanggapi pertanyaan ad-hoc.
  • Mengurangi jumlah baris per blok.

Kekurangan

Kinerja kueri dalam database lambat karena gabungan harus dilakukan untuk mengambil data yang relevan dari beberapa tabel yang dinormalisasi.

Anda harus memahami model data untuk melakukan penggabungan yang tepat di antara beberapa tabel.

Contoh

Dalam contoh di atas, tabel di dalam blok hijau mewakili tabel yang dinormalisasi dari tabel di dalam blok merah. Tabel di blok hijau kurang mubazir dan juga dengan jumlah baris lebih sedikit tanpa kehilangan informasi apa pun.