Pengujian ETL - Pendahuluan
Data dalam sistem Data Warehouse dimuat dengan alat ETL (Extract, Transform, Load). Seperti namanya, ia melakukan tiga operasi berikut -
Mengekstrak data dari sistem transaksional Anda yang dapat berupa Oracle, Microsoft, atau database relasional lainnya,
Mengubah data dengan melakukan operasi pembersihan data, lalu
Memuat data ke Gudang data OLAP.
Anda juga dapat mengekstrak data dari file datar seperti spreadsheet dan file CSV menggunakan alat ETL dan memuatnya ke gudang data OLAP untuk analisis dan pelaporan data. Mari kita ambil contoh untuk memahaminya dengan lebih baik.
Contoh
Mari kita asumsikan ada perusahaan manufaktur yang memiliki beberapa departemen seperti penjualan, SDM, Manajemen Material, EWM, dll. Semua departemen ini memiliki database terpisah yang mereka gunakan untuk memelihara informasi tentang pekerjaan mereka dan setiap database memiliki teknologi, lanskap, tabel yang berbeda. nama, kolom, dll. Sekarang, jika perusahaan ingin menganalisis data historis dan menghasilkan laporan, semua data dari sumber data ini harus diekstraksi dan dimuat ke dalam Data Warehouse untuk disimpan untuk pekerjaan analitis.
Alat ETL mengekstrak data dari semua sumber data heterogen ini, mengubah data (seperti menerapkan penghitungan, menggabungkan bidang, kunci, menghapus bidang data yang salah, dll.), Dan memuatnya ke Gudang Data. Nanti, Anda bisa menggunakan berbagai alat Business Intelligence (BI) untuk menghasilkan laporan yang bermakna, dasbor, dan visualisasi menggunakan data ini.
Perbedaan antara ETL dan BI Tools
Alat ETL digunakan untuk mengekstrak data dari sumber data yang berbeda, mengubah data, dan memuatnya ke dalam sistem DW; namun alat BI digunakan untuk menghasilkan laporan interaktif dan ad-hoc untuk pengguna akhir, dasbor untuk manajemen senior, visualisasi data untuk rapat dewan bulanan, triwulanan, dan tahunan.
Alat ETL yang paling umum termasuk - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, dll.
Beberapa alat BI yang populer termasuk - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, dll.
Proses ETL
Sekarang mari kita bahas lebih rinci langkah-langkah utama yang terlibat dalam prosedur ETL -
Mengekstrak Data
Ini melibatkan penggalian data dari berbagai sumber data heterogen. Ekstraksi data dari sistem transaksional bervariasi sesuai kebutuhan dan alat ETL yang digunakan. Ini biasanya dilakukan dengan menjalankan pekerjaan terjadwal di luar jam kerja seperti menjalankan pekerjaan di malam hari atau selama akhir pekan.
Mengubah Data
Ini melibatkan transformasi data menjadi format yang sesuai yang dapat dengan mudah dimuat ke dalam sistem DW. Transformasi data melibatkan penerapan penghitungan, penggabungan, dan penentuan kunci primer dan asing pada data. Misalnya, jika Anda menginginkan% dari total pendapatan yang tidak ada dalam database, Anda akan menerapkan% rumus dalam transformasi dan memuat data. Demikian pula, jika Anda memiliki nama depan dan nama belakang pengguna di kolom yang berbeda, Anda dapat menerapkan operasi penggabungan sebelum memuat data. Beberapa data tidak memerlukan transformasi apa pun; data semacam itu dikenal sebagaidirect move atau pass through data.
Transformasi data juga melibatkan koreksi data dan pembersihan data, penghapusan data yang salah, pembentukan data yang tidak lengkap, dan memperbaiki kesalahan data. Ini juga mencakup integritas data dan pemformatan data yang tidak kompatibel sebelum memuatnya ke sistem DW.
Memuat Data ke dalam Sistem DW
Ini melibatkan pemuatan data ke dalam sistem DW untuk pelaporan dan informasi analitis. Sistem target dapat berupa file datar berbatas sederhana atau gudang data.
Fungsi Alat ETL
Data warehouse berbasis alat ETL yang khas menggunakan area pementasan, integrasi data, dan lapisan akses untuk menjalankan fungsinya. Ini biasanya arsitektur 3 lapisan.
Staging Layer - Lapisan pementasan atau basis data pementasan digunakan untuk menyimpan data yang diekstrak dari sistem data sumber yang berbeda.
Data Integration Layer - Lapisan integrasi mengubah data dari lapisan pementasan dan memindahkan data ke database, di mana data tersebut diatur ke dalam kelompok hierarki, sering disebut dimensions, dan menjadi facts dan aggregate facts. Kombinasi tabel fakta dan dimensi dalam sistem DW disebut aschema.
Access Layer - Lapisan akses digunakan oleh pengguna akhir untuk mengambil data untuk pelaporan dan informasi analitik.
Ilustrasi berikut menunjukkan bagaimana ketiga lapisan tersebut berinteraksi satu sama lain.