Pengujian ETL - Panduan Cepat
Data dalam sistem Data Warehouse dimuat dengan alat ETL (Extract, Transform, Load). Seperti namanya, ia melakukan tiga operasi berikut -
Mengekstrak data dari sistem transaksional Anda yang dapat berupa Oracle, Microsoft, atau database relasional lainnya,
Mengubah data dengan melakukan operasi pembersihan data, lalu
Memuat data ke Gudang data OLAP.
Anda juga dapat mengekstrak data dari file datar seperti spreadsheet dan file CSV menggunakan alat ETL dan memuatnya ke gudang data OLAP untuk analisis dan pelaporan data. Mari kita ambil contoh untuk memahaminya dengan lebih baik.
Contoh
Mari kita asumsikan ada perusahaan manufaktur yang memiliki beberapa departemen seperti penjualan, SDM, Manajemen Material, EWM, dll. Semua departemen ini memiliki database terpisah yang mereka gunakan untuk memelihara informasi tentang pekerjaan mereka dan setiap database memiliki teknologi, lanskap, tabel yang berbeda. nama, kolom, dll. Sekarang, jika perusahaan ingin menganalisis data historis dan menghasilkan laporan, semua data dari sumber data ini harus diekstraksi dan dimuat ke dalam Data Warehouse untuk disimpan untuk pekerjaan analitis.
Alat ETL mengekstrak data dari semua sumber data heterogen ini, mengubah data (seperti menerapkan penghitungan, menggabungkan bidang, kunci, menghapus bidang data yang salah, dll.), Dan memuatnya ke Gudang Data. Nanti, Anda bisa menggunakan berbagai alat Business Intelligence (BI) untuk menghasilkan laporan yang bermakna, dasbor, dan visualisasi menggunakan data ini.
Perbedaan antara ETL dan BI Tools
Alat ETL digunakan untuk mengekstrak data dari sumber data yang berbeda, mengubah data, dan memuatnya ke dalam sistem DW; namun alat BI digunakan untuk menghasilkan laporan interaktif dan ad-hoc untuk pengguna akhir, dasbor untuk manajemen senior, visualisasi data untuk rapat dewan bulanan, triwulanan, dan tahunan.
Alat ETL yang paling umum termasuk - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, dll.
Beberapa alat BI yang populer termasuk - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, dll.
Proses ETL
Sekarang mari kita bahas lebih rinci langkah-langkah utama yang terlibat dalam prosedur ETL -
Mengekstrak Data
Ini melibatkan penggalian data dari berbagai sumber data heterogen. Ekstraksi data dari sistem transaksional bervariasi sesuai kebutuhan dan alat ETL yang digunakan. Ini biasanya dilakukan dengan menjalankan pekerjaan terjadwal di luar jam kerja seperti menjalankan pekerjaan di malam hari atau selama akhir pekan.
Mengubah Data
Ini melibatkan transformasi data menjadi format yang sesuai yang dapat dengan mudah dimuat ke dalam sistem DW. Transformasi data melibatkan penerapan penghitungan, penggabungan, dan penentuan kunci primer dan asing pada data. Misalnya, jika Anda menginginkan% dari total pendapatan yang tidak ada dalam database, Anda akan menerapkan% rumus dalam transformasi dan memuat data. Demikian pula, jika Anda memiliki nama depan dan nama belakang pengguna di kolom yang berbeda, Anda dapat menerapkan operasi penggabungan sebelum memuat data. Beberapa data tidak memerlukan transformasi apa pun; data semacam itu dikenal sebagaidirect move atau pass through data.
Transformasi data juga melibatkan koreksi data dan pembersihan data, penghapusan data yang salah, pembentukan data yang tidak lengkap, dan memperbaiki kesalahan data. Ini juga mencakup integritas data dan pemformatan data yang tidak kompatibel sebelum memuatnya ke sistem DW.
Memuat Data ke dalam Sistem DW
Ini melibatkan pemuatan data ke dalam sistem DW untuk pelaporan dan informasi analitis. Sistem target dapat berupa file datar berbatas sederhana atau gudang data.
Fungsi Alat ETL
Data warehouse berbasis alat ETL yang khas menggunakan area pementasan, integrasi data, dan lapisan akses untuk menjalankan fungsinya. Ini biasanya arsitektur 3 lapisan.
Staging Layer - Lapisan pementasan atau basis data pementasan digunakan untuk menyimpan data yang diekstrak dari sistem data sumber yang berbeda.
Data Integration Layer - Lapisan integrasi mengubah data dari lapisan pementasan dan memindahkan data ke database, di mana data tersebut diatur ke dalam kelompok hierarki, sering disebut dimensions, dan menjadi facts dan aggregate facts. Kombinasi tabel fakta dan dimensi dalam sistem DW disebut aschema.
Access Layer - Lapisan akses digunakan oleh pengguna akhir untuk mengambil data untuk pelaporan dan informasi analitik.
Ilustrasi berikut menunjukkan bagaimana ketiga lapisan tersebut berinteraksi satu sama lain.
Pengujian ETL dilakukan sebelum data dipindahkan ke sistem gudang data produksi. Kadang juga disebut sebagaitable balancing atau production reconciliation. Ini berbeda dari pengujian database dalam hal ruang lingkupnya dan langkah-langkah yang harus diambil untuk menyelesaikannya.
Tujuan utama pengujian ETL adalah untuk mengidentifikasi dan mengurangi cacat data dan kesalahan umum yang terjadi sebelum pemrosesan data untuk pelaporan analitik.
Pengujian ETL - Tugas yang Akan Dilakukan
Berikut adalah daftar tugas umum yang terlibat dalam Pengujian ETL -
- Pahami data yang akan digunakan untuk pelaporan
- Tinjau Model Data
- Sumber ke pemetaan target
- Pemeriksaan data pada data sumber
- Paket dan validasi skema
- Verifikasi data di sistem target
- Verifikasi perhitungan transformasi data dan aturan agregasi
- Contoh perbandingan data antara sumber dan sistem target
- Pemeriksaan integritas dan kualitas data dalam sistem target
- Pengujian kinerja pada data
Baik pengujian ETL dan pengujian database melibatkan validasi data, tetapi keduanya tidak sama. Pengujian ETL biasanya dilakukan pada data dalam sistem data warehouse, sedangkan pengujian database biasanya dilakukan pada sistem transaksional dimana datanya berasal dari aplikasi yang berbeda ke dalam database transaksional.
Di sini, kami telah menyoroti perbedaan utama antara pengujian ETL dan pengujian Database.
Pengujian ETL
Pengujian ETL melibatkan operasi berikut -
Validasi perpindahan data dari sumber ke sistem target.
Verifikasi jumlah data di sumber dan sistem target.
Memverifikasi ekstraksi data, transformasi sesuai kebutuhan dan harapan.
Memverifikasi apakah hubungan tabel - gabungan dan kunci - dipertahankan selama transformasi.
Alat pengujian ETL yang umum termasuk QuerySurge, Informatica, dll.
Pengujian Basis Data
Pengujian database lebih menekankan pada keakuratan data, kebenaran data dan nilai-nilai yang valid. Ini melibatkan operasi berikut -
Memverifikasi apakah kunci utama dan asing dipertahankan.
Memverifikasi apakah kolom dalam tabel memiliki nilai data yang valid.
Memverifikasi akurasi data dalam kolom. Example - Kolom jumlah bulan tidak boleh lebih dari 12.
Memverifikasi data yang hilang di kolom. Periksa apakah ada kolom nol yang seharusnya memiliki nilai yang valid.
Alat pengujian database umum termasuk Selenium, QTP, dll.
Tabel berikut menangkap fitur utama pengujian Database dan ETL serta perbandingannya -
Fungsi | Pengujian Basis Data | Pengujian ETL |
---|---|---|
Tujuan utama | Validasi dan Integrasi data | Ekstraksi Data, Transformasi dan Pemuatan untuk Pelaporan BI |
Sistem yang Berlaku | Sistem transaksional tempat arus bisnis terjadi | Sistem berisi data historis dan bukan dalam lingkungan arus bisnis |
Alat umum | QTP, Selenium, dll. | QuerySurge, Informatica, dll. |
Kebutuhan Bisnis | Ini digunakan untuk mengintegrasikan data dari beberapa aplikasi, Dampak parah. | Ini digunakan untuk Pelaporan Analitik, informasi dan peramalan. |
Pemodelan | Metode ER | Multidimensi |
Jenis Database | Biasanya digunakan dalam sistem OLTP | Ini diterapkan pada sistem OLAP |
Tipe data | Data yang dinormalkan dengan lebih banyak gabungan | Data yang dinormalisasi dengan lebih sedikit gabungan, lebih banyak indeks, dan agregasi. |
Kategorisasi Pengujian ETL dilakukan berdasarkan tujuan pengujian dan pelaporan. Kategori pengujian bervariasi sesuai dengan standar organisasi dan juga tergantung pada kebutuhan klien. Secara umum, pengujian ETL dikategorikan berdasarkan poin-poin berikut -
Source to Target Count Testing - Ini melibatkan pencocokan jumlah catatan dalam sumber dan sistem target.
Source to Target Data Testing- Ini melibatkan validasi data antara sumber dan sistem target. Ini juga melibatkan integrasi data dan pemeriksaan nilai ambang batas dan pemeriksaan data duplikat dalam sistem target.
Data Mapping or Transformation Testing- Ini menegaskan pemetaan objek di sumber dan sistem target. Ini juga melibatkan pemeriksaan fungsionalitas data dalam sistem target.
End-User Testing- Ini melibatkan pembuatan laporan bagi pengguna akhir untuk memverifikasi apakah data dalam laporan sesuai harapan. Ini melibatkan menemukan penyimpangan dalam laporan dan memeriksa ulang data dalam sistem target untuk validasi laporan.
Retesting - Ini melibatkan perbaikan bug dan cacat pada data di sistem target dan menjalankan laporan lagi untuk validasi data.
System Integration Testing- Ini melibatkan pengujian semua sistem individu, dan kemudian menggabungkan hasil untuk menemukan apakah ada penyimpangan. Ada tiga pendekatan yang dapat digunakan untuk melakukan ini: top-down, bottom-up, dan hybrid.
Berdasarkan struktur sistem Data Warehouse, pengujian ETL (terlepas dari alat yang digunakan) dapat dibagi menjadi beberapa kategori berikut -
Pengujian Sistem DW Baru
Pada pengujian jenis ini, terdapat sistem DW baru yang dibangun dan diverifikasi. Input data diambil dari pelanggan / pengguna akhir dan juga dari sumber data yang berbeda dan gudang data baru dibuat. Nanti, data diverifikasi di sistem baru dengan bantuan alat ETL.
Pengujian Migrasi
Dalam pengujian migrasi, pelanggan memiliki Gudang Data dan ETL yang sudah ada, tetapi mereka mencari alat ETL baru untuk meningkatkan efisiensi. Ini melibatkan migrasi data dari sistem yang ada menggunakan alat ETL baru.
Ubah Pengujian
Dalam pengujian perubahan, data baru ditambahkan dari sumber data yang berbeda ke sistem yang ada. Pelanggan juga dapat mengubah aturan yang ada untuk ETL atau aturan baru juga dapat ditambahkan.
Pengujian Laporan
Pengujian laporan melibatkan pembuatan laporan untuk validasi data. Laporan adalah hasil akhir dari setiap sistem DW. Laporan diuji berdasarkan tata letaknya, data dalam laporan, dan nilai yang dihitung.
Pengujian ETL berbeda dari pengujian database atau pengujian konvensional lainnya. Seseorang mungkin harus menghadapi berbagai jenis tantangan saat melakukan pengujian ETL. Di sini kami membuat daftar beberapa tantangan umum -
Kehilangan data selama proses ETL.
Data salah, tidak lengkap atau duplikat.
Sistem DW berisi data historis, sehingga volume datanya terlalu besar dan sangat kompleks untuk melakukan pengujian ETL di sistem target.
Penguji ETL biasanya tidak diberikan akses untuk melihat jadwal pekerjaan di alat ETL. Mereka hampir tidak memiliki akses ke alat Pelaporan BI untuk melihat tata letak akhir laporan dan data di dalam laporan.
Sulit untuk membuat dan membuat kasus uji, karena volume data terlalu tinggi dan kompleks.
Penguji ETL biasanya tidak memiliki gagasan tentang persyaratan laporan pengguna akhir dan arus informasi bisnis.
Pengujian ETL melibatkan berbagai konsep SQL yang kompleks untuk validasi data dalam sistem target.
Terkadang penguji tidak diberikan informasi pemetaan sumber-ke-target.
Lingkungan pengujian yang tidak stabil menunda pengembangan dan pengujian suatu proses.
Penguji ETL terutama bertanggung jawab untuk memvalidasi sumber data, ekstraksi data, menerapkan logika transformasi, dan memuat data di tabel target.
Tanggung jawab utama penguji ETL tercantum di bawah ini.
Verifikasi Tabel di Sistem Sumber
Ini melibatkan operasi berikut -
- Hitung cek
- Rekonsiliasi catatan dengan data sumber
- Pemeriksaan tipe data
- Pastikan tidak ada data spam yang dimuat
- Hapus data duplikat
- Periksa semua kunci di tempatnya
Terapkan Transformasi Logika
Logika transformasi diterapkan sebelum memuat data. Ini melibatkan operasi berikut -
Pemeriksaan validasi ambang data, misalnya, nilai usia tidak boleh lebih dari 100.
Catat pemeriksaan jumlah, sebelum dan sesudah logika transformasi diterapkan.
Validasi aliran data dari area pementasan ke tabel perantara.
Pemeriksaan kunci pengganti.
Pemuatan Data
Data dimuat dari area pementasan ke sistem target. Ini melibatkan operasi berikut -
Catat pemeriksaan hitungan dari tabel perantara ke sistem target.
Pastikan data field kunci tidak hilang atau Null.
Periksa apakah nilai agregat dan ukuran terhitung dimuat dalam tabel fakta.
Periksa tampilan pemodelan berdasarkan tabel target.
Periksa apakah CDC telah diterapkan pada tabel beban tambahan.
Pemeriksaan data dalam tabel dimensi dan pemeriksaan tabel sejarah.
Periksa laporan BI berdasarkan tabel fakta dan dimensi yang dimuat dan sesuai hasil yang diharapkan.
Menguji Alat ETL
Penguji ETL diharuskan untuk menguji alat dan kasus uji juga. Ini melibatkan operasi berikut -
- Uji alat ETL dan fungsinya
- Uji sistem Gudang Data ETL
- Buat, desain, dan jalankan rencana pengujian dan kasus pengujian.
- Uji transfer data file datar.
Penting bagi Anda untuk menentukan teknik Pengujian ETL yang benar sebelum memulai proses pengujian. Anda harus menerima penerimaan dari semua pemangku kepentingan dan memastikan bahwa teknik yang benar dipilih untuk melakukan pengujian ETL. Teknik ini harus diketahui oleh tim penguji dan mereka harus mengetahui langkah-langkah yang terlibat dalam proses pengujian.
Ada berbagai jenis teknik pengujian yang dapat digunakan. Pada bab ini, kita akan membahas teknik pengujian secara singkat.
Pengujian Validasi Produksi
Untuk melakukan Analisis dan Pelaporan Analitik, data dalam produksi Anda harus benar. Pengujian ini dilakukan pada data yang dipindahkan ke sistem produksi. Ini melibatkan validasi data dalam sistem produksi dan membandingkannya dengan data sumber.
Pengujian Jumlah Sumber-ke-target
Jenis pengujian ini dilakukan ketika penguji memiliki lebih sedikit waktu untuk melakukan operasi pengujian. Ini melibatkan pemeriksaan jumlah data dalam sumber dan sistem target. Ini tidak melibatkan pemeriksaan nilai data dalam sistem target. Ini juga tidak melibatkan jika data dalam urutan menaik atau menurun setelah pemetaan data.
Pengujian Data Sumber-ke-target
Dalam jenis pengujian ini, penguji memvalidasi nilai data dari sumber ke sistem target. Ia memeriksa nilai data dalam sistem sumber dan nilai yang sesuai dalam sistem target setelah transformasi. Jenis pengujian ini memakan waktu dan biasanya dilakukan dalam proyek keuangan dan perbankan.
Integrasi Data / Pengujian Validasi Nilai Ambang
Dalam jenis pengujian ini, penguji memvalidasi berbagai data. Semua nilai ambang batas dalam sistem target diperiksa jika sesuai dengan hasil yang diharapkan. Ini juga melibatkan integrasi data dalam sistem target dari berbagai sistem sumber setelah transformasi dan pemuatan.
Example - Atribut usia tidak boleh memiliki nilai lebih dari 100. Pada kolom tanggal DD / MM / YY, bidang bulan tidak boleh memiliki nilai lebih dari 12.
Pengujian Migrasi Aplikasi
Pengujian migrasi aplikasi biasanya dilakukan secara otomatis saat Anda berpindah dari aplikasi lama ke sistem aplikasi baru. Pengujian ini menghemat banyak waktu. Ia memeriksa apakah data yang diekstrak dari aplikasi lama sama dengan data di sistem aplikasi baru.
Pemeriksaan Data dan Pengujian Batasan
Ini termasuk melakukan berbagai pemeriksaan seperti pemeriksaan tipe data, pemeriksaan panjang data, dan pemeriksaan indeks. Di sini Test Engineer melakukan skenario berikut - Primary Key, Foreign Key, NOT NULL, NULL, dan UNIQUE.
Pengujian Pemeriksaan Data Duplikat
Pengujian ini melibatkan pemeriksaan data duplikat dalam sistem target. Jika ada data dalam jumlah besar di sistem target, kemungkinan ada data duplikat di sistem produksi yang dapat mengakibatkan kesalahan data di Laporan Analitik.
Nilai duplikat dapat diperiksa dengan pernyataan SQL seperti -
Select Cust_Id, Cust_NAME, Quantity, COUNT (*)
FROM Customer
GROUP BY Cust_Id, Cust_NAME, Quantity HAVING COUNT (*) >1;
Data duplikat muncul di sistem target karena alasan berikut -
- Jika tidak ada kunci utama yang ditentukan, maka nilai duplikat mungkin datang.
- Karena pemetaan yang salah atau masalah lingkungan.
- Kesalahan manual saat mentransfer data dari sumber ke sistem target.
Pengujian Transformasi Data
Pengujian transformasi data tidak dilakukan dengan menjalankan satu pernyataan SQL. Ini memakan waktu dan melibatkan menjalankan beberapa kueri SQL untuk setiap baris untuk memverifikasi aturan transformasi. Penguji perlu menjalankan kueri SQL untuk setiap baris dan kemudian membandingkan output dengan data target.
Pengujian Kualitas Data
Pengujian kualitas data melibatkan melakukan pemeriksaan nomor, pemeriksaan tanggal, pemeriksaan nol, pemeriksaan presisi, dll. Seorang penguji melakukan Syntax Test untuk melaporkan karakter tidak valid, salah urutan huruf besar / kecil, dll. dan Reference Tests untuk memeriksa apakah data sesuai dengan model data.
Pengujian Tambahan
Pengujian inkremental dilakukan untuk memverifikasi apakah pernyataan Sisipkan dan Perbarui dijalankan sesuai hasil yang diharapkan. Pengujian ini dilakukan selangkah demi selangkah dengan data lama dan baru.
Pengujian Regresi
Ketika kami membuat perubahan pada transformasi data dan aturan agregasi untuk menambahkan fungsionalitas baru yang juga membantu penguji menemukan kesalahan baru, itu disebut Pengujian Regresi. Bug dalam data yang datang dalam pengujian regresi disebut Regresi.
Pengujian ulang
Saat Anda menjalankan pengujian setelah memperbaiki kode, ini disebut pengujian ulang.
Pengujian Integrasi Sistem
Pengujian integrasi sistem melibatkan pengujian komponen sistem secara individual dan kemudian mengintegrasikan modul. Ada tiga cara integrasi sistem dapat dilakukan: top-down, bottom-up, dan hybrid.
Pengujian Navigasi
Pengujian navigasi juga dikenal sebagai pengujian front-end sistem. Ini melibatkan pengujian sudut pandang pengguna akhir dengan memeriksa semua aspek laporan front-end - termasuk data dalam berbagai bidang, perhitungan dan agregat, dll.
Pengujian ETL mencakup semua langkah yang terlibat dalam siklus hidup ETL. Ini dimulai dengan memahami persyaratan bisnis hingga pembuatan laporan ringkasan.
Langkah-langkah umum dalam siklus hidup Pengujian ETL tercantum di bawah ini -
Memahami kebutuhan bisnis.
Validasi persyaratan bisnis.
Estimasi Tes digunakan untuk memberikan perkiraan waktu untuk menjalankan kasus uji dan untuk menyelesaikan laporan ringkasan.
Perencanaan Tes melibatkan menemukan teknik Pengujian berdasarkan masukan sesuai kebutuhan bisnis.
Membuat skenario pengujian dan kasus pengujian.
Setelah kasus uji siap dan disetujui, langkah selanjutnya adalah melakukan pemeriksaan pra-eksekusi.
Jalankan semua kasus uji.
Langkah terakhir adalah menghasilkan laporan ringkasan lengkap dan mengajukan proses penutupan.
Skenario Uji ETL digunakan untuk memvalidasi Proses Pengujian ETL. Tabel berikut menjelaskan beberapa skenario paling umum dan kasus uji yang digunakan oleh penguji ETL.
Skenario Uji | Uji-Kasus |
---|---|
Validasi Struktur |
Ini melibatkan validasi sumber dan struktur tabel target sesuai dokumen pemetaan. Jenis data harus divalidasi dalam sumber dan sistem target. Panjang tipe data di sumber dan sistem target harus sama. Jenis bidang data dan formatnya harus sama dalam sumber dan sistem target. Memvalidasi nama kolom di sistem target. |
Memvalidasi dokumen Pemetaan |
Ini melibatkan validasi dokumen pemetaan untuk memastikan semua informasi telah disediakan. Dokumen pemetaan harus memiliki log perubahan, mempertahankan tipe data, panjang, aturan transformasi, dll. |
Validasi Batasan |
Ini melibatkan validasi batasan dan memastikan bahwa mereka diterapkan pada tabel yang diharapkan. |
Pemeriksaan Konsistensi Data |
Ini melibatkan pemeriksaan penyalahgunaan batasan integritas seperti Kunci Asing. Panjang dan tipe data dari suatu atribut dapat bervariasi dalam tabel yang berbeda, meskipun definisinya tetap sama pada lapisan semantik. |
Validasi Kelengkapan Data |
Ini melibatkan pemeriksaan apakah semua data dimuat ke sistem target dari sistem sumber. Menghitung jumlah record dalam sumber dan sistem target. Analisis nilai batas. Memvalidasi nilai unik kunci utama. |
Validasi Ketepatan Data |
Ini melibatkan validasi nilai data dalam sistem target. Data yang salah eja atau tidak akurat ditemukan dalam tabel. Data Null, Not Unique disimpan saat Anda menonaktifkan batasan integritas pada saat impor. |
Validasi Transformasi Data |
Ini melibatkan pembuatan spreadsheet skenario untuk nilai input dan hasil yang diharapkan dan kemudian memvalidasi dengan pengguna akhir. Memvalidasi hubungan induk-anak dalam data dengan membuat skenario. Menggunakan pembuatan profil data untuk membandingkan rentang nilai di setiap bidang. Memvalidasi jika tipe data di gudang sama dengan yang disebutkan dalam model data. |
Validasi Kualitas Data |
Ini melibatkan melakukan pemeriksaan nomor, pemeriksaan tanggal, pemeriksaan presisi, pemeriksaan data, pemeriksaan Null, dll. Example - Format tanggal harus sama untuk semua nilai. |
Validasi Nihil |
Ini melibatkan pemeriksaan nilai Null di mana Not Null disebutkan untuk bidang itu. |
Validasi Duplikat |
Ini melibatkan validasi nilai duplikat dalam sistem target ketika data berasal dari beberapa kolom dari sistem sumber. Memvalidasi kunci utama dan kolom lain jika ada nilai duplikat sesuai kebutuhan bisnis. |
Tanggal cek Validasi |
Memvalidasi bidang tanggal untuk berbagai tindakan yang dilakukan dalam proses ETL. Uji kasus umum untuk melakukan validasi Tanggal -
|
Kueri Minus Validasi Data Lengkap |
Ini melibatkan memvalidasi kumpulan data lengkap dalam sumber dan tabel target dengan menggunakan kueri minus.
|
Skenario Uji Lainnya |
Skenario pengujian lainnya dapat untuk memverifikasi bahwa proses ekstraksi tidak mengekstrak data duplikat dari sistem sumber. Tim penguji akan menyimpan daftar pernyataan SQL yang dijalankan untuk memvalidasi bahwa tidak ada data duplikat yang diambil dari sistem sumber. |
Pembersihan Data |
Data yang tidak diinginkan harus dihapus sebelum memuat data ke area pementasan. |
Penyesuaian kinerja ETL digunakan untuk memastikan apakah sistem ETL dapat menangani beban yang diharapkan dari banyak pengguna dan transaksi. Penyesuaian kinerja biasanya melibatkan beban kerja sisi server pada sistem ETL. Ini digunakan untuk menguji respons server dalam lingkungan multipengguna dan untuk menemukan kemacetan. Ini dapat ditemukan di sistem sumber dan target, pemetaan sistem, konfigurasi seperti properti pengelolaan sesi, dll.
Bagaimana Melakukan Tuning Kinerja Pengujian ETL?
Ikuti langkah-langkah yang diberikan di bawah ini untuk melakukan penyetelan kinerja pengujian ETL -
Step 1 - Temukan beban yang sedang diubah dalam produksi.
Step 2 - Buat data baru dengan beban yang sama atau pindahkan dari data Produksi ke server kinerja lokal Anda.
Step 3 - Nonaktifkan ETL sampai Anda menghasilkan beban yang diperlukan.
Step 4 - Ambil hitungan data yang dibutuhkan dari tabel database.
Step 5- Catat ETL yang dijalankan terakhir dan aktifkan ETL, sehingga akan mendapatkan tekanan yang cukup untuk mengubah seluruh beban yang dibuat. Menjalankannya
Step 6 - Setelah ETL selesai menjalankannya, ambil hitungan dari data yang dibuat.
Indikator Kinerja Utama
- Cari tahu total waktu yang dibutuhkan untuk mengubah beban.
- Cari tahu apakah waktu kinerja meningkat atau menurun.
- Periksa apakah seluruh beban yang diharapkan telah diekstraksi dan ditransfer.
Tujuan pengujian ETL adalah untuk mencapai data yang kredibel. Kredibilitas data dapat diperoleh dengan membuat siklus pengujian lebih efektif.
Strategi pengujian yang komprehensif adalah menyiapkan siklus pengujian yang efektif. Strategi pengujian harus mencakup perencanaan pengujian untuk setiap tahap proses ETL, setiap kali data berpindah dan menyatakan tanggung jawab setiap pemangku kepentingan, misalnya, analis bisnis, tim infrastruktur, tim QA, DBA, Pengembang dan Pengguna Bisnis.
Untuk memastikan kesiapan pengujian dari semua aspek, area utama yang harus menjadi fokus strategi pengujian adalah -
Lingkup pengujian - Jelaskan teknik dan jenis pengujian yang akan digunakan.
Menyiapkan lingkungan pengujian.
Uji ketersediaan data - Direkomendasikan untuk memiliki produksi seperti data yang mencakup semua / persyaratan bisnis penting.
Kriteria penerimaan kualitas dan kinerja data.
Dalam pengujian ETL, keakuratan data digunakan untuk memastikan apakah data dimuat secara akurat ke sistem target sesuai harapan. Langkah-langkah utama dalam melakukan akurasi data adalah sebagai berikut -
Perbandingan Nilai
Perbandingan nilai melibatkan membandingkan data dalam sumber dan sistem target dengan transformasi minimum atau tanpa transformasi. Ini dapat dilakukan dengan menggunakan berbagai alat Pengujian ETL, misalnya, Transformasi Sumber Kualifikasi di Informatica.
Beberapa transformasi ekspresi juga dapat dilakukan dalam pengujian akurasi data. Berbagai operator set dapat digunakan dalam pernyataan SQL untuk memeriksa keakuratan data dalam sumber dan sistem target. Operator umum adalah operator Minus dan Intersect. Hasil dari operator ini dapat dianggap sebagai penyimpangan nilai dalam target dan sistem sumber.
Periksa Kolom Data Kritis
Kolom data penting dapat diperiksa dengan membandingkan nilai yang berbeda dalam sumber dan sistem target. Berikut adalah contoh kueri yang dapat digunakan untuk memeriksa kolom data penting -
SELECT cust_name, Order_Id, city, count(*) FROM customer
GROUP BY cust_name, Order_Id, city;
Memeriksa metadata melibatkan validasi sumber dan struktur tabel target dengan dokumen pemetaan. Dokumen pemetaan memiliki detail kolom sumber dan target, aturan transformasi data dan tipe data, semua bidang yang menentukan struktur tabel di sumber dan sistem target.
Pemeriksaan Panjang Data
Panjang tipe data kolom target harus sama dengan atau lebih besar dari tipe data kolom sumber. Mari kita ambil contoh. Misalkan Anda memiliki nama depan dan nama belakang di tabel sumber dan panjang data untuk masing-masing ditentukan sebagai 50 karakter. Kemudian, panjang data target untuk kolom nama lengkap di sistem target harus minimal 100 atau lebih.
Pemeriksaan Jenis Data
Pemeriksaan tipe data melibatkan verifikasi sumber dan tipe data target dan memastikan bahwa keduanya sama. Ada kemungkinan bahwa tipe data target berbeda dengan data sumber setelah transformasi. Oleh karena itu, ada kebutuhan untuk memeriksa aturan transformasi juga.
Kendala / Pemeriksaan Indeks
Pengecekan batasan melibatkan verifikasi nilai indeks dan batasan sesuai dengan dokumen spesifikasi desain. Semua kolom yang tidak dapat memiliki nilai Null harus memiliki batasan Not Null. Kolom kunci utama diindeks sesuai dengan dokumen desain.
Melakukan transformasi data agak rumit, karena tidak dapat dicapai dengan menulis kueri SQL tunggal dan kemudian membandingkan keluaran dengan target. Untuk Transformasi Data Pengujian ETL, Anda mungkin harus menulis beberapa kueri SQL untuk setiap baris untuk memverifikasi aturan transformasi.
Pertama-tama, pastikan data sumber cukup untuk menguji semua aturan transformasi. Kunci untuk melakukan pengujian ETL yang sukses untuk transformasi data adalah memilih data sampel yang benar dan memadai dari sistem sumber untuk menerapkan aturan transformasi.
Langkah-langkah kunci untuk Transformasi Data Pengujian ETL tercantum di bawah ini -
Langkah pertama adalah membuat daftar skenario input data dan hasil yang diharapkan dan memvalidasi ini dengan pelanggan bisnis. Ini adalah pendekatan yang baik untuk pengumpulan persyaratan selama desain dan juga dapat digunakan sebagai bagian dari pengujian.
Langkah selanjutnya adalah membuat data pengujian yang berisi semua skenario. Memanfaatkan pengembang ETL untuk mengotomatiskan seluruh proses mengisi kumpulan data dengan spreadsheet skenario untuk memungkinkan keserbagunaan dan mobilitas karena skenario kemungkinan akan berubah.
Selanjutnya, manfaatkan hasil pembuatan profil data untuk membandingkan rentang dan pengiriman nilai di setiap bidang antara data target dan sumber.
Validasi pemrosesan akurat dari bidang yang dihasilkan ETL, misalnya, kunci pengganti.
Memvalidasi tipe data di dalam gudang sama dengan yang ditentukan dalam model atau desain data.
Buat skenario data antara tabel yang menguji integritas referensial.
Validasi hubungan orang tua-ke-anak dalam data.
Langkah terakhir adalah tampil lookup transformation. Kueri pencarian Anda harus lurus tanpa agregasi dan diharapkan hanya mengembalikan satu nilai per tabel sumber. Anda dapat langsung bergabung dengan tabel pemeta di kualifikasi sumber seperti pada pengujian sebelumnya. Jika bukan ini masalahnya, tulis kueri yang menggabungkan tabel pemeta dengan tabel utama di sumber dan bandingkan data di kolom yang sesuai di target.
Memeriksa kualitas data selama pengujian ETL melibatkan melakukan pemeriksaan kualitas pada data yang dimuat di sistem target. Ini termasuk tes berikut -
Cek nomor
Format Angka harus sama di seluruh sistem target. Misalnya, dalam sistem sumber, format penomoran kolom adalahx.30, tetapi jika targetnya hanya 30, maka itu harus memuat bukan prefiks x. di nomor kolom target.
Cek Tanggal
Format Tanggal harus konsisten baik dalam sistem sumber maupun sistem target. Misalnya, harus sama di semua record. Format Standar adalah: tttt-bb-hh.
Pemeriksaan Presisi
Nilai presisi harus ditampilkan seperti yang diharapkan pada tabel target. Misalnya, di tabel sumber, nilainya adalah 15.2323422, tetapi di tabel target, harus ditampilkan sebagai 15.23 atau putaran 15.
Pemeriksaan Data
Ini melibatkan pemeriksaan data sesuai kebutuhan bisnis. Catatan yang tidak memenuhi kriteria tertentu harus disaring.
Example - Hanya record dengan date_id> = 2015 dan Account_Id! = '001' yang harus dimuat dalam tabel target.
Cek Null
Beberapa kolom harus memiliki Null sesuai persyaratan dan kemungkinan nilai untuk bidang itu.
Example - Kolom Tanggal Pengakhiran harus menampilkan Null kecuali dan sampai Status Aktifnya Kolom adalah “T” atau “Deceased”.
Cek Lainnya
Pemeriksaan umum seperti From_Date tidak boleh lebih dari To_Date dapat dilakukan.
Pengecekan Kelengkapan Data dilakukan untuk memverifikasi bahwa data di sistem target sesuai dengan harapan setelah loading.
Tes umum yang dapat dilakukan untuk ini adalah sebagai berikut -
Memeriksa fungsi Agregat (jumlah, maks, min, hitung),
Memeriksa dan memvalidasi jumlah dan data aktual antara sumber dan target untuk kolom tanpa transformasi atau dengan transformasi sederhana.
Hitung Validasi
Bandingkan jumlah rekaman dalam tabel sumber dan target. Itu dapat dilakukan dengan menulis kueri berikut -
SELECT count (1) FROM employee;
SELECT count (1) FROM emp_dim;
Validasi Profil Data
Ini melibatkan pemeriksaan fungsi agregat seperti hitungan, jumlah, dan maks dalam tabel sumber dan target (fakta atau dimensi).
Validasi Profil Data Kolom
Ini melibatkan membandingkan nilai yang berbeda dan jumlah baris untuk setiap nilai yang berbeda.
SELECT city, count(*) FROM employee GROUP BY city;
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;
Validasi Data Duplikat
Ini melibatkan memvalidasi kunci utama dan kunci unik dalam kolom atau kombinasi kolom yang harus unik sesuai dengan kebutuhan bisnis. Anda dapat menggunakan kueri berikut untuk melakukan validasi data duplikat -
SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;
Pemulihan cadangan untuk sistem direncanakan untuk memastikan bahwa sistem dipulihkan sesegera mungkin dari kegagalan dan operasi dilanjutkan sedini mungkin tanpa kehilangan data penting.
Pengujian pemulihan Cadangan ETL digunakan untuk memastikan bahwa sistem Data Warehouse berhasil pulih dari perangkat keras, perangkat lunak, atau dari kegagalan jaringan dengan kehilangan data apa pun.
Rencana cadangan yang tepat harus disiapkan untuk memastikan ketersediaan sistem yang maksimal. Sistem cadangan harus dapat memulihkan dengan mudah dan harus mengambil alih sistem yang gagal tanpa kehilangan data.
Pengujian ETL Pemulihan cadangan melibatkan pemaparan aplikasi atau sistem DW ke kondisi ekstrim untuk setiap komponen perangkat keras, kerusakan perangkat lunak, dll. Langkah selanjutnya adalah memastikan bahwa proses pemulihan dimulai, verifikasi sistem dilakukan, dan pemulihan data tercapai.
Pengujian ETL sebagian besar dilakukan menggunakan skrip SQL dan mengumpulkan data dalam spreadsheet. Pendekatan untuk melakukan pengujian ETL ini sangat lambat dan memakan waktu, rawan kesalahan, dan dilakukan pada data sampel.
Tantangan Teknis dalam Pengujian ETL Manual
Tim penguji ETL Anda menulis kueri SQL untuk menguji data dalam sistem gudang dan mereka perlu mengeksekusinya secara manual menggunakan editor SQL dan kemudian memasukkan data tersebut ke dalam spreadsheet Excel dan membandingkannya secara manual. Proses ini memakan waktu, intensif sumber daya, dan tidak efisien.
Ada berbagai alat yang tersedia di pasar untuk mengotomatiskan proses ini. Alat Pengujian ETL yang paling umum adalah QuerySurge dan Informatica Data Validation.
QuerySurge
QuerySurge adalah solusi pengujian data yang dirancang untuk menguji Big Data, Gudang Data, dan proses ETL. Itu dapat mengotomatiskan seluruh proses untuk Anda dan cocok dengan baik ke dalam strategi DevOps Anda.
Fitur utama QuerySurge adalah sebagai berikut -
Ini memiliki Query Wizards untuk membuat QueryPairs pengujian dengan cepat dan mudah tanpa pengguna harus menulis SQL apapun.
Ini memiliki Perpustakaan Desain dengan Cuplikan Kueri yang dapat digunakan kembali. Anda juga dapat membuat QueryPairs khusus.
Itu dapat membandingkan data dari file sumber dan penyimpanan data ke Gudang Data target atau penyimpanan Big Data.
Ini dapat membandingkan jutaan baris dan kolom data dalam hitungan menit.
Ini memungkinkan pengguna untuk menjadwalkan pengujian untuk dijalankan (1) segera, (2) tanggal / waktu apa pun, atau (3) secara otomatis setelah acara berakhir.
Ini dapat menghasilkan laporan informatif, melihat pembaruan, dan hasil email otomatis ke tim Anda.
Untuk mengotomatiskan seluruh proses, alat ETL Anda harus memulai QuerySurge melalui API baris perintah setelah perangkat lunak ETL menyelesaikan proses pemuatannya.
QuerySurge akan berjalan secara otomatis dan tanpa pengawasan, menjalankan semua tes dan kemudian mengirim email kepada semua orang di tim dengan hasilnya.
Sama seperti QuerySurge, Informatica Data Validation menyediakan alat pengujian ETL yang membantu Anda mempercepat dan mengotomatiskan proses pengujian ETL dalam lingkungan pengembangan dan produksi. Ini memungkinkan Anda memberikan cakupan pengujian yang lengkap, berulang, dan dapat diaudit dalam waktu yang lebih singkat. Tidak membutuhkan keahlian pemrograman!
Untuk menguji sistem data warehouse atau aplikasi BI, seseorang perlu memiliki pendekatan data-centric. Praktik terbaik Pengujian ETL membantu meminimalkan biaya dan waktu untuk melakukan pengujian. Ini meningkatkan kualitas data yang akan dimuat ke sistem target yang menghasilkan dasbor dan laporan berkualitas tinggi untuk pengguna akhir.
Kami telah mencantumkan di sini beberapa praktik terbaik yang dapat diikuti untuk Pengujian ETL -
Analisis Datanya
Sangat penting untuk menganalisis data untuk memahami persyaratan guna menyiapkan model data yang benar. Menghabiskan waktu untuk memahami persyaratan dan memiliki model data yang benar untuk sistem target dapat mengurangi tantangan ETL. Penting juga untuk mempelajari sistem sumber, kualitas data, dan membangun aturan validasi data yang benar untuk modul ETL. Strategi ETL harus dirumuskan berdasarkan pada struktur data sumber dan sistem target.
Perbaiki Data Buruk di Sistem Sumber
Pengguna akhir biasanya mengetahui masalah data, tetapi mereka tidak tahu cara memperbaikinya. Penting untuk menemukan kesalahan ini dan memperbaikinya sebelum mencapai sistem ETL. Cara umum untuk mengatasinya adalah pada waktu eksekusi ETL, tetapi praktik terbaiknya adalah menemukan kesalahan dalam sistem sumber dan mengambil langkah untuk memperbaikinya di tingkat sistem sumber.
Temukan Alat ETL yang Kompatibel
Salah satu praktik terbaik ETL yang umum adalah memilih alat yang paling kompatibel dengan sumber dan sistem target. Kemampuan alat ETL untuk menghasilkan skrip SQL untuk sumber dan sistem target dapat mengurangi waktu pemrosesan dan sumber daya. Ini memungkinkan seseorang untuk memproses transformasi di mana saja dalam lingkungan yang paling sesuai.
Pantau Pekerjaan ETL
Praktik terbaik lainnya selama implementasi ETL adalah penjadwalan, audit, dan pemantauan pekerjaan ETL untuk memastikan bahwa beban dilakukan sesuai harapan.
Integrasikan Data Tambahan
Terkadang, tabel gudang data berukuran lebih besar dan tidak mungkin untuk menyegarkannya selama setiap siklus ETL. Beban tambahan memastikan bahwa hanya catatan yang diubah sejak pembaruan terakhir yang dibawa ke dalam proses ETL dan hal ini memberikan dampak besar pada skalabilitas dan waktu yang dibutuhkan untuk menyegarkan sistem.
Biasanya sistem sumber tidak memiliki cap waktu atau kunci utama untuk mengidentifikasi perubahan dengan mudah. Masalah seperti itu bisa sangat merugikan, jika diidentifikasi pada tahap proyek selanjutnya. Salah satu praktik terbaik ETL adalah mencakup aspek-aspek tersebut dalam studi sistem sumber awal. Pengetahuan ini membantu tim ETL untuk mengidentifikasi masalah pengambilan data yang berubah dan menentukan strategi yang paling tepat.
Skalabilitas
Merupakan praktik terbaik untuk memastikan solusi ETL yang ditawarkan dapat diskalakan. Pada saat implementasi, perlu dipastikan bahwa solusi ETL dapat diskalakan dengan kebutuhan bisnis dan potensi pertumbuhannya di masa depan.