ETL Testi - Hızlı Kılavuz

Bir Veri Ambarı sistemindeki veriler bir ETL (Çıkart, Dönüştür, Yükle) aracı ile yüklenir. Adından da anlaşılacağı gibi, aşağıdaki üç işlemi gerçekleştirir -

  • Oracle, Microsoft veya başka herhangi bir ilişkisel veritabanı olabilen işlem sisteminizden verileri çıkarır,

  • Veri temizleme işlemleri gerçekleştirerek verileri dönüştürür ve ardından

  • Verileri OLAP veri ambarına yükler.

Ayrıca bir ETL aracı kullanarak elektronik tablolar ve CSV dosyaları gibi düz dosyalardan veri çıkarabilir ve veri analizi ve raporlama için bir OLAP veri ambarına yükleyebilirsiniz. Daha iyi anlamak için bir örnek alalım.

Misal

Satış, İK, Malzeme Yönetimi, EWM vb. Gibi birden fazla departmanı olan bir üretim şirketi olduğunu varsayalım. Tüm bu departmanların işlerine ait bilgileri korumak için kullandıkları ayrı veritabanları vardır ve her veritabanı farklı bir teknolojiye, manzaraya, tabloya sahiptir. isimler, sütunlar, vb. Şimdi, şirket geçmiş verileri analiz etmek ve raporlar oluşturmak istiyorsa, bu veri kaynaklarından tüm veriler çıkarılmalı ve analitik çalışma için kaydetmek üzere bir Veri Ambarına yüklenmelidir.

Bir ETL aracı, tüm bu heterojen veri kaynaklarından verileri çıkarır, verileri dönüştürür (hesaplama uygulamak, alanları birleştirmek, anahtarlar, yanlış veri alanlarını kaldırmak vb.) Ve bir Veri Ambarı'na yükler. Daha sonra, bu verileri kullanarak anlamlı raporlar, gösterge panoları ve görselleştirmeler oluşturmak için çeşitli İş Zekası (BI) araçlarını kullanabilirsiniz.

ETL ve BI Araçları arasındaki fark

Farklı veri kaynaklarından veri çıkarmak, verileri dönüştürmek ve bir DW sistemine yüklemek için bir ETL aracı kullanılır; ancak son kullanıcılar için etkileşimli ve geçici raporlar, üst yönetim için gösterge panosu, aylık, üç aylık ve yıllık yönetim kurulu toplantıları için veri görselleştirmeleri oluşturmak için bir BI aracı kullanılır.

En yaygın ETL araçları şunlardır: SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Açık kaynak vb.

Bazı popüler BI araçları şunları içerir: SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, vb.

ETL Süreci

Şimdi bir ETL prosedürünün içerdiği temel adımları biraz daha ayrıntılı tartışalım -

Verilerin Çıkarılması

Verilerin farklı heterojen veri kaynaklarından çıkarılmasını içerir. İşlem sisteminden veri çıkarma, gereksinime ve kullanılan ETL aracına göre değişir. Normalde işlerin gece veya hafta sonu çalıştırılması gibi mesai saatleri dışında planlanmış işler çalıştırılarak yapılır.

Verileri Dönüştürmek

Verilerin bir DW sistemine kolayca yüklenebilecek uygun bir formata dönüştürülmesini içerir. Veri dönüşümü, hesaplamalar, birleştirmeler ve veriler üzerinde birincil ve yabancı anahtarların tanımlanmasını içerir. Örneğin, veritabanında olmayan toplam gelirin% 'sini istiyorsanız, dönüşümde% formülünü uygulayacak ve verileri yükleyeceksiniz. Benzer şekilde, farklı sütunlarda kullanıcıların adı ve soyadına sahipseniz, verileri yüklemeden önce bir birleştirme işlemi uygulayabilirsiniz. Bazı veriler herhangi bir dönüştürme gerektirmez; bu tür veriler şu şekilde bilinirdirect move veya pass through data.

Veri dönüşümü ayrıca verilerin düzeltilmesini ve verilerin temizlenmesini, yanlış verilerin kaldırılmasını, eksik veri oluşumunu ve veri hatalarının düzeltilmesini de içerir. Ayrıca bir DW sistemine yüklemeden önce veri bütünlüğünü ve uyumsuz verileri biçimlendirmeyi de içerir.

Verileri Bir DW Sistemine Yükleme

Analitik raporlama ve bilgi için verilerin bir DW sistemine yüklenmesini içerir. Hedef sistem, basit sınırlandırılmış düz bir dosya veya bir veri ambarı olabilir.

ETL Aracı İşlevi

Tipik bir ETL aracı tabanlı veri ambarı, işlevlerini gerçekleştirmek için hazırlık alanı, veri entegrasyonu ve erişim katmanları kullanır. Normalde 3 katmanlı bir mimaridir.

  • Staging Layer - Aşama katmanı veya aşamalandırma veritabanı, farklı kaynak veri sistemlerinden çıkarılan verileri depolamak için kullanılır.

  • Data Integration Layer - Entegrasyon katmanı, verileri aşamalandırma katmanından dönüştürür ve verileri, genellikle adı verilen hiyerarşik gruplar halinde düzenlendiği bir veritabanına taşır. dimensionsve içine facts ve aggregate facts. Bir DW sistemindeki gerçekler ve boyut tablolarının birleşimineschema.

  • Access Layer - Erişim katmanı, son kullanıcılar tarafından analitik raporlama ve bilgi için verileri almak üzere kullanılır.

Aşağıdaki çizim, üç katmanın birbiriyle nasıl etkileşime girdiğini gösterir.

Veriler bir üretim veri ambarı sistemine taşınmadan önce ETL testi yapılır. Bazen şu şekilde de adlandırılır:table balancing veya production reconciliation. Kapsamı ve bunu tamamlamak için atılması gereken adımlar açısından veritabanı testinden farklıdır.

ETL testinin temel amacı, analitik raporlama için verilerin işlenmesinden önce meydana gelen veri kusurlarını ve genel hataları belirlemek ve azaltmaktır.

ETL Testi - Gerçekleştirilecek Görevler

ETL Testinde yer alan yaygın görevlerin bir listesi:

  • Raporlama için kullanılacak verileri anlayın
  • Veri Modelini İnceleyin
  • Hedef eşleme kaynağı
  • Kaynak verilerde veri kontrolleri
  • Paketler ve şema doğrulaması
  • Hedef sistemde veri doğrulama
  • Veri dönüştürme hesaplamalarının ve toplama kurallarının doğrulanması
  • Kaynak ve hedef sistem arasında örnek veri karşılaştırması
  • Hedef sistemde veri bütünlüğü ve kalite kontrolleri
  • Veriler üzerinde performans testi

Hem ETL testi hem de veritabanı testi veri doğrulamasını içerir, ancak bunlar aynı değildir. ETL testi normalde bir veri ambarı sistemindeki veriler üzerinde gerçekleştirilirken, veritabanı testi genellikle verilerin farklı uygulamalardan işlem veritabanına geldiği işlem sistemlerinde gerçekleştirilir.

Burada, ETL testi ile Veritabanı testi arasındaki temel farkları vurguladık.

ETL Testi

ETL testi aşağıdaki işlemleri içerir -

  • Kaynaktan hedef sisteme veri hareketinin doğrulanması.

  • Kaynak ve hedef sistemdeki veri sayımının doğrulanması.

  • Veri çıkarma, gereksinim ve beklentiye göre dönüşümü doğrulama.

  • Dönüşüm sırasında tablo ilişkilerinin - birleşimler ve anahtarlar - korunup korunmadığını doğrulama.

Yaygın ETL test araçları şunları içerir: QuerySurge, Informatica, vb.

Veritabanı Testi

Veritabanı testi, veri doğruluğu, verilerin doğruluğu ve geçerli değerler üzerinde daha fazla vurgu yapar. Aşağıdaki işlemleri içerir -

  • Birincil ve yabancı anahtarların korunup korunmadığını doğrulama.

  • Bir tablodaki sütunların geçerli veri değerlerine sahip olup olmadığını doğrulama.

  • Sütunlarda veri doğruluğunun doğrulanması. Example - Ay sayısı sütununun değeri 12'den büyük olmamalıdır.

  • Eksik verilerin sütunlarda doğrulanması. Gerçekte geçerli bir değere sahip olması gereken boş sütunlar olup olmadığını kontrol edin.

Ortak veritabanı test araçları şunları içerir: Selenium, QTP, vb.

Aşağıdaki tablo, Veritabanı ve ETL testinin temel özelliklerini ve bunların karşılaştırmasını gösterir -

Fonksiyon Veritabanı Testi ETL Testi
Birincil Hedef Veri doğrulama ve Entegrasyon BI Raporlaması için Veri Çıkarma, Dönüştürme ve Yükleme
Uygulanabilir Sistem İş akışının gerçekleştiği işlem sistemi İş akışı ortamında değil, geçmiş verileri içeren sistem
Ortak araçlar QTP, Selenyum vb. QuerySurge, Informatica vb.
İş İhtiyacı Birden çok uygulamadan gelen verileri entegre etmek için kullanılır, Şiddetli etki. Analitik Raporlama, bilgi ve tahmin için kullanılır.
Modelleme ER yöntemi Çok boyutlu
Veritabanı Tipi Normalde OLTP sistemlerinde kullanılır OLAP sistemlerine uygulanır
Veri tipi Daha fazla birleştirme ile normalleştirilmiş veriler Daha az birleştirme, daha fazla dizin ve toplamayla normalleştirilmiş veriler.

ETL Testi kategorizasyonu, test etme ve raporlama hedeflerine göre yapılır. Test kategorileri organizasyon standartlarına göre değişir ve ayrıca müşteri gereksinimlerine bağlıdır. Genel olarak, ETL testi aşağıdaki noktalara göre kategorize edilir -

  • Source to Target Count Testing - Kaynak ve hedef sistemlerdeki kayıt sayısının eşleşmesini içerir.

  • Source to Target Data Testing- Kaynak ve hedef sistemler arasında veri doğrulamasını içerir. Aynı zamanda hedef sistemde veri entegrasyonu ve eşik değer kontrolü ve yinelenen veri kontrolünü içerir.

  • Data Mapping or Transformation Testing- Kaynaktaki ve hedef sistemlerdeki nesnelerin eşleştirilmesini doğrular. Ayrıca, hedef sistemdeki verilerin işlevselliğini kontrol etmeyi de içerir.

  • End-User Testing- Raporlardaki verilerin beklentilere uygun olup olmadığını doğrulamak için son kullanıcılar için raporlar oluşturmayı içerir. Raporlarda sapma bulmayı ve hedef sistemdeki verileri rapor doğrulaması için çapraz kontrol etmeyi içerir.

  • Retesting - Hedef sistemdeki verilerdeki hataların ve eksikliklerin giderilmesi ve veri doğrulama için raporların yeniden çalıştırılmasını içerir.

  • System Integration Testing- Tüm bireysel sistemleri test etmeyi ve daha sonra herhangi bir sapma olup olmadığını bulmak için sonuçları birleştirmeyi içerir. Bunu gerçekleştirmek için kullanılabilecek üç yaklaşım vardır: yukarıdan aşağıya, aşağıdan yukarıya ve karma.

Bir Veri Ambarı sisteminin yapısına bağlı olarak, ETL testi (kullanılan araca bakılmaksızın) aşağıdaki kategorilere ayrılabilir -

Yeni DW Sistem Testi

Bu tür testlerde, inşa edilmiş ve doğrulanmış yeni bir DW sistemi vardır. Veri girişleri müşterilerden / son kullanıcılardan ve ayrıca farklı veri kaynaklarından alınarak yeni bir veri ambarı oluşturulur. Daha sonra veriler yeni sistemde ETL araçları yardımıyla doğrulanır.

Göç Testi

Geçiş testinde, müşteriler mevcut bir Veri Ambarı ve ETL'ye sahiptir, ancak verimliliği artırmak için yeni bir ETL aracı ararlar. Yeni bir ETL aracı kullanılarak mevcut sistemden verilerin taşınmasını içerir.

Testi Değiştir

Değişiklik testinde, farklı veri kaynaklarından mevcut bir sisteme yeni veriler eklenir. Müşteriler ayrıca ETL için mevcut kuralları değiştirebilir veya yeni bir kural da eklenebilir.

Rapor Testi

Rapor testi, veri doğrulama için raporlar oluşturmayı içerir. Raporlar, herhangi bir DW sisteminin nihai çıktısıdır. Raporlar düzenlerine, rapordaki verilere ve hesaplanan değerlere göre test edilir.

ETL testi, veritabanı testinden veya diğer geleneksel testlerden farklıdır. ETL testi yapılırken farklı zorluk türleriyle karşılaşmak gerekebilir. Burada birkaç yaygın sorunu listeledik -

  • ETL işlemi sırasında veri kaybı.

  • Yanlış, eksik veya yinelenen veriler.

  • DW sistemi geçmiş verileri içerir, bu nedenle veri hacmi çok büyük ve hedef sistemde ETL testi yapmak için son derece karmaşıktır.

  • ETL test uzmanlarına normalde ETL aracındaki iş programlarını görme erişimi sağlanmamaktadır. Raporların içindeki raporların ve verilerin son düzenini görmek için BI Raporlama araçlarına neredeyse hiç erişimleri yoktur.

  • Veri hacmi çok yüksek ve karmaşık olduğundan test senaryoları oluşturmak ve oluşturmak zor.

  • ETL test uzmanlarının normalde son kullanıcı raporu gereksinimleri ve bilginin iş akışı hakkında bir fikri yoktur.

  • ETL testi, hedef sistemde veri doğrulama için çeşitli karmaşık SQL kavramlarını içerir.

  • Bazen test uzmanlarına kaynak-hedef eşleme bilgileri sağlanmamaktadır.

  • Kararsız test ortamı, bir sürecin geliştirilmesini ve test edilmesini geciktirir.

Bir ETL test cihazı birincil olarak veri kaynaklarının doğrulanmasından, verilerin çıkarılmasından, dönüşüm mantığının uygulanmasından ve verilerin hedef tablolara yüklenmesinden sorumludur.

Bir ETL test cihazının temel sorumlulukları aşağıda listelenmiştir.

Kaynak Sistemdeki Tabloları Doğrulayın

Aşağıdaki işlemleri içerir -

  • Sayım kontrolü
  • Kayıtları kaynak verilerle uzlaştırın
  • Veri türü kontrolü
  • Spam verilerinin yüklenmediğinden emin olun
  • Yinelenen verileri kaldırın
  • Tüm anahtarların yerinde olup olmadığını kontrol edin

Dönüşüm Mantığını Uygula

Verileri yüklemeden önce dönüşüm mantığı uygulanır. Aşağıdaki işlemleri içerir -

  • Veri eşiği doğrulama kontrolü, örneğin, yaş değeri 100'den fazla olmamalıdır.

  • Dönüşüm mantığının uygulanmasından önce ve sonra kayıt sayımı kontrolü.

  • Aşama alanından ara tablolara veri akışı doğrulaması.

  • Vekil anahtar kontrolü.

Veri Yükleme

Veriler, evreleme alanından hedef sisteme yüklenir. Aşağıdaki işlemleri içerir -

  • Ara tablodan hedef sisteme kayıt sayımı kontrolü.

  • Anahtar alan verilerinin eksik veya Null olmadığından emin olun.

  • Toplam değerlerin ve hesaplanan ölçümlerin olgu tablolarına yüklenip yüklenmediğini kontrol edin.

  • Hedef tablolara göre modelleme görünümlerini kontrol edin.

  • Artımlı yük tablosunda CDC'nin uygulanıp uygulanmadığını kontrol edin.

  • Boyut tablosu ve geçmiş tablosu kontrolünde veri kontrolü.

  • Yüklenen olgu ve boyut tablosuna ve beklenen sonuçlara göre BI raporlarını kontrol edin.

ETL Araçlarını Test Etme

ETL test uzmanlarının araçları ve test durumlarını da test etmesi gerekir. Aşağıdaki işlemleri içerir -

  • ETL aracını ve işlevlerini test edin
  • ETL Veri Ambarı sistemini test edin
  • Test planlarını ve test senaryolarını oluşturun, tasarlayın ve yürütün.
  • Düz dosya veri aktarımlarını test edin.

Test sürecine başlamadan önce doğru ETL Test tekniğini tanımlamanız önemlidir. Tüm paydaşlardan bir kabul görmeli ve ETL testini gerçekleştirmek için doğru bir tekniğin seçildiğinden emin olmalısınız. Bu teknik, test ekibi tarafından iyi bilinmeli ve test sürecindeki adımların farkında olmalıdır.

Kullanılabilecek çeşitli test teknikleri vardır. Bu bölümde, test tekniklerini kısaca tartışacağız.

Üretim Doğrulama Testi

Analitik Raporlama ve Analiz gerçekleştirmek için üretiminizdeki verilerin doğru olması gerekir. Bu test, üretim sistemine taşınan veriler üzerinde yapılır. Üretim sisteminde veri doğrulamasını ve bunun kaynak verilerle karşılaştırılmasını içerir.

Kaynaktan Hedefe Sayım Testi

Bu tür testler, test edenin test işlemini gerçekleştirmek için daha az zamanı olduğunda yapılır. Kaynaktaki ve hedef sistemlerdeki veri sayısının kontrol edilmesini içerir. Hedef sistemdeki verilerin değerlerinin kontrol edilmesini içermez. Ayrıca, verilerin eşleştirilmesinden sonra verilerin artan veya azalan sırada olup olmadığı da dahil değildir.

Kaynaktan Hedefe Veri Testi

Bu tür testlerde, bir test cihazı kaynaktan hedef sisteme kadar veri değerlerini doğrular. Dönüşüm sonrası kaynak sistemdeki veri değerlerini ve hedef sistemdeki karşılık gelen değerleri kontrol eder. Bu tür testler zaman alıcıdır ve normalde finans ve bankacılık projelerinde gerçekleştirilir.

Veri Entegrasyonu / Eşik Değer Doğrulama Testi

Bu tür testlerde, bir test uzmanı veri aralığını doğrular. Hedef sistemdeki tüm eşik değerleri, beklenen sonuca uygunsa kontrol edilir. Aynı zamanda, dönüşüm ve yükleme sonrasında birden çok kaynak sistemden gelen verilerin hedef sisteme entegrasyonunu içerir.

Example - Yaş özelliği 100'den büyük bir değere sahip olmamalıdır. GG / AA / YY tarih sütununda, ay alanı 12'den büyük bir değere sahip olmamalıdır.

Uygulama Taşıma Testi

Uygulama geçiş testi normalde eski bir uygulamadan yeni bir uygulama sistemine geçtiğinizde otomatik olarak gerçekleştirilir. Bu test çok zaman kazandırır. Eski bir uygulamadan çıkarılan verilerin yeni uygulama sistemindeki verilere göre aynı olup olmadığını kontrol eder.

Veri Kontrolü ve Kısıtlama Testi

Veri tipi kontrolü, veri uzunluğu kontrolü ve indeks kontrolü gibi çeşitli kontrollerin yapılmasını içerir. Burada bir Test Mühendisi şu senaryoları gerçekleştirir - Birincil Anahtar, Yabancı Anahtar, NULL DEĞİL, NULL ve EŞSİZ.

Yinelenen Veri Kontrol Testi

Bu test, hedef sistemde yinelenen verilerin kontrol edilmesini içerir. Hedef sistemde çok büyük miktarda veri olduğunda, üretim sisteminde Analitik Raporlarda yanlış verilere neden olabilecek yinelenen veriler olması olasıdır.

Yinelenen değerler aşağıdaki gibi SQL ifadesiyle kontrol edilebilir -

Select Cust_Id, Cust_NAME, Quantity, COUNT (*) 
FROM Customer
GROUP BY Cust_Id, Cust_NAME, Quantity HAVING COUNT (*) >1;

Aşağıdaki nedenlerden dolayı hedef sistemde yinelenen veriler görünür -

  • Birincil anahtar tanımlanmamışsa, yinelenen değerler gelebilir.
  • Yanlış haritalama veya çevre sorunları nedeniyle.
  • Verileri kaynaktan hedef sisteme aktarırken manuel hatalar.

Veri Dönüştürme Testi

Veri dönüştürme testi, tek bir SQL ifadesi çalıştırılarak gerçekleştirilmez. Zaman alıcıdır ve dönüşüm kurallarını doğrulamak için her satır için birden çok SQL sorgusu çalıştırmayı içerir. Test uzmanının her satır için SQL sorguları çalıştırması ve ardından çıktıyı hedef verilerle karşılaştırması gerekir.

Veri Kalitesi Testi

Veri kalitesi testi, numara kontrolü, tarih kontrolü, sıfır kontrolü, hassas kontrol vb. Gerçekleştirmeyi içerir. Syntax Test geçersiz karakterler, yanlış büyük / küçük harf sıralaması vb. bildirmek ve Reference Tests verilerin veri modeline göre olup olmadığını kontrol etmek için.

Artımlı Test

Ekleme ve Güncelleme ifadelerinin beklenen sonuca göre yürütüldüğünü doğrulamak için artımlı test gerçekleştirilir. Bu test, eski ve yeni verilerle adım adım gerçekleştirilir.

Gerileme testi

Test yapanın yeni hataları bulmasına da yardımcı olan yeni işlevsellik eklemek için veri dönüştürme ve toplama kurallarında değişiklikler yaptığımızda buna Regresyon Testi denir. Regresyon testinde gelen verilerdeki hatalara Regresyon denir.

Yeniden test ediliyor

Kodları düzelttikten sonra testleri çalıştırdığınızda buna yeniden test denir.

Sistem Entegrasyon Testi

Sistem entegrasyon testi, bir sistemin bileşenlerinin ayrı ayrı test edilmesini ve daha sonra modüllerin entegre edilmesini içerir. Bir sistem entegrasyonunun yapılmasının üç yolu vardır: yukarıdan aşağıya, aşağıdan yukarıya ve karma.

Navigasyon Testi

Navigasyon testi, sistemin ön ucunu test etmek olarak da bilinir. Ön uç raporunun tüm yönlerini kontrol ederek son kullanıcı bakış açısı testini içerir - çeşitli alanlardaki verileri, hesaplamaları ve toplamaları vb. İçerir.

ETL testi, bir ETL yaşam döngüsündeki tüm adımları kapsar. Bir özet rapor oluşturulana kadar iş gereksinimlerini anlamakla başlar.

ETL Testi yaşam döngüsü altındaki genel adımlar aşağıda listelenmiştir -

  • İş gereksinimlerini anlamak.

  • İş gereksiniminin doğrulanması.

  • Test Tahmini, test durumlarını çalıştırmak için tahmini süreyi sağlamak ve özet raporu tamamlamak için kullanılır.

  • Test Planlama, iş gereksinimine göre girdilere dayalı olarak Test tekniğini bulmayı içerir.

  • Test senaryoları ve test senaryoları oluşturma.

  • Test senaryoları hazır ve onaylandıktan sonra, bir sonraki adım yürütme öncesi kontrolü yapmaktır.

  • Tüm test durumlarını yürütün.

  • Son adım, eksiksiz bir özet rapor oluşturmak ve bir kapanış sürecini dosyalamaktır.

ETL Test Senaryoları, bir ETL Test Sürecini doğrulamak için kullanılır. Aşağıdaki tablo, ETL test uzmanları tarafından kullanılan en yaygın senaryolardan ve test senaryolarından bazılarını açıklamaktadır.

Test Senaryoları Test Durumları

Yapı Doğrulaması

Eşleştirme belgesine göre kaynağın ve hedef tablo yapısının doğrulanmasını içerir.

Veri türü kaynak ve hedef sistemlerde doğrulanmalıdır.

Kaynak ve hedef sistemdeki veri türlerinin uzunluğu aynı olmalıdır.

Veri alanı türleri ve biçimleri kaynak ve hedef sistemde aynı olmalıdır.

Hedef sistemdeki sütun adlarının doğrulanması.

Eşleme belgesini doğrulama

Tüm bilgilerin sağlandığından emin olmak için eşleme belgesinin doğrulanmasını içerir. Eşleştirme belgesinde değişiklik günlüğü, veri türleri, uzunluk, dönüştürme kuralları vb. Bulunmalıdır.

Kısıtlamaları Doğrula

Kısıtlamaların doğrulanmasını ve beklenen tablolara uygulanmasını sağlamayı içerir.

Veri Tutarlılığı kontrolü

Yabancı Anahtar gibi bütünlük kısıtlamalarının kötüye kullanımını kontrol etmeyi içerir.

Bir özniteliğin uzunluğu ve veri türü farklı tablolarda değişiklik gösterebilir, ancak tanımları anlamsal katmanda aynı kalır.

Veri Tamlığı Doğrulaması

Tüm verilerin kaynak sistemden hedef sisteme yüklenip yüklenmediğini kontrol etmeyi içerir.

Kaynak ve hedef sistemlerdeki kayıtların sayılması.

Sınır değer analizi.

Birincil anahtarların benzersiz değerlerini doğrulama.

Veri Doğruluğu Doğrulaması

Hedef sistemdeki veri değerlerinin doğrulanmasını içerir.

Tabloda yanlış yazılmış veya hatalı veriler bulunur.

İçe aktarma sırasında bütünlük kısıtlamasını devre dışı bıraktığınızda Boş, Benzersiz Değil veriler depolanır.

Veri Dönüşümü doğrulaması

Girdi değerleri ve beklenen sonuçlar için bir senaryo tablosu oluşturmayı ve ardından son kullanıcılarla doğrulamayı içerir.

Senaryolar oluşturarak verilerdeki ebeveyn-çocuk ilişkisini doğrulama.

Her alandaki değer aralığını karşılaştırmak için veri profili oluşturma.

Depodaki veri türlerinin veri modelinde belirtilenlerle aynı olup olmadığının doğrulanması.

Veri Kalitesi Doğrulaması

Numara kontrolü, tarih kontrolü, hassas kontrol, veri kontrolü, Boş kontrol vb. Yapılmasını içerir.

Example - Tarih biçimi tüm değerler için aynı olmalıdır.

Boş Doğrulama

Bu alan için Not Null'dan bahsedildiği Null değerlerinin kontrol edilmesini içerir.

Yinelenen Doğrulama

Veriler, kaynak sistemden birden çok sütundan geldiğinde hedef sistemdeki yinelenen değerlerin doğrulanmasını içerir.

İş gereksinimine göre yinelenen değerler varsa birincil anahtarları ve diğer sütunları doğrulama.

Tarih Doğrulama kontrolü

ETL sürecinde gerçekleştirilen çeşitli eylemler için doğrulama tarihi alanı.

Tarih doğrulamasını gerçekleştirmek için yaygın test senaryoları -

  • From_Date, To_Date değerinden büyük olmamalıdır

  • Tarih değerlerinin formatı uygun olmalıdır.

  • Tarih değerlerinde önemsiz değerler veya boş değerler olmamalıdır

Tam Veri Doğrulama Eksi Sorgu

Eksi sorgu kullanarak kaynak ve hedef tablolarda tam veri kümesini doğrulamayı içerir.

  • İkisini de yapmalısın source minus target ve target minus source.

  • Eksi sorgusu bir değer döndürürse, bu uyumsuz satırlar olarak düşünülmelidir.

  • Kaynak ve hedefteki satırları şunu kullanarak eşleştirmeniz gerekir: Intersect Beyan.

  • Intersect tarafından döndürülen sayı, kaynak ve hedef tabloların bağımsız sayılarıyla eşleşmelidir.

  • Eksi sorgu hiçbir satır döndürmezse ve sayı kesişimi kaynak sayısından veya hedef tablo sayısından azsa, tablo yinelenen satırları tutar.

Diğer Test Senaryoları

Diğer Test senaryoları, çıkarma işleminin kaynak sistemden yinelenen verileri ayıklamadığını doğrulamak olabilir.

Test ekibi, kaynak sistemlerden yinelenen verilerin çıkarılmadığını doğrulamak için çalıştırılan SQL ifadelerinin bir listesini tutacaktır.

Veri temizleme

Verileri hazırlama alanına yüklemeden önce istenmeyen veriler kaldırılmalıdır.

ETL performans ayarı, bir ETL sisteminin beklenen birden fazla kullanıcı ve işlem yükünü kaldırıp kaldırmayacağından emin olmak için kullanılır. Performans ayarı, genellikle ETL sistemindeki sunucu tarafı iş yükünü içerir. Çok kullanıcılı ortamda sunucu yanıtını test etmek ve darboğazları bulmak için kullanılır. Bunlar kaynak ve hedef sistemlerde, sistemlerin haritalamasında, oturum yönetimi özellikleri gibi yapılandırmada vb. Bulunabilir.

ETL Test Performans Ayarı Nasıl Yapılır?

ETL testi performans ayarlaması yapmak için aşağıda verilen adımları izleyin -

  • Step 1 - Üretimde dönüştürülen yükü bulun.

  • Step 2 - Aynı yükün yeni verilerini oluşturun veya Üretim verilerinden yerel performans sunucunuza taşıyın.

  • Step 3 - Gereken yükü oluşturana kadar ETL'yi devre dışı bırakın.

  • Step 4 - Veritabanı tablolarından gerekli verilerin sayısını alın.

  • Step 5- ETL'nin son çalışmasını not edin ve ETL'yi etkinleştirin, böylece oluşturulan tüm yükü dönüştürmek için yeterli stres alacaktır. Çalıştır

  • Step 6 - ETL çalışmasını tamamladıktan sonra, oluşturulan verilerin sayısını alın.

Anahtar Performans Göstergeleri

  • Yükü dönüştürmek için geçen toplam süreyi öğrenin.
  • Performans süresinin iyileşip iyileşmediğini öğrenin.
  • Beklenen yükün tamamının çıkarılıp aktarıldığını kontrol edin.

ETL testinin amacı güvenilir verilere ulaşmaktır. Veri güvenilirliği, test döngüsünü daha etkili hale getirerek elde edilebilir.

Kapsamlı bir test stratejisi, etkili bir test döngüsünün oluşturulmasıdır. Test stratejisi, veriler her taşındığında ETL sürecinin her aşaması için test planlamasını kapsamalı ve iş analistleri, altyapı ekibi, QA ekibi, DBA'lar, Geliştiriciler ve İş Kullanıcıları gibi her bir paydaşın sorumluluklarını belirtmelidir.

Her yönden teste hazır olmayı sağlamak için, bir test stratejisinin odaklanması gereken temel alanlar şunlardır:

  • Test kapsamı - Kullanılacak test tekniklerini ve türlerini açıklayın.

  • Test ortamını kurma.

  • Test verileri kullanılabilirliği - Tüm / kritik iş gereksinimlerini kapsayan veriler gibi üretim yapılması önerilir.

  • Veri kalitesi ve performans kabul kriterleri.

ETL testinde, verilerin beklentiye göre hedef sisteme doğru bir şekilde yüklenmesini sağlamak için veri doğruluğu kullanılır. Veri doğruluğunu gerçekleştirmenin temel adımları aşağıdaki gibidir -

Değer Karşılaştırması

Değer karşılaştırması, kaynak ve hedef sistemdeki verilerin minimum dönüşümle veya dönüşümsüz olarak karşılaştırılmasını içerir. Çeşitli ETL Test araçları kullanılarak yapılabilir, örneğin Informatica'daki Source Qualifier Transformation.

Veri doğruluğu testinde bazı ifade dönüşümleri de gerçekleştirilebilir. Kaynak ve hedef sistemlerde veri doğruluğunu kontrol etmek için SQL ifadelerinde çeşitli set operatörleri kullanılabilir. Yaygın operatörler, Eksi ve Kesişim operatörleridir. Bu operatörlerin sonuçları, hedef ve kaynak sistemdeki değerdeki sapma olarak kabul edilebilir.

Kritik Veri Sütunlarını Kontrol Edin

Kritik veri sütunları, kaynak ve hedef sistemlerdeki farklı değerler karşılaştırılarak kontrol edilebilir. Kritik veri sütunlarını kontrol etmek için kullanılabilecek örnek bir sorgu:

SELECT cust_name, Order_Id, city, count(*) FROM customer 
GROUP BY cust_name, Order_Id, city;

Metadatayı kontrol etmek, kaynağın ve eşleme belgesini saran hedef tablo yapısının doğrulanmasını içerir. Eşleme belgesi, kaynak ve hedef sütunların, veri dönüştürme kurallarının ve veri türlerinin, kaynak ve hedef sistemlerdeki tabloların yapısını tanımlayan tüm alanların ayrıntılarını içerir.

Veri Uzunluğu Kontrolü

Hedef sütun veri türünün uzunluğu, kaynak sütun veri türüne eşit veya bundan büyük olmalıdır. Bir örnek ele alalım. Kaynak tabloda adlarınız ve soyadlarınız olduğunu ve her biri için veri uzunluğunun 50 karakter olarak tanımlandığını varsayalım. Ardından, hedef sistemdeki tam ad sütunu için hedef veri uzunluğu minimum 100 veya daha fazla olmalıdır.

Veri Türü Kontrolü

Veri türü kontrolü, kaynağı ve hedef veri türünü doğrulamayı ve aynı olduklarından emin olmayı içerir. Hedef veri türünün, bir dönüşümden sonra kaynak verilerden farklı olma olasılığı vardır. Dolayısıyla, dönüşüm kurallarının da kontrol edilmesine ihtiyaç vardır.

Kısıtlama / Dizin Kontrolü

Kısıtlama kontrolü, tasarım şartname belgesine göre indeks değerlerinin ve kısıtlamalarının doğrulanmasını içerir. Null değerlere sahip olamayan tüm sütunlar Boş Değil kısıtlamasına sahip olmalıdır. Birincil anahtar sütunları, tasarım belgesine göre dizine alınır.

Tek bir SQL sorgusu yazarak ve ardından çıktıyı hedefle karşılaştırarak elde edilemeyeceğinden, veri dönüşümlerini gerçekleştirmek biraz karmaşıktır. ETL Test Veri Dönüştürme için, dönüştürme kurallarını doğrulamak üzere her satır için birden çok SQL sorgusu yazmanız gerekebilir.

Başlangıç ​​olarak, kaynak verilerin tüm dönüşüm kurallarını test etmek için yeterli olduğundan emin olun. Veri dönüşümleri için başarılı bir ETL testi gerçekleştirmenin anahtarı, dönüşüm kurallarını uygulamak için kaynak sistemden doğru ve yeterli örnek verileri seçmektir.

ETL Testi Veri Dönüşümü için temel adımlar aşağıda listelenmiştir -

  • İlk adım, girdi verilerinin ve beklenen sonuçların senaryolarının bir listesini oluşturmak ve bunları iş müşterisiyle doğrulamaktır. Bu, tasarım sırasında gereksinimlerin toplanması için iyi bir yaklaşımdır ve testin bir parçası olarak da kullanılabilir.

  • Sonraki adım, tüm senaryoları içeren test verilerini oluşturmaktır. Senaryoların değişme olasılığı nedeniyle çok yönlülüğe ve hareketliliğe izin vermek için veri setlerini senaryo elektronik tablosu ile doldurma sürecini otomatikleştirmek için bir ETL geliştiricisinden yararlanın.

  • Ardından, her alandaki değerlerin aralığını ve gönderimini hedef ve kaynak veriler arasında karşılaştırmak için veri profili oluşturma sonuçlarını kullanın.

  • ETL tarafından üretilen alanların, örneğin yedek anahtarların doğru işlenmesini doğrulayın.

  • Depo içindeki veri türlerinin doğrulanması, veri modeli veya tasarımda belirtilenle aynıdır.

  • Bilgi tutarlılığını test eden tablolar arasında veri senaryoları oluşturun.

  • Verilerdeki ebeveyn-çocuk ilişkilerini doğrulayın.

  • Son adım, gerçekleştirmek lookup transformation. Arama sorgunuz herhangi bir toplama olmadan düz olmalı ve kaynak tablo başına yalnızca bir değer döndürmesi beklenmelidir. Önceki testte olduğu gibi kaynak niteleyicideki arama tablosuna doğrudan katılabilirsiniz. Durum böyle değilse, arama tablosunu kaynaktaki ana tabloyla birleştiren bir sorgu yazın ve hedefteki ilgili sütunlardaki verileri karşılaştırın.

ETL testi sırasında veri kalitesinin kontrol edilmesi, hedef sisteme yüklenen veriler üzerinde kalite kontrollerinin yapılmasını içerir. Aşağıdaki testleri içerir -

Numara kontrolü

Sayı biçimi, hedef sistem genelinde aynı olmalıdır. Örneğin, kaynak sistemde, sütunların numaralandırma biçimi şu şekildedir:x.30, ancak hedef yalnızca 30, o zaman önek değil yüklemelidir x. hedef sütun numarasında.

Tarih Kontrolü

Tarih biçimi hem kaynak hem de hedef sistemlerde tutarlı olmalıdır. Örneğin, tüm kayıtlarda aynı olmalıdır. Standart biçim: yyyy-aa-gg.

Hassaslık Kontrolü

Kesinlik değeri, hedef tabloda beklendiği gibi görüntülenmelidir. Örneğin, kaynak tabloda değer 15,2323422'dir, ancak hedef tabloda 15,23 veya tur 15 olarak görüntülenmelidir.

Veri Kontrolü

Verilerin iş gereksinimlerine göre kontrol edilmesini içerir. Belirli kriterleri karşılamayan kayıtlar filtrelenmelidir.

Example - Hedef tabloya yalnızca date_id> = 2015 ve Account_Id! = '001' yüklenmelidir.

Boş Kontrol

Bazı sütunlarda, gereksinime ve bu alan için olası değerlere göre Null olmalıdır.

Example - Bitiş Tarihi sütunu, Aktif durum Sütunu "T" veya "Ölen" olmadıkça ve oluncaya kadar Boş göstermelidir.

Diğer Kontroller

From_Date gibi genel kontroller To_Date'ten büyük olmamalıdır.

Veri Tamlığının Kontrolü, hedef sistemdeki verilerin yüklemeden sonra beklentiye uygun olduğunu doğrulamak için yapılır.

Bunun için yapılabilecek yaygın testler aşağıdaki gibidir -

  • Agrega fonksiyonlarını kontrol etmek (toplam, maks, min, say),

  • Dönüşümler olmadan veya basit dönüştürmelerle sütunlar için kaynak ile hedef arasındaki sayımları ve gerçek verileri kontrol etme ve doğrulama.

Sayım Doğrulaması

Kaynaktaki ve hedef tablolardaki kayıtların sayısını karşılaştırın. Aşağıdaki sorguları yazarak yapılabilir -

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Veri Profili Doğrulaması

Kaynak ve hedef tablolarda (olgu veya boyut) sayım, toplam ve maksimum gibi toplama işlevlerinin kontrol edilmesini içerir.

Sütun Veri Profili Doğrulaması

Her farklı değer için farklı değerlerin ve satır sayısının karşılaştırılmasını içerir.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Yinelenen Veri Doğrulaması

Bir sütundaki birincil anahtarın ve benzersiz anahtarın veya iş gereksinimlerine göre benzersiz olması gereken sütunların kombinasyonunun doğrulanmasını içerir. Yinelenen veri doğrulaması yapmak için aşağıdaki sorguyu kullanabilirsiniz -

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;

Bir sistem için yedek kurtarma, sistemin bir arızadan mümkün olan en kısa sürede geri yüklenmesini ve işlemlerin herhangi bir önemli veri kaybetmeden mümkün olan en kısa sürede devam etmesini sağlamak için planlanır.

ETL Yedekleme kurtarma testi, Veri Ambarı sisteminin donanımdan, yazılımdan veya herhangi bir veri kaybıyla bir ağ arızasından başarıyla kurtarılmasını sağlamak için kullanılır.

Maksimum sistem kullanılabilirliğini sağlamak için uygun bir yedekleme planı hazırlanmalıdır. Yedekleme sistemleri kolaylıkla geri yüklenebilmeli ve arızalı sistemi herhangi bir veri kaybı olmadan devralmalıdır.

ETL Testi Yedek kurtarma, herhangi bir donanım bileşeni, yazılım çökmesi vb. İçin uygulamanın veya DW sisteminin aşırı koşullara maruz bırakılmasını içerir. Bir sonraki adım, kurtarma işleminin başlatıldığından, sistem doğrulamasının yapıldığından ve veri kurtarmanın gerçekleştirildiğinden emin olmaktır.

ETL testi çoğunlukla SQL betikleri kullanılarak ve verileri elektronik tablolarda toplanarak yapılır. ETL testini gerçekleştirmeye yönelik bu yaklaşım çok yavaş ve zaman alıcıdır, hataya açıktır ve örnek veriler üzerinde gerçekleştirilir.

Manuel ETL Testinde Teknik Zorluk

ETL test ekibiniz, bir ambar sistemindeki verileri test etmek için SQL sorguları yazar ve bunları bir SQL düzenleyicisi kullanarak manuel olarak yürütmeleri ve ardından verileri bir Excel elektronik tablosuna yerleştirip manuel olarak karşılaştırmaları gerekir. Bu süreç zaman alıcıdır, yoğun kaynak gerektirir ve verimsizdir.

Piyasada bu süreci otomatikleştirmek için çeşitli araçlar bulunmaktadır. En yaygın ETL Test araçları QuerySurge ve Informatica Data Validation'dır.

QuerySurge

QuerySurge, Büyük Verileri, Veri Ambarlarını ve ETL sürecini test etmek için tasarlanmış bir veri test çözümüdür. Tüm süreci sizin için otomatikleştirebilir ve DevOps stratejinize güzel bir şekilde uyabilir.

QuerySurge'un temel özellikleri aşağıdaki gibidir -

  • Kullanıcı herhangi bir SQL yazmak zorunda kalmadan test QueryPairs'i hızlı ve kolay bir şekilde oluşturmak için Query Wizards'a sahiptir.

  • Yeniden kullanılabilir Sorgu Parçacıkları içeren bir Tasarım Kitaplığı vardır. Ayrıca özel QueryPairs de oluşturabilirsiniz.

  • Kaynak dosyalardan ve veri depolarından gelen verileri hedef Veri Ambarı veya Büyük Veri deposuyla karşılaştırabilir.

  • Milyonlarca veri satırını ve sütununu dakikalar içinde karşılaştırabilir.

  • Kullanıcının testleri (1) hemen, (2) herhangi bir tarih / saatte veya (3) bir olay bittikten sonra otomatik olarak çalıştırmasını planlamasına olanak tanır.

  • Bilgilendirici raporlar üretebilir, güncellemeleri görüntüleyebilir ve sonuçları ekibinize otomatik olarak e-postayla gönderebilir.

Tüm süreci otomatikleştirmek için, ETL aracınız, ETL yazılımı yükleme işlemini tamamladıktan sonra komut satırı API'si aracılığıyla QuerySurge'u başlatmalıdır.

QuerySurge, otomatik olarak ve gözetimsiz olarak çalışır, tüm testleri yürütür ve ardından sonuçları takımdaki herkese e-posta ile gönderir.

Tıpkı QuerySurge gibi, Informatica Data Validation, geliştirme ve üretim ortamında ETL test sürecini hızlandırmanıza ve otomatikleştirmenize yardımcı olan bir ETL test aracı sağlar. Daha kısa sürede eksiksiz, tekrarlanabilir ve denetlenebilir test kapsamı sunmanıza olanak tanır. Programlama becerisi gerektirmez!

Bir veri ambarı sistemini veya bir BI uygulamasını test etmek için, veri merkezli bir yaklaşıma ihtiyaç vardır. ETL Testi en iyi uygulamaları, testi gerçekleştirmek için gereken maliyeti ve zamanı en aza indirmeye yardımcı olur. Son kullanıcılar için yüksek kaliteli gösterge tabloları ve raporlar üreten hedef sisteme yüklenecek verilerin kalitesini artırır.

ETL Testi için izlenebilecek birkaç en iyi uygulamayı burada listeledik -

Verileri Analiz Edin

Doğru bir veri modeli oluşturmak için gereksinimleri anlamak için verileri analiz etmek son derece önemlidir. Gereksinimleri anlamak için zaman harcamak ve hedef sistem için doğru bir veri modeline sahip olmak, ETL zorluklarını azaltabilir. ETL modülleri için kaynak sistemleri, veri kalitesini incelemek ve doğru veri doğrulama kurallarını oluşturmak da önemlidir. Kaynak ve hedef sistemlerin veri yapısına dayalı olarak bir ETL stratejisi formüle edilmelidir.

Kaynak Sistemdeki Kötü Verileri Düzeltin

Son kullanıcılar normalde veri sorunlarının farkındadır, ancak bunları nasıl düzeltecekleri konusunda hiçbir fikirleri yoktur. ETL sistemine ulaşmadan önce bu hataları bulmak ve düzeltmek önemlidir. Bunu çözmenin yaygın bir yolu ETL yürütme süresidir, ancak en iyi uygulama, kaynak sistemdeki hataları bulmak ve bunları kaynak sistem düzeyinde düzeltmek için adımlar atmaktır.

Uyumlu Bir ETL Aracı Bulun

En iyi yaygın ETL uygulamalarından biri, kaynak ve hedef sistemlerle en uyumlu olan aracı seçmektir. ETL aracının kaynak ve hedef sistemler için SQL komut dosyaları oluşturma yeteneği, işlem süresini ve kaynakları azaltabilir. Ortamın herhangi bir yerinde en uygun dönüşümü işlemeye izin verir.

ETL İşlerini İzleme

ETL uygulaması sırasında bir başka en iyi uygulama, yüklerin beklentilere göre gerçekleştirilmesini sağlamak için ETL işlerinin planlanması, denetlenmesi ve izlenmesidir.

Artımlı Verileri Entegre Edin

Bazen veri ambarı tablolarının boyutu daha büyüktür ve her ETL döngüsü sırasında bunları yenilemek mümkün değildir. Artımlı yükler, yalnızca son güncellemeden bu yana değiştirilen kayıtların ETL sürecine alınmasını sağlar ve ölçeklenebilirlik ve sistemi yenilemek için geçen süre üzerinde büyük bir etki yaratır.

Normalde kaynak sistemlerin zaman damgaları veya değişiklikleri kolayca tanımlamak için bir birincil anahtarı yoktur. Projenin sonraki aşamalarında tespit edilirse, bu tür sorunlar çok maliyetli olabilir. En iyi ETL uygulamalarından biri, bu tür yönleri ilk kaynak sistemi çalışmasında ele almaktır. Bu bilgi, ETL ekibinin değişen veri yakalama sorunlarını belirlemesine ve en uygun stratejiyi belirlemesine yardımcı olur.

Ölçeklenebilirlik

Sunulan ETL çözümünün ölçeklenebilir olduğundan emin olmak en iyi uygulamadır. Uygulama sırasında, ETL çözümünün iş gereksinimleriyle ve gelecekteki potansiyel büyümesiyle ölçeklenebilir olduğundan emin olunmalıdır.