Тестирование ETL - Введение
Данные в системе хранилища данных загружаются с помощью инструмента ETL (извлечение, преобразование, загрузка). Как следует из названия, он выполняет следующие три операции:
Извлекает данные из вашей транзакционной системы, которая может быть Oracle, Microsoft или любой другой реляционной базой данных,
Преобразует данные, выполняя операции очистки данных, а затем
Загружает данные в хранилище данных OLAP.
Вы также можете извлекать данные из плоских файлов, таких как электронные таблицы и файлы CSV, с помощью инструмента ETL и загружать их в хранилище данных OLAP для анализа данных и создания отчетов. Давайте рассмотрим пример, чтобы лучше понять это.
пример
Предположим, что есть производственная компания, имеющая несколько отделов, таких как продажи, HR, управление материальными потоками, EWM и т. Д. Все эти отделы имеют отдельные базы данных, которые они используют для хранения информации о своей работе, и каждая база данных имеет разные технологии, ландшафт, таблицу имена, столбцы и т. д. Теперь, если компания хочет анализировать исторические данные и создавать отчеты, все данные из этих источников данных должны быть извлечены и загружены в хранилище данных, чтобы сохранить их для аналитической работы.
Инструмент ETL извлекает данные из всех этих разнородных источников данных, преобразует данные (например, применяет вычисления, объединяет поля, ключи, удаляет неправильные поля данных и т. Д.) И загружает их в хранилище данных. Позже вы можете использовать различные инструменты бизнес-аналитики (BI) для создания содержательных отчетов, информационных панелей и визуализаций с использованием этих данных.
Разница между инструментами ETL и BI
Инструмент ETL используется для извлечения данных из различных источников данных, преобразования данных и загрузки их в систему DW; однако инструмент бизнес-аналитики используется для создания интерактивных и специальных отчетов для конечных пользователей, панели управления для высшего руководства, визуализации данных для ежемесячных, ежеквартальных и ежегодных собраний совета директоров.
Наиболее распространенные инструменты ETL включают в себя - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL с открытым исходным кодом и т. Д.
Некоторые популярные инструменты бизнес-аналитики: SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition и т. Д.
ETL процесс
Давайте теперь обсудим более подробно ключевые этапы процедуры ETL -
Извлечение данных
Он включает извлечение данных из разных разнородных источников данных. Извлечение данных из транзакционной системы зависит от требований и используемого инструмента ETL. Обычно это выполняется путем выполнения запланированных заданий в нерабочее время, например, выполнение заданий ночью или в выходные.
Преобразование данных
Он включает преобразование данных в подходящий формат, который можно легко загрузить в систему DW. Преобразование данных включает в себя применение вычислений, объединений и определение первичных и внешних ключей для данных. Например, если вам нужен% от общего дохода, которого нет в базе данных, вы примените формулу% при преобразовании и загрузите данные. Точно так же, если у вас есть имя и фамилия пользователей в разных столбцах, вы можете применить операцию конкатенации перед загрузкой данных. Некоторые данные не требуют преобразования; такие данные известны какdirect move или же pass through data.
Преобразование данных также включает исправление и очистку данных, удаление неверных данных, формирование неполных данных и исправление ошибок данных. Он также включает целостность данных и форматирование несовместимых данных перед их загрузкой в систему DW.
Загрузка данных в систему DW
Он включает в себя загрузку данных в систему DW для аналитической отчетности и информации. Целевая система может быть простым плоским файлом с разделителями или хранилищем данных.
Функция инструмента ETL
Типичное хранилище данных на основе инструментов ETL для выполнения своих функций использует промежуточную область, интеграцию данных и уровни доступа. Обычно это трехуровневая архитектура.
Staging Layer - Промежуточный уровень или промежуточная база данных используется для хранения данных, извлеченных из различных исходных систем данных.
Data Integration Layer - Уровень интеграции преобразует данные из промежуточного уровня и перемещает данные в базу данных, где данные организованы в иерархические группы, часто называемые dimensions, и в facts и aggregate facts. Комбинация таблиц фактов и измерений в системе DW называетсяschema.
Access Layer - Уровень доступа используется конечными пользователями для получения данных для аналитической отчетности и информации.
На следующем рисунке показано, как три слоя взаимодействуют друг с другом.