ETL - Введение
ETL расшифровывается как «Извлечь, преобразовать и загрузить». Инструмент ETL извлекает данные из различных исходных систем СУБД, преобразует данные, например, применяет вычисления, объединяет и т. Д., А затем загружает данные в систему хранилища данных. Данные загружаются в систему DW в виде таблиц измерений и фактов.
Добыча
Во время загрузки ETL требуется промежуточная область. Есть разные причины, по которым требуется плацдарм.
Исходные системы доступны только в течение определенного периода времени для извлечения данных. Этот период времени меньше, чем общее время загрузки данных. Таким образом, промежуточная область позволяет извлекать данные из исходной системы и сохранять их в промежуточной области до окончания временного интервала.
Промежуточная область требуется, когда вы хотите получить данные из нескольких источников вместе или если вы хотите объединить две или более систем вместе. Например, вы не сможете выполнить SQL-запрос, соединяющий две таблицы из двух физически разных баз данных.
Временной интервал извлечения данных для разных систем различается в зависимости от часового пояса и часов работы.
Данные, извлеченные из исходных систем, могут использоваться в нескольких системах хранилищ данных, хранилищах операционных данных и т. Д.
ETL позволяет выполнять сложные преобразования и требует дополнительной области для хранения данных.
Преобразовать
При преобразовании данных вы применяете набор функций к извлеченным данным, чтобы загрузить их в целевую систему. Данные, не требующие преобразования, называются прямым перемещением или передачей данных.
Вы можете применять различные преобразования к данным, извлеченным из исходной системы. Например, вы можете выполнять индивидуальные расчеты. Если вам нужна сумма выручки от продаж, а ее нет в базе данных, вы можете применитьSUM формулу во время преобразования и загрузите данные.
Например, если у вас есть имя и фамилия в таблице в разных столбцах, вы можете использовать объединение перед загрузкой.
Загрузить
На этапе загрузки данные загружаются в конечную целевую систему, и это может быть плоский файл или система хранилища данных.