ETL - Введение

ETL расшифровывается как «Извлечь, преобразовать и загрузить». Инструмент ETL извлекает данные из различных исходных систем СУБД, преобразует данные, например, применяет вычисления, объединяет и т. Д., А затем загружает данные в систему хранилища данных. Данные загружаются в систему DW в виде таблиц измерений и фактов.

Добыча

  • Во время загрузки ETL требуется промежуточная область. Есть разные причины, по которым требуется плацдарм.

  • Исходные системы доступны только в течение определенного периода времени для извлечения данных. Этот период времени меньше, чем общее время загрузки данных. Таким образом, промежуточная область позволяет извлекать данные из исходной системы и сохранять их в промежуточной области до окончания временного интервала.

  • Промежуточная область требуется, когда вы хотите получить данные из нескольких источников вместе или если вы хотите объединить две или более систем вместе. Например, вы не сможете выполнить SQL-запрос, соединяющий две таблицы из двух физически разных баз данных.

  • Временной интервал извлечения данных для разных систем различается в зависимости от часового пояса и часов работы.

  • Данные, извлеченные из исходных систем, могут использоваться в нескольких системах хранилищ данных, хранилищах операционных данных и т. Д.

  • ETL позволяет выполнять сложные преобразования и требует дополнительной области для хранения данных.

Преобразовать

При преобразовании данных вы применяете набор функций к извлеченным данным, чтобы загрузить их в целевую систему. Данные, не требующие преобразования, называются прямым перемещением или передачей данных.

Вы можете применять различные преобразования к данным, извлеченным из исходной системы. Например, вы можете выполнять индивидуальные расчеты. Если вам нужна сумма выручки от продаж, а ее нет в базе данных, вы можете применитьSUM формулу во время преобразования и загрузите данные.

Например, если у вас есть имя и фамилия в таблице в разных столбцах, вы можете использовать объединение перед загрузкой.

Загрузить

На этапе загрузки данные загружаются в конечную целевую систему, и это может быть плоский файл или система хранилища данных.