ETL-소개

ETL은 추출, 변환 및로드를 나타냅니다. ETL 도구는 다른 RDBMS 소스 시스템에서 데이터를 추출하고 계산 적용, 연결 등과 같은 데이터를 변환 한 다음 데이터를 데이터웨어 하우스 시스템에로드합니다. 데이터는 차원 및 팩트 테이블의 형태로 DW 시스템에로드됩니다.

추출

  • ETL로드 중에 스테이징 영역이 필요합니다. 스테이징 영역이 필요한 이유는 여러 가지가 있습니다.

  • 소스 시스템은 특정 기간 동안 만 데이터를 추출 할 수 있습니다. 이 기간은 총 데이터로드 시간보다 짧습니다. 따라서 스테이징 영역을 사용하면 소스 시스템에서 데이터를 추출하고 시간 슬롯이 끝나기 전에 스테이징 영역에 보관할 수 있습니다.

  • 여러 데이터 소스에서 데이터를 함께 가져 오거나 둘 이상의 시스템을 결합하려는 경우 스테이징 영역이 필요합니다. 예를 들어 물리적으로 다른 두 데이터베이스의 두 테이블을 결합하는 SQL 쿼리를 수행 할 수 없습니다.

  • 다른 시스템에 대한 데이터 추출의 시간 슬롯은 시간대 및 운영 시간에 따라 다릅니다.

  • 소스 시스템에서 추출한 데이터는 여러 데이터웨어 하우스 시스템, 운영 데이터 저장소 등에서 사용할 수 있습니다.

  • ETL을 사용하면 복잡한 변환을 수행 할 수 있으며 데이터를 저장할 추가 영역이 필요합니다.

변환

데이터 변환에서 추출 된 데이터에 함수 세트를 적용하여 대상 시스템에로드합니다. 변환이 필요하지 않은 데이터를 직접 이동 또는 데이터 통과라고합니다.

소스 시스템에서 추출 된 데이터에 다른 변환을 적용 할 수 있습니다. 예를 들어 사용자 정의 계산을 수행 할 수 있습니다. 총 판매 수익을 원하고 이것이 데이터베이스에없는 경우 다음을 적용 할 수 있습니다.SUM 수식을 변환하고 데이터를로드합니다.

예를 들어 다른 열의 테이블에 이름과 성이있는 경우로드하기 전에 연결을 사용할 수 있습니다.

하중

로드 단계 동안 데이터는 최종 대상 시스템으로로드되며 플랫 파일 또는 데이터웨어 하우스 시스템 일 수 있습니다.