OBIEE – 스키마

스키마는 전체 데이터베이스에 대한 논리적 설명입니다. 여기에는 모든 관련 데이터 항목 및 집계를 포함한 모든 유형의 레코드 이름과 설명이 포함됩니다. 데이터베이스와 마찬가지로 DW도 스키마를 유지해야합니다. 데이터베이스는 관계형 모델을 사용하는 반면 DW는 Star, Snowflake 및 Fact Constellation 스키마 (Galaxy 스키마)를 사용합니다.

스타 스키마

스타 스키마에는 하나의 팩트 테이블에만 조인되는 비정규 화 된 형식의 여러 차원 테이블이 있습니다. 이러한 테이블은 분석 목적의 일부 비즈니스 요구 사항을 충족하기 위해 논리적 방식으로 조인됩니다. 이러한 스키마는 BI보고 도구를 사용하여 보고서를 만드는 데 사용되는 다차원 구조입니다.

스타 스키마의 차원에는 속성 세트가 포함되고 팩트 테이블에는 모든 차원 및 측정 값에 대한 외래 키가 포함됩니다.

위의 스타 스키마에서 중앙에 "Sales Fact"팩트 테이블이 있으며 기본 키를 사용하여 4 개의 차원 테이블에 조인됩니다. 차원 테이블은 더 이상 정규화되지 않으며 이러한 테이블 조인을 DW에서 스타 스키마라고합니다.

팩트 테이블에는 또한 측정 값 (달러 판매량 및 판매량 단위)이 포함되어 있습니다.

눈송이 스키마

Snowflakes 스키마에는 하나의 팩트 테이블에만 조인 된 정규화 된 형식의 여러 차원 테이블이 있습니다. 이러한 테이블은 분석 목적의 일부 비즈니스 요구 사항을 충족하기 위해 논리적 방식으로 조인됩니다.

Star와 Snowflakes 스키마의 유일한 차이점은 차원 테이블이 추가로 정규화된다는 것입니다. 정규화는 데이터를 추가 테이블로 분할합니다. Snowflake 스키마의 정규화로 인해 정보 손실없이 데이터 중복성이 줄어들 기 때문에 유지 관리가 쉬워지고 저장 공간이 절약됩니다.

위의 Snowflakes 스키마 예에서 Product 및 Customer 테이블은 저장 공간을 절약하기 위해 추가로 정규화됩니다. 때로는 정규화 된 테이블에서 행을 직접 처리해야하는 쿼리를 실행할 때 성능 최적화를 제공하므로 기본 차원 테이블의 행을 처리하지 않고 스키마의 정규화 된 테이블로 직접 제공됩니다.

세분성

테이블의 세분성은 테이블에 저장된 정보의 수준을 나타냅니다. 데이터의 세분화가 높다는 것은 데이터가 트랜잭션 수준에 있거나 그 수준에 가깝다는 것을 의미하며 더 자세한 정보가 있습니다. 세분성이 낮다는 것은 데이터의 정보 수준이 낮음을 의미합니다.

사실 테이블은 일반적으로 낮은 수준의 세분성으로 설계됩니다. 이는 사실 테이블에 저장할 수있는 가장 낮은 수준의 정보를 찾아야 함을 의미합니다. 날짜 차원에서 세분성 수준은 년, 월, 분기, 기간, 주 및 일이 될 수 있습니다.

세분성을 정의하는 과정은 두 단계로 구성됩니다.

  • 포함 할 차원 결정.
  • 정보의 각 차원의 계층 구조를 배치 할 위치를 결정합니다.

천천히 변화하는 차원

천천히 변하는 차원은 시간이 지남에 따라 속성 값이 변하는 것을 말합니다. DW의 일반적인 개념 중 하나입니다.

Andy는 XYZ Inc.의 직원입니다. 그는 2015 년 7 월 뉴욕에서 처음 근무했습니다. 직원 조회 테이블의 원래 항목에는 다음과 같은 기록이 있습니다.

직원 ID 10001
이름 앤디
위치 뉴욕

나중에 그는 캘리포니아 LA로 이사했습니다. XYZ Inc.는 이제이 변경 사항을 반영하기 위해 직원 테이블을 어떻게 수정해야합니까?

이를 "천천히 변화하는 차원"개념이라고합니다.

이러한 유형의 문제를 해결하는 방법에는 세 가지가 있습니다.

해결책 1

새 레코드가 원래 레코드를 대체합니다. 이전 레코드의 흔적이 없습니다.

천천히 변화하는 차원, 새 정보는 단순히 원래 정보를 덮어 씁니다. 즉, 기록이 유지되지 않습니다.

직원 ID 10001
이름 앤디
위치 LA, 캘리포니아
  • Benefit − 이전 정보를 추적 할 필요가 없기 때문에 느리게 변하는 차원 문제를 처리하는 가장 쉬운 방법입니다.

  • Disadvantage − 모든 기록 정보가 손실됩니다.

  • Use − DW가 과거 정보를 추적 할 필요가없는 경우 솔루션 1을 사용해야합니다.

해결 방법 2

Employee 차원 테이블에 새 레코드가 입력됩니다. 따라서 직원 Andy는 두 사람으로 취급됩니다.

새 정보를 나타내는 새 레코드가 테이블에 추가되고 원본 및 새 레코드가 모두 표시됩니다. 새 레코드는 다음과 같이 자체 기본 키를 얻습니다.

직원 ID 10001 10002
이름 앤디 앤디
위치 뉴욕 LA, 캘리포니아
  • Benefit −이 방법을 사용하면 모든 과거 정보를 저장할 수 있습니다.

  • Disadvantage− 테이블 크기가 빠르게 커집니다. 테이블의 행 수가 매우 많으면 테이블의 공간과 성능이 문제가 될 수 있습니다.

  • Use − DW가 과거 데이터를 유지해야하는 경우 솔루션 2를 사용해야합니다.

해결책 3

Employee 차원의 원래 레코드가 변경 사항을 반영하도록 수정됩니다.

특정 속성을 나타내는 두 개의 열이 있습니다. 하나는 원래 값을 나타내고 다른 하나는 새 값을 나타냅니다. 현재 값이 활성화되는시기를 나타내는 열도 있습니다.

직원 ID 이름 원래 위치 새로운 위치 이동 날짜
10001 앤디 뉴욕 LA, 캘리포니아 2015 년 7 월
  • Benefits− 이것은 새로운 정보가 업데이트되기 때문에 테이블의 크기를 증가시키지 않습니다. 이를 통해 역사적 정보를 유지할 수 있습니다.

  • Disadvantage −이 방법은 속성 값이 두 번 이상 변경 될 때 모든 이력을 유지하지 않습니다.

  • Use − 솔루션 3은 DW가 과거 변화 정보를 유지해야하는 경우에만 사용해야합니다.

표준화

정규화는 정보 손실없이 테이블을 덜 중복 된 작은 테이블로 분해하는 프로세스입니다. 따라서 데이터베이스 정규화는 데이터 중복 (중복 데이터)을 최소화하기 위해 데이터베이스의 속성과 테이블을 구성하는 프로세스입니다.

정규화의 목적

  • 일관성을 향상시키기 위해 특정 유형의 데이터 (중복 / 복제)를 제거하는 데 사용됩니다.

  • 객체 유형에 해당하는 테이블을 단순화 된 형태로 유지하여 향후 정보 요구 사항을 충족 할 수있는 최대한의 유연성을 제공합니다.

  • 더 명확하고 읽기 쉬운 데이터 모델을 생성합니다.

장점

  • 데이터 무결성.
  • 데이터 일관성을 향상시킵니다.
  • 데이터 중복과 필요한 공간을 줄입니다.
  • 업데이트 비용을 줄입니다.
  • 임시 쿼리에 대한 응답의 최대 유연성.
  • 블록 당 총 행 수를 줄입니다.

단점

여러 정규화 된 테이블에서 관련 데이터를 검색하려면 조인을 수행해야하므로 데이터베이스에서 쿼리 성능이 느립니다.

여러 테이블간에 적절한 조인을 수행하려면 데이터 모델을 이해해야합니다.

위의 예에서 녹색 블록 내부의 테이블은 빨간색 블록 내부의 정규화 된 테이블을 나타냅니다. 녹색 블록의 테이블은 중복이 적고 정보 손실없이 행 수가 적습니다.