Data Warehousing - Terminologias
Neste capítulo, discutiremos alguns dos termos mais comumente usados em armazenamento de dados.
Metadados
Metadados são simplesmente definidos como dados sobre dados. Os dados usados para representar outros dados são conhecidos como metadados. Por exemplo, o índice de um livro serve como metadado para o conteúdo do livro. Em outras palavras, podemos dizer que metadados são os dados resumidos que nos conduzem aos dados detalhados.
Em termos de data warehouse, podemos definir metadados da seguinte forma -
Metadados são um roteiro para o data warehouse.
Os metadados no data warehouse definem os objetos do warehouse.
Os metadados atuam como um diretório. Este diretório ajuda o sistema de suporte à decisão a localizar o conteúdo de um data warehouse.
Repositório de Metadados
O repositório de metadados é parte integrante de um sistema de data warehouse. Ele contém os seguintes metadados -
Business metadata - Contém as informações de propriedade dos dados, definição de negócios e políticas de alteração.
Operational metadata- Inclui moeda de dados e linhagem de dados. A moeda dos dados refere-se aos dados sendo ativos, arquivados ou eliminados. Linhagem de dados significa histórico de dados migrados e transformação aplicada a eles.
Data for mapping from operational environment to data warehouse - Os metadados incluem bancos de dados de origem e seu conteúdo, extração de dados, partição de dados, limpeza, regras de transformação, atualização de dados e regras de eliminação.
The algorithms for summarization - Inclui algoritmos de dimensão, dados sobre granularidade, agregação, resumo, etc.
Cubo de dados
Um cubo de dados nos ajuda a representar dados em várias dimensões. É definido por dimensões e fatos. As dimensões são as entidades com relação às quais uma empresa preserva os registros.
Ilustração do cubo de dados
Suponha que uma empresa deseja manter o controle dos registros de vendas com a ajuda do data warehouse de vendas com relação ao tempo, item, filial e localização. Essas dimensões permitem acompanhar as vendas mensais e em qual filial os itens foram vendidos. Existe uma tabela associada a cada dimensão. Esta tabela é conhecida como tabela de dimensões. Por exemplo, a tabela de dimensão "item" pode ter atributos como item_name, item_type e item_brand.
A tabela a seguir representa a visão 2-D dos dados de vendas de uma empresa em relação às dimensões de tempo, item e local.
Mas aqui nesta tabela 2-D, temos registros apenas com respeito ao tempo e item. As vendas de Nova Delhi são mostradas em relação ao tempo e dimensões do item de acordo com o tipo de item vendido. Se quisermos visualizar os dados de vendas com mais uma dimensão, digamos, a dimensão local, a visualização 3D seria útil. A visualização 3-D dos dados de vendas em relação ao tempo, item e localização é mostrada na tabela abaixo -
A tabela 3-D acima pode ser representada como cubo de dados 3-D, conforme mostrado na figura a seguir -
Data Mart
Data marts contêm um subconjunto de dados de toda a organização que são valiosos para grupos específicos de pessoas em uma organização. Em outras palavras, um data mart contém apenas os dados específicos de um determinado grupo. Por exemplo, o data mart de marketing pode conter apenas dados relacionados a itens, clientes e vendas. Data marts são limitados a assuntos.
Pontos a serem lembrados sobre data marts
Servidores baseados em Windows ou em Unix / Linux são usados para implementar data marts. Eles são implementados em servidores de baixo custo.
O ciclo de implementação de um data mart é medido em curtos períodos de tempo, ou seja, em semanas ao invés de meses ou anos.
O ciclo de vida dos data marts pode ser complexo no longo prazo, se seu planejamento e design não forem para toda a organização.
Os data marts são pequenos.
Data marts são personalizados por departamento.
A origem de um data mart é um data warehouse estruturado por departamento.
Data marts são flexíveis.
A figura a seguir mostra uma representação gráfica de data marts.
Armazém Virtual
A visão de um armazém de dados operacional é conhecida como armazém virtual. É fácil construir um warehouse virtual. Construir um armazém virtual requer capacidade excessiva em servidores de banco de dados operacionais.