Data Warehousing - Visão geral
O termo "Data Warehouse" foi cunhado pela primeira vez por Bill Inmon em 1990. De acordo com Inmon, um data warehouse é uma coleção de dados orientada ao assunto, integrada, com variação no tempo e não volátil. Esses dados ajudam os analistas a tomar decisões informadas em uma organização.
Uma base de dados operacional sofre alterações frequentes diárias devido às transações que ocorrem. Suponha que um executivo de negócios deseja analisar feedback anterior sobre quaisquer dados, como um produto, um fornecedor ou quaisquer dados do consumidor, então o executivo não terá dados disponíveis para analisar porque os dados anteriores foram atualizados devido às transações.
Um data warehouses nos fornece dados generalizados e consolidados em uma visão multidimensional. Junto com a visão generalizada e consolidada dos dados, um data warehouses também nos fornece ferramentas de processamento analítico online (OLAP). Essas ferramentas nos ajudam na análise interativa e eficaz de dados em um espaço multidimensional. Essa análise resulta na generalização e mineração de dados.
As funções de mineração de dados, como associação, agrupamento, classificação e previsão, podem ser integradas às operações OLAP para aprimorar a mineração interativa de conhecimento em vários níveis de abstração. É por isso que o data warehouse agora se tornou uma plataforma importante para análise de dados e processamento analítico online.
Noções básicas sobre um data warehouse
Um data warehouse é um banco de dados, que é mantido separado do banco de dados operacional da organização.
Não há atualizações frequentes feitas em um data warehouse.
Possui dados históricos consolidados, que auxiliam a organização na análise de seus negócios.
Um data warehouse ajuda os executivos a organizar, entender e usar seus dados para tomar decisões estratégicas.
Os sistemas de data warehouse ajudam na integração da diversidade de sistemas de aplicativos.
Um sistema de data warehouse ajuda na análise consolidada de dados históricos.
Por que um data warehouse é separado de bancos de dados operacionais
Um data warehouse é mantido separado de bancos de dados operacionais devido aos seguintes motivos -
Um banco de dados operacional é construído para tarefas e cargas de trabalho bem conhecidas, como pesquisa de registros específicos, indexação, etc. No contrato, as consultas do data warehouse são frequentemente complexas e apresentam uma forma geral de dados.
Os bancos de dados operacionais suportam processamento simultâneo de várias transações. Os mecanismos de controle e recuperação de simultaneidade são necessários para bancos de dados operacionais para garantir robustez e consistência do banco de dados.
Uma consulta de banco de dados operacional permite ler e modificar operações, enquanto uma consulta OLAP precisa apenas read only acesso aos dados armazenados.
Um banco de dados operacional mantém os dados atuais. Por outro lado, um data warehouse mantém dados históricos.
Recursos de data warehouse
Os principais recursos de um data warehouse são discutidos abaixo -
Subject Oriented- Um data warehouse é orientado por assunto porque fornece informações sobre um assunto em vez das operações em andamento da organização. Esses assuntos podem ser produtos, clientes, fornecedores, vendas, receita, etc. Um data warehouse não se concentra nas operações em andamento, mas sim na modelagem e análise de dados para a tomada de decisões.
Integrated - Um data warehouse é construído integrando dados de fontes heterogêneas, como bancos de dados relacionais, arquivos simples, etc. Essa integração aprimora a análise eficaz dos dados.
Time Variant- Os dados coletados em um data warehouse são identificados com um determinado período de tempo. Os dados em um data warehouse fornecem informações do ponto de vista histórico.
Non-volatile- Não volátil significa que os dados anteriores não são apagados quando novos dados são adicionados a eles. Um data warehouse é mantido separado do banco de dados operacional e, portanto, mudanças frequentes no banco de dados operacional não são refletidas no data warehouse.
Note - Um data warehouse não requer processamento de transações, recuperação e controles de simultaneidade, porque é armazenado fisicamente e separado do banco de dados operacional.
Aplicativos de data warehouse
Conforme discutido antes, um data warehouse ajuda os executivos de negócios a organizar, analisar e usar seus dados para a tomada de decisões. Um data warehouse serve como parte exclusiva de um sistema de feedback de "ciclo fechado" de plano-execução-avaliação para o gerenciamento corporativo. Armazéns de dados são amplamente usados nos seguintes campos -
- Serviços financeiros
- Serviços bancários
- Bens de consumo
- Setores de varejo
- Manufatura controlada
Tipos de data warehouse
Processamento de informações, processamento analítico e mineração de dados são os três tipos de aplicativos de armazenamento de dados discutidos abaixo -
Information Processing- Um data warehouse permite processar os dados armazenados nele. Os dados podem ser processados por meio de consultas, análises estatísticas básicas, relatórios usando crosstabs, tabelas, gráficos ou gráficos.
Analytical Processing- Um data warehouse suporta o processamento analítico das informações nele armazenadas. Os dados podem ser analisados por meio de operações OLAP básicas, incluindo slice-and-dice, drill down, drill up e pivotamento.
Data Mining- A mineração de dados apóia a descoberta de conhecimento, encontrando padrões e associações ocultas, construindo modelos analíticos, realizando classificação e previsão. Esses resultados de mineração podem ser apresentados usando as ferramentas de visualização.
Sr. Não. | Data Warehouse (OLAP) | Banco de dados operacional (OLTP) |
---|---|---|
1 | Envolve processamento histórico de informações. | Envolve o processamento do dia-a-dia. |
2 | Os sistemas OLAP são usados por profissionais do conhecimento, como executivos, gerentes e analistas. | Os sistemas OLTP são usados por funcionários, DBAs ou profissionais de banco de dados. |
3 | É usado para analisar o negócio. | É usado para administrar o negócio. |
4 | Concentra-se na informação de saída. | Ele se concentra em dados em. |
5 | É baseado no esquema em estrela, esquema em floco de neve e esquema de constelação de fatos. | É baseado no modelo de relacionamento de entidades. |
6 | Concentra-se na informação de saída. | É orientado para a aplicação. |
7 | Ele contém dados históricos. | Ele contém dados atuais. |
8 | Ele fornece dados resumidos e consolidados. | Ele fornece dados primitivos e altamente detalhados. |
9 | Ele fornece uma visão resumida e multidimensional dos dados. | Ele fornece uma visão relacional detalhada e plana dos dados. |
10 | O número de usuários está na casa das centenas. | O número de usuários está em milhares. |
11 | O número de registros acessados está em milhões. | O número de registros acessados é em dezenas. |
12 | O tamanho do banco de dados é de 100 GB a 100 TB. | O tamanho do banco de dados é de 100 MB a 100 GB. |
13 | Eles são altamente flexíveis. | Ele oferece alto desempenho. |