Data Mining - Avaliação
Armazém de dados
Um data warehouse exibe as seguintes características para apoiar o processo de tomada de decisão da gestão -
Subject Oriented- O data warehouse é orientado por assunto porque nos fornece as informações em torno de um assunto, em vez das operações em andamento da organização. Esses assuntos podem ser produtos, clientes, fornecedores, vendas, receitas, etc. O data warehouse não se concentra nas operações em andamento, mas sim na modelagem e análise de dados para a tomada de decisões.
Integrated - O data warehouse é construído pela integração de dados de fontes heterogêneas, como bancos de dados relacionais, arquivos simples, etc. Essa integração aprimora a análise eficaz dos dados.
Time Variant- Os dados coletados em um data warehouse são identificados com um determinado período de tempo. Os dados em um data warehouse fornecem informações de um ponto de vista histórico.
Non-volatile- Não volátil significa que os dados anteriores não são removidos quando novos dados são adicionados a eles. O data warehouse é mantido separado do banco de dados operacional, portanto, mudanças frequentes no banco de dados operacional não são refletidas no data warehouse.
Armazenamento de dados
O data warehouse é o processo de construção e uso do data warehouse. Um data warehouse é construído integrando os dados de várias fontes heterogêneas. Suporta relatórios analíticos, consultas estruturadas e / ou ad hoc e tomadas de decisão.
O data warehouse envolve limpeza de dados, integração de dados e consolidações de dados. Para integrar bancos de dados heterogêneos, temos as duas abordagens a seguir -
- Abordagem Orientada por Consulta
- Abordagem orientada para atualização
Abordagem baseada em consulta
Esta é a abordagem tradicional para integrar bancos de dados heterogêneos. Essa abordagem é usada para construir wrappers e integradores sobre vários bancos de dados heterogêneos. Esses integradores também são conhecidos como mediadores.
Processo de abordagem orientada a consultas
Quando uma consulta é emitida para um lado do cliente, um dicionário de metadados converte a consulta em consultas, apropriadas para o site heterogêneo individual envolvido.
Agora, essas consultas são mapeadas e enviadas para o processador de consultas local.
Os resultados de sites heterogêneos são integrados em um conjunto de respostas global.
Desvantagens
Essa abordagem tem as seguintes desvantagens -
A Abordagem Orientada por Consulta precisa de processos complexos de integração e filtragem.
É muito ineficiente e muito caro para consultas frequentes.
Essa abordagem é cara para consultas que requerem agregações.
Abordagem baseada em atualização
Os sistemas de data warehouse de hoje seguem uma abordagem baseada em atualizações, em vez da abordagem tradicional discutida anteriormente. Na abordagem baseada em atualização, as informações de várias fontes heterogêneas são integradas antecipadamente e armazenadas em um warehouse. Essas informações estão disponíveis para consulta e análise direta.
Vantagens
Essa abordagem tem as seguintes vantagens -
Essa abordagem oferece alto desempenho.
Os dados podem ser copiados, processados, integrados, anotados, resumidos e reestruturados no armazenamento de dados semânticos com antecedência.
O processamento da consulta não requer interface com o processamento nas fontes locais.
De Data Warehousing (OLAP) a Data Mining (OLAM)
Online Analytical Mining integra-se com Online Analytical Processing com data mining e conhecimento de mineração em bancos de dados multidimensionais. Aqui está o diagrama que mostra a integração de OLAP e OLAM -
Importância do OLAM
OLAM é importante pelas seguintes razões -
High quality of data in data warehouses- As ferramentas de mineração de dados são necessárias para trabalhar com dados integrados, consistentes e limpos. Essas etapas são muito caras no pré-processamento de dados. Os data warehouses construídos por esse pré-processamento são fontes valiosas de dados de alta qualidade para OLAP e mineração de dados também.
Available information processing infrastructure surrounding data warehouses - A infraestrutura de processamento de informações se refere ao acesso, integração, consolidação e transformação de vários bancos de dados heterogêneos, acesso à web e facilidades de serviço, relatórios e ferramentas de análise OLAP.
OLAP−based exploratory data analysis- A análise exploratória de dados é necessária para a mineração de dados eficaz. OLAM fornece facilidade para mineração de dados em vários subconjuntos de dados e em diferentes níveis de abstração.
Online selection of data mining functions - A integração do OLAP com várias funções de mineração de dados e mineração analítica online fornece aos usuários a flexibilidade de selecionar as funções de mineração de dados desejadas e trocar tarefas de mineração de dados dinamicamente.