Data Mining - Temas
Fundamentos teóricos da mineração de dados
Os fundamentos teóricos da mineração de dados incluem os seguintes conceitos -
Data Reduction- A ideia básica desta teoria é reduzir a representação de dados que troca precisão por velocidade em resposta à necessidade de obter respostas aproximadas rápidas a consultas em bancos de dados muito grandes. Algumas das técnicas de redução de dados são as seguintes -
Decomposição de valor singular
Wavelets
Regression
Modelos log-lineares
Histograms
Clustering
Sampling
Construção de Árvores de Índice
Data Compression - A ideia básica desta teoria é comprimir os dados fornecidos pela codificação nos termos do seguinte -
Bits
Regras de Associação
Árvores de decisão
Clusters
Pattern Discovery- A ideia básica desta teoria é descobrir padrões que ocorrem em um banco de dados. A seguir estão as áreas que contribuem para esta teoria -
Aprendizado de Máquina
Rede neural
Associação de Mineração
Correspondência de padrões sequenciais
Clustering
Probability Theory- Esta teoria é baseada na teoria estatística. A ideia básica por trás dessa teoria é descobrir distribuições de probabilidade conjuntas de variáveis aleatórias.
Probability Theory - De acordo com esta teoria, a mineração de dados encontra os padrões que são interessantes apenas na medida em que podem ser usados no processo de tomada de decisão de alguma empresa.
Microeconomic View- De acordo com esta teoria, um esquema de banco de dados consiste em dados e padrões que são armazenados em um banco de dados. Portanto, data mining é a tarefa de realizar indução em bancos de dados.
Inductive databases- Além das técnicas orientadas a banco de dados, existem técnicas estatísticas disponíveis para a análise de dados. Essas técnicas podem ser aplicadas a dados científicos e também a dados de ciências econômicas e sociais.
Mineração de dados estatísticos
Algumas das Técnicas de Mineração de Dados Estatísticos são as seguintes -
Regression- Os métodos de regressão são usados para prever o valor da variável de resposta de uma ou mais variáveis de previsão onde as variáveis são numéricas. Listadas abaixo estão as formas de regressão -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - O modelo linear generalizado inclui -
Regressão Logística
Regressão de Poisson
A generalização do modelo permite que uma variável de resposta categórica seja relacionada a um conjunto de variáveis preditoras de maneira semelhante à modelagem da variável de resposta numérica usando regressão linear.
Analysis of Variance - Esta técnica analisa -
Dados experimentais para duas ou mais populações descritas por uma variável de resposta numérica.
Uma ou mais variáveis categóricas (fatores).
Mixed-effect Models- Esses modelos são usados para analisar dados agrupados. Esses modelos descrevem a relação entre uma variável de resposta e algumas covariáveis nos dados agrupados de acordo com um ou mais fatores.
Factor Analysis- A análise fatorial é usada para prever uma variável de resposta categórica. Este método assume que as variáveis independentes seguem uma distribuição normal multivariada.
Time Series Analysis - A seguir estão os métodos para analisar dados de série temporal -
Métodos de auto-regressão.
Modelagem univariada ARIMA (AutoRegressive Integrated Moving Average).
Modelagem de séries temporais com memória longa.
Visual Data Mining
Visual Data Mining usa técnicas de visualização de dados e / ou conhecimento para descobrir o conhecimento implícito de grandes conjuntos de dados. A mineração de dados visual pode ser vista como uma integração das seguintes disciplinas -
Visualização de dados
Mineração de dados
A mineração de dados visuais está intimamente relacionada ao seguinte -
Computação Gráfica
Sistemas Multimídia
Interação Humano-Computador
Reconhecimento de padrões
Computação de alto desempenho
Geralmente, a visualização de dados e a mineração de dados podem ser integradas das seguintes maneiras -
Data Visualization - Os dados em um banco de dados ou armazém de dados podem ser visualizados em várias formas visuais que estão listadas abaixo -
Boxplots
Cubos 3-D
Gráficos de distribuição de dados
Curves
Surfaces
Gráficos de links etc.
Data Mining Result Visualization- Data Mining Result Visualization é a apresentação dos resultados da mineração de dados em formas visuais. Essas formas visuais podem ser gráficos dispersos, boxplots, etc.
Data Mining Process Visualization- Data Mining Process Visualization apresenta os diversos processos de data mining. Ele permite que os usuários vejam como os dados são extraídos. Também permite que os usuários vejam de qual banco de dados ou data warehouse os dados são limpos, integrados, pré-processados e extraídos.
Mineração de dados de áudio
A mineração de dados de áudio faz uso de sinais de áudio para indicar os padrões de dados ou os recursos dos resultados da mineração de dados. Ao transformar padrões em sons e reflexões, podemos ouvir tons e melodias, em vez de assistir a imagens, a fim de identificar algo interessante.
Mineração de dados e filtragem colaborativa
Os consumidores hoje encontram uma variedade de produtos e serviços enquanto fazem compras. Durante as transações do cliente ao vivo, um sistema de recomendação ajuda o consumidor fazendo recomendações de produtos. A abordagem de filtragem colaborativa é geralmente usada para recomendar produtos aos clientes. Essas recomendações são baseadas nas opiniões de outros clientes.