Exploration de données - Thèmes
Fondements théoriques de l'exploration de données
Les fondements théoriques de l'exploration de données comprennent les concepts suivants -
Data Reduction- L'idée de base de cette théorie est de réduire la représentation des données qui troque la précision pour la vitesse en réponse à la nécessité d'obtenir des réponses approximatives rapides aux requêtes sur de très grandes bases de données. Certaines des techniques de réduction des données sont les suivantes -
Décomposition en valeurs singulières
Wavelets
Regression
Modèles log-linéaires
Histograms
Clustering
Sampling
Construction d'arbres d'index
Data Compression - L'idée de base de cette théorie est de compresser les données données en les encodant dans les termes suivants -
Bits
Règles d'association
Arbres de décision
Clusters
Pattern Discovery- L'idée de base de cette théorie est de découvrir des modèles se produisant dans une base de données. Voici les domaines qui contribuent à cette théorie -
Apprentissage automatique
Réseau neuronal
Association minière
Correspondance de motifs séquentiels
Clustering
Probability Theory- Cette théorie est basée sur la théorie statistique. L'idée de base derrière cette théorie est de découvrir des distributions de probabilité conjointes de variables aléatoires.
Probability Theory - Selon cette théorie, l'exploration de données ne trouve les modèles qui ne sont intéressants que dans la mesure où ils peuvent être utilisés dans le processus de prise de décision d'une entreprise.
Microeconomic View- Selon cette théorie, un schéma de base de données se compose de données et de modèles stockés dans une base de données. Par conséquent, l'exploration de données consiste à effectuer une induction sur des bases de données.
Inductive databases- Outre les techniques orientées base de données, il existe des techniques statistiques disponibles pour l'analyse des données. Ces techniques peuvent également être appliquées aux données scientifiques et aux données des sciences économiques et sociales.
Exploration de données statistiques
Certaines des techniques d'exploration de données statistiques sont les suivantes:
Regression- Les méthodes de régression sont utilisées pour prédire la valeur de la variable de réponse à partir d'une ou plusieurs variables prédictives où les variables sont numériques. Voici les formes de régression -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - Le modèle linéaire généralisé comprend -
Régression logistique
Régression de Poisson
La généralisation du modèle permet à une variable de réponse catégorielle d'être liée à un ensemble de variables prédictives d'une manière similaire à la modélisation d'une variable de réponse numérique à l'aide de la régression linéaire.
Analysis of Variance - Cette technique analyse -
Données expérimentales pour deux populations ou plus décrites par une variable de réponse numérique.
Une ou plusieurs variables catégorielles (facteurs).
Mixed-effect Models- Ces modèles sont utilisés pour analyser des données groupées. Ces modèles décrivent la relation entre une variable de réponse et certaines co-variables dans les données regroupées selon un ou plusieurs facteurs.
Factor Analysis- L'analyse factorielle est utilisée pour prédire une variable de réponse catégorielle. Cette méthode suppose que les variables indépendantes suivent une distribution normale multivariée.
Time Series Analysis - Voici les méthodes d'analyse des données chronologiques -
Méthodes d'auto-régression.
Modélisation univariée ARIMA (AutoRegressive Integrated Moving Average).
Modélisation de séries chronologiques à longue mémoire.
Exploration visuelle des données
Visual Data Mining utilise des techniques de visualisation de données et / ou de connaissances pour découvrir des connaissances implicites à partir de grands ensembles de données. L'exploration visuelle de données peut être considérée comme une intégration des disciplines suivantes -
Visualisation de données
Exploration de données
L'exploration visuelle de données est étroitement liée aux éléments suivants:
Infographie
Systèmes multimédias
Interaction homme machine
La reconnaissance de formes
Calcul haute performance
Généralement, la visualisation des données et l'exploration de données peuvent être intégrées des manières suivantes -
Data Visualization - Les données d'une base de données ou d'un data warehouse peuvent être visualisées sous plusieurs formes visuelles listées ci-dessous -
Boxplots
Cubes 3D
Graphiques de distribution des données
Curves
Surfaces
Lier des graphiques, etc.
Data Mining Result Visualization- La visualisation des résultats de l'exploration de données est la présentation des résultats de l'exploration de données sous des formes visuelles. Ces formes visuelles peuvent être des graphiques dispersés, des boîtes à moustaches, etc.
Data Mining Process Visualization- La visualisation des processus d'exploration de données présente les différents processus d'exploration de données. Il permet aux utilisateurs de voir comment les données sont extraites. Il permet également aux utilisateurs de voir à partir de quelle base de données ou entrepôt de données les données sont nettoyées, intégrées, prétraitées et extraites.
Exploration de données audio
L'exploration de données audio utilise des signaux audio pour indiquer les modèles de données ou les caractéristiques des résultats de l'exploration de données. En transformant des motifs en sons et en rêveries, nous pouvons écouter des notes et des airs, au lieu de regarder des images, afin d'identifier tout ce qui est intéressant.
Exploration de données et filtrage collaboratif
Les consommateurs rencontrent aujourd'hui une variété de produits et de services lorsqu'ils font leurs achats. Lors des transactions client en direct, un système de recommandation aide le consommateur en lui faisant des recommandations de produits. L'approche de filtrage collaboratif est généralement utilisée pour recommander des produits aux clients. Ces recommandations sont basées sur les opinions d'autres clients.