Hadoop - Présentation du Big Data
«90% des données mondiales ont été générées ces dernières années.»
En raison de l'avènement des nouvelles technologies, appareils et moyens de communication tels que les sites de réseaux sociaux, la quantité de données produites par l'humanité augmente rapidement chaque année. La quantité de données que nous avons produites depuis le début des temps jusqu'en 2003 était de 5 milliards de gigaoctets. Si vous empilez les données sous forme de disques, cela peut remplir tout un terrain de football. Le même montant a été créé tous les deux jours en2011, et toutes les dix minutes en 2013. Ce taux continue de croître énormément. Bien que toutes ces informations produites soient significatives et puissent être utiles lorsqu'elles sont traitées, elles sont négligées.
Qu'est-ce que le Big Data?
Big dataest un ensemble de grands ensembles de données qui ne peuvent pas être traités à l'aide des techniques informatiques traditionnelles. Ce n'est pas une technique unique ou un outil, c'est plutôt devenu un sujet complet, qui implique divers outils, technqiues et cadres.
Que comprend le Big Data?
Le Big Data implique les données produites par différents appareils et applications. Vous trouverez ci-dessous certains des domaines qui relèvent du Big Data.
Black Box Data - Il s'agit d'un composant d'hélicoptère, d'avions et de jets, etc. Il capte les voix de l'équipage de conduite, les enregistrements des microphones et des écouteurs, et les informations sur les performances de l'avion.
Social Media Data - Les médias sociaux tels que Facebook et Twitter contiennent des informations et les opinions publiées par des millions de personnes à travers le monde.
Stock Exchange Data - Les données boursières contiennent des informations sur les décisions «d'achat» et de «vente» prises sur une part de différentes sociétés prises par les clients.
Power Grid Data - Les données du réseau électrique contiennent des informations consommées par un nœud particulier par rapport à une station de base.
Transport Data - Les données de transport comprennent le modèle, la capacité, la distance et la disponibilité d'un véhicule.
Search Engine Data - Les moteurs de recherche récupèrent beaucoup de données à partir de différentes bases de données.
Ainsi, le Big Data comprend un volume énorme, une vitesse élevée et une variété extensible de données. Les données qu'il contient seront de trois types.
Structured data - Données relationnelles.
Semi Structured data - Données XML.
Unstructured data - Word, PDF, texte, journaux multimédias.
Avantages du Big Data
En utilisant les informations conservées sur le réseau social comme Facebook, les agences de marketing apprennent la réponse de leurs campagnes, promotions et autres supports publicitaires.
En utilisant les informations des médias sociaux comme les préférences et la perception des produits de leurs consommateurs, les entreprises de produits et les organisations de vente au détail planifient leur production.
En utilisant les données concernant les antécédents médicaux des patients, les hôpitaux fournissent un service meilleur et rapide.
Technologies du Big Data
Les technologies de mégadonnées sont importantes pour fournir une analyse plus précise, ce qui peut conduire à une prise de décision plus concrète entraînant une plus grande efficacité opérationnelle, une réduction des coûts et une réduction des risques pour l'entreprise.
Pour exploiter la puissance du big data, vous auriez besoin d'une infrastructure capable de gérer et de traiter d'énormes volumes de données structurées et non structurées en temps réel et de protéger la confidentialité et la sécurité des données.
Il existe différentes technologies sur le marché de différents fournisseurs, notamment Amazon, IBM, Microsoft, etc., pour gérer le Big Data. Tout en examinant les technologies qui gèrent le Big Data, nous examinons les deux classes de technologie suivantes:
Big Data opérationnel
Cela inclut des systèmes comme MongoDB qui fournissent des capacités opérationnelles pour les charges de travail interactives en temps réel où les données sont principalement capturées et stockées.
Les systèmes NoSQL Big Data sont conçus pour tirer parti des nouvelles architectures de cloud computing qui ont émergé au cours de la dernière décennie pour permettre d'exécuter des calculs massifs de manière économique et efficace. Cela rend les charges de travail opérationnelles Big Data beaucoup plus faciles à gérer, moins chères et plus rapides à mettre en œuvre.
Certains systèmes NoSQL peuvent fournir des informations sur les modèles et les tendances basées sur des données en temps réel avec un codage minimal et sans avoir besoin de spécialistes des données et d'une infrastructure supplémentaire.
Big Data analytiques
Ceux-ci incluent des systèmes tels que les systèmes de base de données de traitement massivement parallèle (MPP) et MapReduce qui fournissent des capacités analytiques pour une analyse rétrospective et complexe qui peut toucher la plupart ou toutes les données.
MapReduce fournit une nouvelle méthode d'analyse des données qui est complémentaire des capacités fournies par SQL, et un système basé sur MapReduce qui peut être mis à l'échelle de serveurs uniques à des milliers de machines haut de gamme et bas de gamme.
Ces deux classes de technologies sont complémentaires et fréquemment déployées ensemble.
Systèmes opérationnels vs systèmes analytiques
Opérationnel | Analytique | |
---|---|---|
Latence | 1 ms - 100 ms | 1 min - 100 min |
Concurrence | 1 000 - 100 000 | 1 à 10 |
Modèle d'accès | Écrit et lit | Lit |
Requêtes | Sélectif | Non sélectif |
Portée des données | Opérationnel | Rétrospective |
Utilisateur final | Client | Data Scientist |
La technologie | NoSQL | MapReduce, base de données MPP |
Défis du Big Data
Les principaux défis associés au big data sont les suivants -
- Capturer des données
- Curation
- Storage
- Searching
- Sharing
- Transfer
- Analysis
- Presentation
Pour relever les défis ci-dessus, les organisations utilisent normalement l'aide de serveurs d'entreprise.