D'une certaine manière, le big data est exactement ce à quoi il ressemble : beaucoup de données. Depuis l'avènement d'Internet, nous produisons des quantités de données stupéfiantes. On a estimé que pendant tout le temps qui a précédé l'année 2003, seuls 5 exaoctets de données ont été générés, ce qui équivaut à 5 milliards de gigaoctets. Mais de 2003 à 2012, le montant a atteint environ 2,7 zettaoctets (ou 2 700 exaoctets, ou 2,7 trillions de gigaoctets) [sources : Intel , Lund ]. Selon les chercheurs de Berkeley, nous produisons actuellement environ 5 quintillions d'octets (soit environ 4,3 exaoctets) de données tous les deux jours [source : Romanov ].
Le terme « mégadonnées » est généralement utilisé pour désigner des ensembles de données numérisées massifs, en expansion rapide, variés et souvent non structurés, difficiles à gérer à l'aide de bases de données traditionnelles. Cela peut inclure toutes les informations numériques qui circulent dans l'éther d'Internet, les informations exclusives des entreprises avec lesquelles nous avons fait des affaires et les documents officiels du gouvernement, parmi beaucoup d'autres choses. Il y a aussi l'implication que les données sont analysées dans un certain but.
Nous en avons généré beaucoup nous-mêmes en effectuant des achats en ligne et en participant aux médias sociaux, mais ce n'est que la pointe de l'iceberg. Les mégadonnées peuvent inclure des documents numérisés, des photographies, des vidéos, des fichiers audio, des tweets et d'autres publications sur les réseaux sociaux, des e-mails, des SMS, des enregistrements téléphoniques, des requêtes de moteurs de recherche, des scans d'étiquettes RFID et de codes-barres et des enregistrements de transactions financières, bien que ceux-ci ne le soient pas. les seules sources. Vous produisez des données chaque fois que vous faites quoi que ce soit en ligne, laissant une trace numérique que d'autres peuvent suivre et exploiter pour obtenir des informations utiles.
Le nombre et les types d'appareils qui produisent des données ont également proliféré. Outre les ordinateurs personnels et les systèmes de point de vente des détaillants, nous avons des smartphones connectés à Internet, des balances compatibles WiFi qui tweetent notre poids, des capteurs de fitness qui suivent et parfois partagent des données relatives à la santé, des appareils photo qui peuvent publier automatiquement des photos et des vidéos en ligne et des appareils de positionnement global par satellite ( GPS ) qui peuvent localiser notre emplacement sur le globe, pour n'en nommer que quelques-uns. N'oubliez pas les capteurs météorologiques et de trafic, les caméras de surveillance, les capteurs dans les voitures et les avions et d'autres choses non liées aux individus qui collectent constamment des données. Le grand nombre d'appareils électroniques qui génèrent et téléchargent des données ont donné naissance au terme « Internet des objets ».
Vous trouverez plusieurs définitions du Big Data, donc tout le monde n'est pas entièrement d'accord sur ce qui est inclus, mais cela peut être tout ce que tout le monde pourrait être intéressé à savoir qui peut être soumis à une analyse informatique. Et ces grands ensembles de données peu maniables nécessitent de nouvelles méthodes pour les collecter, les stocker, les traiter et les analyser.
Comment le Big Data est analysé et utilisé
Les mégadonnées doivent être collectées, manipulées, reliées entre elles et interprétées pour être utiles à quiconque. Les entreprises et autres entités doivent filtrer la grande quantité de données disponibles pour accéder à celles qui sont les plus pertinentes pour elles. Heureusement, le matériel et les logiciels capables de traiter, de stocker et d'analyser d'énormes quantités d'informations deviennent moins chers et plus rapides, de sorte que le travail ne nécessite plus de superordinateurs massifs et d'un coût prohibitif. Certains logiciels deviennent de plus en plus conviviaux, de sorte qu'il n'est pas nécessaire d'avoir une équipe de programmeurs et de spécialistes des données pour traiter les données (bien que cela ne fasse jamais de mal d'avoir des personnes bien informées qui peuvent comprendre vos besoins).
Les entreprises profitent des services de cloud computing pour ne même pas avoir à acheter leurs propres ordinateurs pour faire tout ce traitement de données. Les centres de données , également appelés batteries de serveurs , peuvent distribuer des lots de données à traiter sur plusieurs serveurs, et le nombre de serveurs peut être augmenté ou réduit rapidement selon les besoins. Cette informatique distribuée évolutive est réalisée à l'aide d'outils innovants tels qu'Apache Hadoop, MapReduce et Massively Parallel Processing (MPP). Les bases de données NoSQL ont été développées comme des alternatives plus facilement évolutives aux systèmes de bases de données traditionnels basés sur SQL.
Une grande partie de ce traitement et de cette analyse de mégadonnées vise à trouver des modèles et des corrélations qui fournissent des informations pouvant être exploitées ou utilisées pour prendre des décisions. Les entreprises peuvent désormais exploiter d'énormes quantités de données pour obtenir des informations sur les habitudes des consommateurs, la popularité de leurs produits ou des moyens plus efficaces de faire des affaires. L'analyse des mégadonnées peut être utilisée pour cibler des publicités, des produits et des services pertinents sur les clients qui, selon eux, sont les plus susceptibles de les acheter, ou pour créer des publicités plus susceptibles d'attirer le grand public. Les entreprises commencent même à faire des choses comme envoyer des publicités et des coupons en temps réel aux gens via leurs smartphones pour des endroits proches des endroits où ils ont récemment utilisé leurs cartes de crédit .
Ce n'est pas seulement pour nous faire acheter des trucs, cependant. Les entreprises peuvent utiliser ces informations pour améliorer leur efficacité et leurs pratiques, par exemple en trouvant les itinéraires de livraison les plus rentables ou en stockant les marchandises de manière plus appropriée. Les agences gouvernementales peuvent analyser les modèles de trafic, la criminalité, l'utilisation des services publics et d'autres statistiques pour améliorer les décisions politiques et le service public. Les agences de renseignement peuvent l'utiliser pour, eh bien, espionner et, espérons-le, déjouer les complots criminels et terroristes. Les médias peuvent l'utiliser pour trouver des tendances et développer des histoires, et, bien sûr, écrire plus d'articles sur le Big Data.
Essentiellement, les mégadonnées permettent aux entités d'utiliser des données presque en temps réel pour éclairer leurs décisions, plutôt que de s'appuyer principalement sur d'anciennes informations comme par le passé. Mais cette capacité à voir ce qui se passe avec nous dans le présent, et même parfois à prédire notre comportement futur, peut être un peu effrayante.
Big data : ami ou ennemi ?
L'idée des mégadonnées rend beaucoup d'entre nous mal à l'aise. Cela ressemble beaucoup au Big Brother d'Orwell, et avec les publicités d'entreprises qui semblent savoir ce que nous faisons et les récentes révélations d'espionnage domestique de la NSA , il est compréhensible que certaines personnes trouvent la quantité massive d'informations sur nous tous dérangeante. .
Les gens peuvent en dire beaucoup sur vous à partir de ces données, y compris votre âge, votre sexe, votre orientation sexuelle, votre état civil, votre niveau de revenu, votre état de santé, vos goûts, vos loisirs, vos habitudes et toute une série d'autres choses que vous souhaitez ou non rendre publiques. connaissance. Il leur suffit d'avoir les moyens et la volonté de la recueillir et de l'analyser. Et qu'ils aient de bonnes ou de mauvaises intentions, cela peut avoir des conséquences imprévues.
Nous donnons plus d'informations que nous ne le pensons aux entreprises avec lesquelles nous faisons affaire, surtout si nous utilisons des cartes de fidélité ou payons avec des cartes de crédit ou de débit. Quelqu'un peut en apprendre beaucoup sur vous simplement en analysant vos achats. Target a reçu de la presse lorsqu'il a été découvert qu'ils pouvaient identifier quelles clientes étaient enceintes et même à quel point elles étaient proches de leurs dates d'accouchement à partir de choses comme les types de suppléments et de lotions qu'ils achetaient. Dans un cas, Target a commencé à envoyer des coupons pour des produits pour bébés directement à une adolescente, déclenchant la colère de son père contre l'entreprise pour lui avoir envoyé ce qu'il considérait comme des publicités inappropriées pour son âge - jusqu'à ce qu'il découvre sa grossesse [sources : Datoo , Duhigg , Économiste ].
Les gouvernements et les défenseurs de la vie privée ont tenté de réglementer la manière dont les informations personnelles identifiables (PII) des personnes sont utilisées ou divulguées afin de donner aux individus un certain contrôle sur ce qui devient une connaissance publique. Mais l'analyse prédictive peut contourner de nombreuses lois existantes (qui traitent principalement de types de données spécifiques comme vos données financières, médicales ,ou dossiers scolaires) en permettant aux entreprises de tirer des conclusions indirectes à votre sujet, et probablement à votre insu, en utilisant des informations disparates recueillies à partir de sources numériques. Certaines entreprises utilisent ces informations pour faire des choses comme vérifier la solvabilité des clients potentiels en utilisant des données autres que le pointage de crédit typique, ce qui peut être bon ou mauvais pour vous, selon ce qu'ils trouvent et comment ils l'interprètent. Une préoccupation, cependant, est que ce type d'informations personnelles peut conduire à une discrimination difficile à détecter en matière d'emploi, de logement ou de prêt. Et pire encore, cela peut ne pas toujours être tout à fait exact.
Il est également possible que les modèles observés dans le Big Data soient mal interprétés et conduisent à de mauvaises décisions. Comme tout outil, les résultats dépendent tous de la façon dont il est utilisé. Même si les mathématiques sont impliquées, l'analyse des mégadonnées n'est pas une science exacte, et la planification et la prise de décision humaines doivent intervenir quelque part. Avec d'énormes ensembles de données, des appels de jugement doivent être faits sur ce qui est important et ce qui peut être ignoré. Mais une bonne analyse du Big Data peut donner aux entreprises un avantage concurrentiel.
Une telle analyse peut être utilisée pour des choses qui sont manifestement bonnes, comme la lutte contre la fraude. Les banques, les fournisseurs de cartes de crédit et d'autres entreprises qui négocient de l'argent utilisent désormais de plus en plus l'analyse de mégadonnées pour repérer des modèles inhabituels qui indiquent une activité criminelle. Sur un compte individuel, ils peuvent être rapidement alertés de signaux d'alarme tels que des achats d'articles inhabituels, des montants que le client ne dépenserait normalement pas, une situation géographique étrange ou un petit achat test suivi d'un achat très important. Des modèles sur plusieurs comptes, comme des frais similaires sur différentes cartes d'une même zone, peuvent également alerter une entreprise d'un éventuel comportement frauduleux.
D'énormes ensembles de données peuvent aider à la recherche scientifique et sociologique, aux prévisions électorales, aux prévisions météorologiques et à d'autres activités intéressantes. Les publications sur les réseaux sociaux et les recherches sur Google ont même été utilisées pour découvrir rapidement où se produisent les épidémies. Ce ne sont donc pas toutes de mauvaises nouvelles. Il faudra juste un certain temps pour résoudre tous les problèmes potentiels et mettre en œuvre des lois qui nous protégeraient des dommages potentiels. Jusque-là, si vous êtes inquiet, vous voudrez peut-être revenir aux achats en espèces et regarder ce que vous dites sur vous-même. Pourtant, nous sommes probablement trop loin dans le terrier du lapin pour que l'un d'entre nous soit entièrement hors du radar.
Beaucoup plus d'informations
Note de l'auteur : qu'est-ce que le « big data » ?
Comme tout, le Big Data peut être utilisé pour le bien, pour le mal et pour beaucoup de choses entre les deux. Avoir des publicités et des coupons ciblés sur nous peut être une commodité ou une gêne majeure. Et c'est plus qu'un peu déconcertant de voir tout ce que des étrangers peuvent apprendre sur nous simplement parce que nous glissons du plastique dans leurs magasins ou utilisons leurs cartes.
J'avais toujours pensé que les cartes de fidélité étaient des moyens de recueillir des données sur nos achats, mais je n'avais pas vraiment apprécié la quantité de données similaires qui nous étaient liées individuellement par le biais d'achats par débit/crédit jusqu'à présent, ou les détails incroyables sur nos vies qui pourraient en être discerné. Et cela n'inclut même pas toutes les autres informations à notre sujet sur Internet.
L'idée que chacun de mes mouvements soit analysé me donne envie de sortir un peu de la grille, d'arrêter de publier en ligne et d'utiliser de l'argent pour tout. Bien que la plupart d'entre nous, y compris moi, continuerons probablement comme nous le sommes pour des raisons de commodité. Je pourrais juste poster et acheter comme si j'étais surveillé.
Articles Liés
- Comment fonctionnent les centres de données
- Comment fonctionne l'intégration des données
- Comment fonctionnent les cookies Internet
- Comment puis-je savoir quelles informations existent sur moi en ligne ?
Sources
- Apache. « Hadoup ». (30 novembre 2013) http://hadoop.apache.org/
- Arthur, Lisa. "Qu'est-ce que le Big Data ?" Forbes. 15 août 2013. (1er décembre 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
- Brooks, David. "Ce que les données ne peuvent pas faire." New York Times. 18 février 2013. (4 décembre 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
- Brooks, David. "Ce que vous ferez ensuite." New York Times. 15 avril 2013. (4 décembre 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
- Brust, André. "MapReduce et MPP : les deux faces de la médaille du Big Data ?" ZDNet. 2 mars 2012. (5 décembre 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
- Majordome, Brandon. "Leçons du gourou des nombres Nate Silver sur le travail avec le Big Data." Monde du réseau. 11 septembre 2013. (4 décembre 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
- Cox, Ryan. "Nate Silver sceptique à l'égard des tendances du Big Data, se penche sur la culture." Angle de silicium. 12 septembre 2013. (4 décembre 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture /
- Crawford, Kate et Jason Schultz. "Mégadonnées et procédure régulière : vers un cadre pour réparer les dommages prédictifs à la vie privée." École de droit de l'Université de New York. 1er octobre 2013. (4 décembre 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
- Datoo, Siraj. "Le développement rapide de l'analyse des mégadonnées a entraîné une augmentation des investissements." Gardien. 22 novembre 2013. (29 novembre 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-has-led-to-increased -investissement
- Duhigg, Charles. "Comment les entreprises apprennent vos secrets." New York Times. 16 février 2012. (2 décembre 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
- Économiste. "Mégadonnées - Analyser les chiffres." 19 mai 2012. (1er décembre 2013) http://www.economist.com/node/21554743
- EMC. « EMC : Derrière le rideau du Big Data ». 2012. (1er décembre 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
- Fitzgerald, Michel. « Big Data : grosse menace ou gros mensonge ? Semaine de l'information. 21 novembre 2013. (4 décembre 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
- Gartner. "Big Data." (29 novembre 2013) http://www.gartner.com/it-glossary/big-data/
- Gnau, Scott. "Mettre le Big Data en contexte." Câblé. 10 septembre 2013. (4 décembre 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
- Henschen, Doug. "Les mégadonnées remodèlent les prévisions des canaux météorologiques." Semaine de l'information. 25 novembre 2013. (4 décembre 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776 ?
- IBM. "Qu'est-ce que les mégadonnées ?" (4 décembre 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
- Intel. "Big Data 101 : Comment les Big Data ont de grands impacts." (29 novembre 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
- Intel. "Lutter contre la fraude par carte de crédit avec le Big Data." (30 novembre 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper .pdf
- Intel. "Qu'est-ce que le Big Data ?" (30 novembre 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
- Laney, Doug. "Deja VVVu : d'autres revendiquant la construction de Gartner pour le Big Data." Gartner. 14 janvier 2012. (1er décembre 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data /
- Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonca et Sreenivas Ramaswamy. "Game Changers : cinq opportunités pour la croissance et le renouveau des États-Unis." Institut mondial McKinsey. Juillet 2013. (3 décembre 2013) http://www.mckinsey.com/insights/americas/us_game_changers
- MongoDB. "Mégadonnées expliquées." (5 décembre 2013) http://www.mongodb.com/learn/big-data
- Naughton, John. "Pourquoi le Big Data a fait de votre vie privée une chose du passé." Gardien. 5 octobre 2013. (29 novembre 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
- Novet, Jordanie. "Voici pourquoi 2014 sera l'année de l'"Internet des objets"." Venturebeat. 25 novembre 2013. (1er décembre 2013) http://venturebeat.com/2013/11/25/heres-why-2014-will-be-the-year-of-the-internet-of-things /
- Romanov, Alex. "Mettre une valeur monétaire sur Big Data Insights." Câblé. 17 juillet 2013. (4 décembre 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
- SAS. "Qu'est-ce que le Big Data ?" (1er décembre 2013) http://www.sas.com/big-data/
- Sicular, Svetlana. "La définition du Big Data de Gartner se compose de trois parties, à ne pas confondre avec trois 'V'." Forbes. 27 mars 2013. (1er décembre 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not- à-confondre-avec-trois-vs/
- Zettaset. "Qu'est-ce que le Big Data et Hadoop ?" (29 novembre 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php