
En cierto modo, los grandes datos son exactamente lo que parecen: una gran cantidad de datos. Desde la llegada de Internet, hemos estado produciendo datos en cantidades asombrosas. Se ha estimado que en todo el tiempo previo al año 2003, solo se generaron 5 exabytes de datos, lo que equivale a 5 mil millones de gigabytes. Pero de 2003 a 2012, la cantidad alcanzó alrededor de 2,7 zettabytes (o 2700 exabytes, o 2,7 billones de gigabytes) [fuentes: Intel , Lund ]. Según los investigadores de Berkeley, ahora estamos produciendo aproximadamente 5 quintillones de bytes (o alrededor de 4,3 exabytes) de datos cada dos días [fuente: Romanov ].
El término 'grandes datos' se usa generalmente para referirse a conjuntos de datos digitalizados masivos, de rápida expansión, variados y, a menudo, no estructurados que son difíciles de mantener utilizando bases de datos tradicionales. Puede incluir toda la información digital que flota en el éter de Internet, la información patentada de las empresas con las que hemos hecho negocios y los registros oficiales del gobierno, entre muchas otras cosas. También existe la implicación de que los datos se analizan con algún propósito.
Hemos generado mucho al hacer compras en línea y participar en las redes sociales, pero eso es solo la punta del iceberg. Big data puede incluir documentos digitalizados, fotografías, videos, archivos de audio, tweets y otras publicaciones en redes sociales, correos electrónicos, mensajes de texto, registros telefónicos, consultas en motores de búsqueda, escaneos de códigos de barras y etiquetas RFID y registros de transacciones financieras, aunque esos no son las únicas fuentes. Estás produciendo datos cada vez que haces algo en línea, dejando un rastro digital que otros pueden seguir y extraer para obtener información útil.
La cantidad y los tipos de dispositivos que producen datos también han proliferado. Además de las computadoras domésticas y los sistemas de punto de venta de los minoristas, tenemos teléfonos inteligentes conectados a Internet, básculas habilitadas para Wi-Fi que tuitean nuestro peso, sensores de actividad física que rastrean y, a veces, comparten datos relacionados con la salud, cámaras que pueden publicar automáticamente fotos y videos en línea y dispositivos satelitales de posicionamiento global ( GPS ) que pueden señalar nuestra ubicación en el mundo, por nombrar algunos. No olvide los sensores meteorológicos y de tráfico, las cámaras de vigilancia, los sensores en automóviles y aviones y otras cosas que no están conectadas con personas que recopilan datos constantemente. La gran cantidad de dispositivos electrónicos que generan y cargan datos ha dado lugar al término "Internet de las cosas".
Encontrará múltiples definiciones de big data, por lo que no todos están completamente de acuerdo con lo que se incluye, pero puede ser cualquier cosa que a cualquiera le interese saber que pueda ser objeto de análisis por computadora. Y estos conjuntos de datos grandes y difíciles de manejar requieren nuevos métodos para recopilarlos, almacenarlos, procesarlos y analizarlos.
Cómo se analiza y utiliza Big Data

Los grandes datos deben recopilarse, manipularse, vincularse e interpretarse para que sean de utilidad para cualquier persona. Las empresas y otras entidades necesitan filtrar la gran cantidad de datos disponibles para llegar a lo que es más relevante para ellos. Afortunadamente, el hardware y el software que pueden procesar, almacenar y analizar grandes cantidades de información son cada vez más baratos y rápidos, por lo que el trabajo ya no requiere supercomputadoras masivas y prohibitivamente costosas. Parte del software se está volviendo más fácil de usar, por lo que no necesariamente se necesita un equipo de programadores y científicos de datos para discutir los datos (aunque nunca está de más tener personas con conocimientos que puedan comprender sus requisitos).
Las empresas aprovechan los servicios de computación en la nube para que ni siquiera tengan que comprar sus propias computadoras para hacer todo ese procesamiento de datos. Los centros de datos , también llamados granjas de servidores , pueden distribuir lotes de datos para su procesamiento en varios servidores, y la cantidad de servidores se puede ampliar o reducir rápidamente según sea necesario. Esta computación distribuida escalable se logra utilizando herramientas innovadoras como Apache Hadoop, MapReduce y Massively Parallel Processing (MPP). Las bases de datos NoSQL se han desarrollado como alternativas más fácilmente escalables a los sistemas de bases de datos tradicionales basados en SQL.
Gran parte de este procesamiento y análisis de big data tiene como objetivo encontrar patrones y correlaciones que brinden información que pueda explotarse o usarse para tomar decisiones. Las empresas ahora pueden extraer cantidades masivas de datos para obtener información sobre los hábitos de los consumidores, la popularidad de sus productos o formas más eficientes de hacer negocios. El análisis de big data se puede utilizar para orientar anuncios, productos y servicios relevantes a los clientes que creen que es más probable que los compren, o para crear anuncios que tengan más probabilidades de atraer al público en general. Las empresas ahora incluso están comenzando a hacer cosas como enviar anuncios y cupones en tiempo real a las personas a través de sus teléfonos inteligentes para lugares que están cerca de lugares donde recientemente usaron sus tarjetas de crédito .
Sin embargo, no es solo para hacernos comprar cosas. Las empresas pueden usar la información para mejorar la eficiencia y las prácticas, como encontrar las rutas de entrega más rentables o almacenar la mercancía de manera más adecuada. Las agencias gubernamentales pueden analizar patrones de tráfico, delincuencia, uso de servicios públicos y otras estadísticas para mejorar las decisiones de política y el servicio público. Las agencias de inteligencia pueden usarlo para, bueno, espiar y, con suerte, frustrar complots criminales y terroristas. Los equipos de noticias pueden usarlo para encontrar tendencias y desarrollar historias y, por supuesto, escribir más artículos sobre big data.
En esencia, los grandes datos permiten que las entidades utilicen datos casi en tiempo real para informar decisiones, en lugar de depender principalmente de información antigua como en el pasado. Pero esta capacidad de ver lo que sucede con nosotros en el presente, e incluso a veces de predecir nuestro comportamiento futuro, puede ser un poco espeluznante.
Big Data: ¿amigo o enemigo?

La idea de big data nos inquieta a muchos. Se parece mucho al Gran Hermano de Orwell, y con los anuncios de compañías que parecen saber lo que estamos haciendo y las recientes revelaciones de espionaje doméstico de la NSA , es comprensible que algunas personas encuentren inquietante la enorme cantidad de información que existe sobre todos nosotros. .
Las personas pueden saber mucho sobre usted a partir de estos datos, incluida su edad, género, orientación sexual, estado civil, nivel de ingresos, estado de salud, gustos, pasatiempos, hábitos y una gran cantidad de otras cosas que puede o no desear que sean públicas. conocimiento. Solo necesitan tener los medios y la voluntad para recopilarlo y analizarlo. Y ya sea que tengan buenas o malas intenciones, puede tener consecuencias no deseadas.
Damos más información de la que nos damos cuenta a las empresas con las que hacemos negocios, especialmente si usamos tarjetas de fidelización o pagamos con tarjetas de crédito o débito. Alguien puede aprender mucho sobre ti simplemente analizando tus compras. Target recibió algo de prensa cuando se descubrió que podía identificar qué clientas estaban embarazadas e incluso qué tan cerca estaban de su fecha de parto a partir de cosas como los tipos de suplementos y lociones que estaban comprando. En un caso, Target comenzó a enviar cupones de productos para bebés directamente a una adolescente, lo que provocó la ira de su padre contra la empresa por enviarle lo que él consideraba anuncios inapropiados para su edad, hasta que se enteró de su embarazo [fuentes: Datoo , Duhigg , economista ].
Los gobiernos y los defensores de la privacidad han intentado regular la forma en que se usa o divulga la información de identificación personal (PII) de las personas para dar a las personas cierto control sobre lo que se convierte en conocimiento público. Pero el análisis predictivo puede eludir muchas leyes existentes (que se ocupan principalmente de tipos específicos de datos como su información financiera, médicao registros educativos) al permitir que las empresas concluyan cosas sobre usted indirectamente, y probablemente sin su conocimiento, utilizando piezas dispares de información recopilada de fuentes digitales. Algunas empresas están utilizando la información para hacer cosas como verificar la solvencia crediticia de los clientes potenciales utilizando datos distintos al puntaje crediticio típico, que puede ser bueno o malo para usted, según lo que encuentren y cómo lo interpreten. Sin embargo, una preocupación es que este tipo de información personal puede conducir a discriminación laboral, de vivienda o de préstamo difícil de detectar. Y lo que es peor, puede que no siempre sea del todo exacto.
También es posible que los patrones que se ven en los grandes datos se malinterpreten y conduzcan a malas decisiones. Como cualquier herramienta, los resultados dependen de qué tan bien se use. Aunque las matemáticas están involucradas, el análisis de big data no es una ciencia exacta, y la planificación y la toma de decisiones humanas tienen que entrar en alguna parte. Con grandes conjuntos de datos, se deben tomar decisiones sobre lo que es importante y lo que se puede ignorar. Pero realizar bien el análisis de big data puede dar a las empresas una ventaja competitiva.
Dicho análisis se puede utilizar para cosas que son obviamente buenas, como la lucha contra el fraude. Los bancos, los proveedores de tarjetas de crédito y otras empresas que comercian con dinero ahora utilizan cada vez más análisis de big data para detectar patrones inusuales que apuntan a actividades delictivas. En una cuenta individual, pueden recibir alertas rápidamente sobre señales de alerta, como compras de artículos inusuales, montos que el cliente normalmente no gastaría, una ubicación geográfica extraña o una pequeña compra de prueba seguida de una compra muy grande. Los patrones en varias cuentas, como cargos similares en diferentes tarjetas de la misma área, también pueden alertar a una empresa sobre un posible comportamiento fraudulento.
Grandes conjuntos de datos pueden ayudar en la investigación científica y sociológica, las predicciones electorales, las previsiones meteorológicas y otras actividades valiosas. Las publicaciones en las redes sociales y las búsquedas en Google incluso se han utilizado para descubrir rápidamente dónde están ocurriendo los brotes de enfermedades. Así que no todo son malas noticias. Solo tomará un tiempo resolver todos los problemas potenciales e implementar leyes que nos protejan de daños potenciales. Hasta entonces, si está preocupado, es posible que desee volver a las compras en efectivo y ver lo que publica sobre usted. Aún así, probablemente estemos demasiado lejos en la madriguera del conejo para que cualquiera de nosotros esté completamente fuera del radar.
Mucha más información
Nota del autor: ¿Qué es 'big data'?
Como cualquier cosa, los grandes datos se pueden usar para bien, para mal y para muchas cosas intermedias. Tener anuncios y cupones dirigidos a nosotros puede ser una conveniencia o una gran molestia. Y es más que un poco desconcertante la cantidad de extraños que pueden aprender sobre nosotros solo porque estamos robando plástico en sus tiendas o usando sus tarjetas.
Las tarjetas de fidelización siempre pensé que eran formas de recopilar datos sobre nuestras compras, pero hasta ahora no había apreciado la cantidad de datos similares que se vinculaban a nosotros individualmente a través de compras de débito/crédito, o el increíble detalle sobre nuestras vidas que podría ser discernido de ella. Y esto ni siquiera incluye toda la otra información sobre nosotros que hay en Internet.
La idea de que se analicen todos mis movimientos me da ganas de desconectarme un poco, dejar de publicar en línea y usar efectivo para todo. Aunque la mayoría de nosotros, incluyéndome a mí, probablemente continuaremos como estamos por conveniencia. Podría publicar y comprar como si me estuvieran observando.
Artículos relacionados
- Cómo funcionan los centros de datos
- Cómo funciona la integración de datos
- Cómo funcionan las cookies de Internet
- ¿Cómo puedo saber qué información existe sobre mí en línea?
Fuentes
- Apache. "Hadoop". (30 de noviembre de 2013) http://hadoop.apache.org/
- Arturo, Lisa. "¿Qué son los grandes datos?" Forbes. 15 de agosto de 2013. (1 de diciembre de 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
- Brooks, David. "Lo que los datos no pueden hacer". New York Times. 18 de febrero de 2013. (4 de diciembre de 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
- Brooks, David. "Lo que harás a continuación". New York Times. 15 de abril de 2013. (4 de diciembre de 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
- Brust, Andrés. "MapReduce y MPP: ¿Dos caras de la moneda Big Data?" ZDNet. 2 de marzo de 2012. (5 de diciembre de 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
- Mayordomo, Brandon. "Lecciones del gurú de los números Nate Silver sobre cómo trabajar con Big Data". Mundo Red. 11 de septiembre de 2013. (4 de diciembre de 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
- Cox, Ryan. "Nate Silver escéptico de las tendencias de Big Data, clave en la cultura". Ángulo de silicio. 12 de septiembre de 2013. (4 de diciembre de 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture /
- Crawford, Kate y Jason Schultz. "Grandes datos y debido proceso: hacia un marco para reparar los daños de privacidad predictivos". Facultad de Derecho de la Universidad de Nueva York. 1 de octubre de 2013. (4 de diciembre de 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
- Datoo, Siraj. "El rápido desarrollo en Big Data Analytics ha llevado a una mayor inversión". Guardián. 22 de noviembre de 2013. (29 de noviembre de 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-has-led-to-increased -inversión
- Duhigg, Charles. "Cómo las empresas aprenden tus secretos". New York Times. 16 de febrero de 2012. (2 de diciembre de 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
- Economista. "Big Data - Procesando los Números". 19 de mayo de 2012. (1 de diciembre de 2013) http://www.economist.com/node/21554743
- CEM. "EMC: Detrás de la cortina de los grandes datos". 2012. (1 de diciembre de 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
- Fitzgerald, Michael. "Big Data: ¿Gran amenaza o gran mentira?" Semana de la Información. 21 de noviembre de 2013. (4 de diciembre de 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
- Gartner. "Grandes datos". (29 de noviembre de 2013) http://www.gartner.com/it-glossary/big-data/
- Gnau, Scott. "Poner Big Data en contexto". Cableado. 10 de septiembre de 2013. (4 de diciembre de 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
- Henschen, Doug. "Big Data remodela las predicciones de Weather Channel". Semana de la Información. 25 de noviembre de 2013. (4 de diciembre de 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776 ?
- IBM. "¿Qué es el gran volumen de datos?" (4 de diciembre de 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
- Intel. "Big Data 101: cómo Big Data genera grandes impactos". (29 de noviembre de 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
- Intel. "Combata el fraude de tarjetas de crédito con Big Data". (30 de noviembre de 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper .pdf
- Intel. "¿Qué es Big Data?" (30 de noviembre de 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
- Laney, Doug. "Deja VVVu: Otros reclaman la construcción de Gartner para Big Data". Gartner. 14 de enero de 2012. (1 de diciembre de 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data /
- Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonca y Sreenivas Ramaswamy. "Cambiadores de juego: cinco oportunidades para el crecimiento y la renovación de EE. UU.". Instituto Global McKinsey. Julio de 2013. (3 de diciembre de 2013) http://www.mckinsey.com/insights/americas/us_game_changers
- Mongo DB. "Grandes datos explicados". (5 de diciembre de 2013) http://www.mongodb.com/learn/big-data
- Naughton, John. "Por qué Big Data ha hecho que su privacidad sea cosa del pasado". Guardián. 5 de octubre de 2013. (29 de noviembre de 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
- Novet, Jordan. "He aquí por qué 2014 será el año del 'Internet de las cosas'". Venturebeat. 25 de noviembre de 2013. (1 de diciembre de 2013) http://venturebeat.com/2013/11/25/heres-why-2014-will-be-the-year-of-the-internet-of-things /
- Románov, Alex. "Poner un valor en dólares en Big Data Insights". Cableado. 17 de julio de 2013. (4 de diciembre de 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
- SAS. "¿Qué es Big Data?" (1 de diciembre de 2013) http://www.sas.com/big-data/
- Sicular, Svetlana. "La definición de Big Data de Gartner consta de tres partes, que no deben confundirse con las tres 'V'". Forbes. 27 de marzo de 2013. (1 de diciembre de 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not- ser-confundido-con-tres-vs/
- Zettaset. "¿Qué es Big Data y Hadoop?" (29 de noviembre de 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php