
De certa forma, big data é exatamente o que parece: muitos dados. Desde o advento da Internet, produzimos dados em quantidades impressionantes. Estima-se que em todo o tempo que antecedeu o ano de 2003, apenas 5 exabytes de dados foram gerados - o que equivale a 5 bilhões de gigabytes. Mas de 2003 a 2012, a quantidade chegou a cerca de 2,7 zettabytes (ou 2.700 exabytes, ou 2,7 trilhões de gigabytes) [fontes: Intel , Lund ]. De acordo com pesquisadores de Berkeley, agora estamos produzindo cerca de 5 quintilhões de bytes (ou cerca de 4,3 exabytes) de dados a cada dois dias [fonte: Romanov ].
O termo 'big data' geralmente é usado para se referir a conjuntos massivos, em rápida expansão, variados e muitas vezes não estruturados de dados digitalizados que são difíceis de manter usando bancos de dados tradicionais. Pode incluir todas as informações digitais que circulam por aí no éter da Internet, as informações proprietárias de empresas com as quais fizemos negócios e registros oficiais do governo, entre muitas outras coisas. Há também a implicação de que os dados estão sendo analisados para algum propósito.
Nós mesmos geramos muito disso fazendo compras online e participando de mídias sociais, mas isso é apenas a ponta do iceberg. Big data pode incluir documentos digitalizados, fotografias, vídeos, arquivos de áudio, tweets e outras postagens de redes sociais, e-mails, mensagens de texto, registros telefônicos, consultas em mecanismos de busca, tags RFID e leituras de código de barras e registros de transações financeiras, embora não sejam as únicas fontes. Você está produzindo dados toda vez que faz algo online, deixando um rastro digital que outros podem vir e explorar para obter informações úteis.
Os números e tipos de dispositivos que produzem dados também estão se proliferando. Além de computadores domésticos e sistemas de ponto de venda dos varejistas, temos smartphones conectados à Internet, balanças habilitadas para Wi-Fi que twittam nosso peso, sensores de fitness que rastreiam e às vezes compartilham dados relacionados à saúde, câmeras que podem postar automaticamente fotos e vídeos on-line e Dispositivos de posicionamento global por satélite ( GPS ) que podem identificar nossa localização no globo, para citar alguns. Não se esqueça de sensores meteorológicos e de tráfego, câmeras de vigilância, sensores em carros e aviões e outras coisas não relacionadas a indivíduos que estão constantemente coletando dados. O grande número de dispositivos eletrônicos que geram e carregam dados deu origem ao termo "Internet das coisas".
Você encontrará várias definições de big data por aí, então nem todos concordam inteiramente com o que está incluído, mas pode ser qualquer coisa que alguém possa estar interessado em saber que pode ser submetido à análise de computador. E esses grandes e difíceis conjuntos de dados exigem novos métodos para coletá-los, armazená-los, processá-los e analisá-los.
Como o Big Data é analisado e usado

Big data deve ser coletado, massageado, vinculado e interpretado para que seja útil para qualquer pessoa. As empresas e outras entidades precisam filtrar a grande quantidade de dados disponíveis para chegar ao que é mais relevante para elas. Felizmente, hardware e software que podem processar, armazenar e analisar grandes quantidades de informações estão se tornando mais baratos e mais rápidos, de modo que o trabalho não exige mais supercomputadores enormes e proibitivamente caros. Alguns dos softwares estão se tornando mais fáceis de usar, de modo que não é necessário necessariamente uma equipe de programadores e cientistas de dados para disputar os dados (embora nunca seja demais ter pessoas experientes que possam entender seus requisitos).
As empresas aproveitam os serviços de computação em nuvem para que nem precisem comprar seus próprios computadores para fazer todo esse processamento de dados. Os data centers , também chamados de farms de servidores , podem distribuir lotes de dados para processamento em vários servidores, e o número de servidores pode ser ampliado ou reduzido rapidamente, conforme necessário. Essa computação distribuída escalável é realizada usando ferramentas inovadoras como Apache Hadoop, MapReduce e Massively Parallel Processing (MPP). Os bancos de dados NoSQL foram desenvolvidos como alternativas mais facilmente escaláveis aos sistemas de banco de dados tradicionais baseados em SQL.
Grande parte desse processamento e análise de big data visa encontrar padrões e correlações que forneçam insights que possam ser explorados ou usados para tomar decisões. As empresas agora podem explorar grandes quantidades de dados para obter informações sobre hábitos de consumo, popularidade de seus produtos ou formas mais eficientes de fazer negócios. A análise de big data pode ser usada para segmentar anúncios, produtos e serviços relevantes para os clientes que eles acreditam ter maior probabilidade de comprá-los ou para criar anúncios com maior probabilidade de atrair o público em geral. As empresas estão começando a fazer coisas como enviar anúncios em tempo real e cupons para pessoas por meio de seus smartphones para lugares próximos a locais onde usaram recentemente seus cartões de crédito .
Não é apenas para nos fazer comprar coisas, no entanto. As empresas podem usar as informações para melhorar a eficiência e as práticas, como encontrar as rotas de entrega mais econômicas ou estocar mercadorias de maneira mais adequada. As agências governamentais podem analisar padrões de tráfego, crimes, uso de serviços públicos e outras estatísticas para melhorar as decisões políticas e o serviço público. As agências de inteligência podem usá-lo para espionar e, com sorte, frustrar planos criminosos e terroristas. As empresas de notícias podem usá-lo para encontrar tendências e desenvolver histórias e, é claro, escrever mais artigos sobre big data.
Em essência, o big data permite que as entidades usem dados quase em tempo real para informar decisões, em vez de depender principalmente de informações antigas como no passado. Mas essa capacidade de ver o que está acontecendo conosco no presente e, às vezes, até mesmo de prever nosso comportamento futuro, pode ser um pouco assustadora.
Big Data: amigo ou inimigo?

A ideia de big data deixa muitos de nós desconfortáveis. Parece muito com o Big Brother de Orwell, e com anúncios de empresas que parecem saber o que estamos fazendo e as recentes revelações de espionagem doméstica da NSA , é compreensível que algumas pessoas achem perturbadora a enorme quantidade de informações disponíveis sobre todos nós. .
As pessoas podem dizer muito sobre você a partir desses dados, incluindo sua idade, sexo, orientação sexual, estado civil, nível de renda, estado de saúde, gostos, hobbies, hábitos e uma série de outras coisas que você pode ou não querer que sejam públicas conhecimento. Eles precisam apenas ter os meios e a vontade de reuni-lo e analisá-lo. E se eles significam bem ou mal, pode ter consequências não intencionais.
Fornecemos mais informações do que percebemos às empresas com as quais fazemos negócios, especialmente se usamos cartões de fidelidade ou pagamos com cartões de crédito ou débito. Alguém pode aprender muito sobre você apenas analisando suas compras. A Target recebeu alguma imprensa quando foi descoberto que eles poderiam identificar quais clientes estavam grávidas e até mesmo o quão perto elas estavam de suas datas de vencimento de coisas como os tipos de suplementos e loções que estavam comprando. Em um caso, a Target começou a enviar cupons de produtos para bebês diretamente para uma adolescente, provocando a ira de seu pai contra a empresa por enviar a ela o que ele considerava anúncios impróprios para a idade - até que ele descobriu sobre sua gravidez [fontes: Datoo , Duhigg , Economista ].
Governos e defensores da privacidade tentaram regular a forma como as informações de identificação pessoal (PII) das pessoas são usadas ou divulgadas para dar aos indivíduos algum controle sobre o que se torna de conhecimento público. Mas a análise preditiva pode contornar muitas leis existentes (que lidam principalmente com tipos específicos de dados, como seus dados financeiros, médicosou registros educacionais) permitindo que as empresas concluam coisas sobre você indiretamente, e provavelmente sem o seu conhecimento, usando informações díspares coletadas de fontes digitais. Algumas empresas estão usando as informações para fazer coisas como verificar o valor do crédito de clientes em potencial usando dados diferentes da pontuação de crédito típica, o que pode ser bom ou ruim para você, dependendo do que encontrarem e de como interpretarem. Uma preocupação, porém, é que esse tipo de informação pessoal pode levar a discriminação de emprego, moradia ou empréstimo difícil de detectar. E pior ainda, nem sempre pode ser totalmente preciso.
Também é possível que padrões vistos em big data sejam mal interpretados e levem a más decisões. Como qualquer ferramenta, todos os resultados dependem de quão bem ela é usada. Embora a matemática esteja envolvida, a análise de big data não é uma ciência exata, e o planejamento humano e a tomada de decisões precisam entrar em algum lugar. Com grandes conjuntos de dados, é necessário fazer julgamentos sobre o que é importante e o que pode ser ignorado. Mas executar bem a análise de big data pode dar às empresas uma vantagem competitiva.
Essa análise pode ser usada para coisas que obviamente são boas, como combater fraudes. Bancos, provedores de cartão de crédito e outras empresas que lidam com dinheiro agora usam cada vez mais a análise de big data para identificar padrões incomuns que apontam para atividades criminosas. Em uma conta individual, eles podem ser alertados rapidamente para sinais de alerta, como compras de itens incomuns, quantias que o cliente normalmente não gastaria, uma localização geográfica estranha ou uma pequena compra de teste seguida de uma compra muito grande. Padrões em várias contas, como cobranças semelhantes em cartões diferentes da mesma área, também podem alertar uma empresa sobre um possível comportamento fraudulento.
Enormes conjuntos de dados podem ajudar em pesquisas científicas e sociológicas, previsões de eleições, previsões do tempo e outras atividades que valem a pena. Postagens de mídia social e pesquisas no Google foram usadas para descobrir rapidamente onde os surtos de doenças estão ocorrendo. Portanto, nem tudo são más notícias. Levará um tempo para resolver todos os problemas em potencial e implementar leis que nos protejam de possíveis danos. Até lá, se você estiver preocupado, talvez queira voltar às compras em dinheiro e observar o que você publica sobre si mesmo. Ainda assim, provavelmente estamos muito longe da toca do coelho para que qualquer um de nós esteja totalmente fora do radar.
Muito Mais Informações
Nota do autor: O que é 'big data'?
Como qualquer coisa, big data pode ser usado para o bem, para o mal e para muitas outras coisas. Ter anúncios e cupons direcionados a nós pode ser uma conveniência ou um grande aborrecimento. E é mais do que enervante a quantidade que estranhos podem aprender sobre nós só porque estamos passando plástico em suas lojas ou usando seus cartões.
Cartões de fidelidade que eu sempre imaginei serem formas de coletar dados sobre nossas compras, mas eu realmente não tinha apreciado quanto dados semelhantes estavam sendo vinculados a nós individualmente por meio de compras de débito/crédito até agora, ou os detalhes incríveis sobre nossas vidas que poderiam ser discernido a partir dele. E isso nem inclui todas as outras informações sobre nós na Internet.
O pensamento de cada movimento meu sendo analisado me faz querer sair um pouco da grade, parar de postar online e usar dinheiro para tudo. Embora a maioria de nós, incluindo eu, provavelmente continuaremos como estamos para fins de conveniência. Eu só poderia postar e comprar como se estivesse sendo observado.
Artigos relacionados
- Como funcionam os data centers
- Como funciona a integração de dados
- Como funcionam os cookies da Internet
- Como posso descobrir quais informações existem sobre mim online?
Origens
- Apache. "Hadoop." (30 de novembro de 2013) http://hadoop.apache.org/
- Artur, Lisa. "O que é Big Data?" Forbes. 15 de agosto de 2013. (1º de dezembro de 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
- Brooks, David. "O que os dados não podem fazer." New York Times. 18 de fevereiro de 2013. (4 de dezembro de 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
- Brooks, David. "O que você vai fazer em seguida." New York Times. 15 de abril de 2013. (4 de dezembro de 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
- Bruto, André. "MapReduce e MPP: Dois lados da moeda Big Data?" ZDNet. 2 de março de 2012. (5 de dezembro de 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
- Mordomo, Brandon. "Lições dos números Guru Nate Silver sobre como trabalhar com Big Data." Rede Mundial. 11 de setembro de 2013. (4 de dezembro de 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
- COX, Ryan. "Nate Silver Cético em relação às tendências de Big Data, se liga na cultura." Ângulo de Silício. 12 de setembro de 2013. (4 de dezembro de 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture /
- Crawford, Kate e Jason Schultz. "Big Data e devido processo: em direção a uma estrutura para corrigir danos à privacidade preditivos." Faculdade de Direito da Universidade de Nova York. 1º de outubro de 2013. (4 de dezembro de 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
- Datoo, Siraj. "O rápido desenvolvimento em Big Data Analytics levou ao aumento do investimento." Guardião. 22 de novembro de 2013. (29 de novembro de 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-has-led-to-increased -investimento
- Duhigg, Charles. "Como as empresas aprendem seus segredos." New York Times. 16 de fevereiro de 2012. (2 de dezembro de 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
- Economista. "Big Data - Triturando os Números." 19 de maio de 2012. (1º de dezembro de 2013) http://www.economist.com/node/21554743
- EMC. "EMC: Por trás da cortina de Big Data." 2012. (1º de dezembro de 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
- Fitzgerald, Michael. "Big Data: Grande Ameaça Ou Grande Mentira?" Semana da Informação. 21 de novembro de 2013. (4 de dezembro de 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
- Gartner. "Big Data". (29 de novembro de 2013) http://www.gartner.com/it-glossary/big-data/
- Gnau, Scott. "Colocando Big Data em Contexto." Com fio. 10 de setembro de 2013. (4 de dezembro de 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
- Henschen, Doug. "Big Data Remodela as Previsões do Canal Meteorológico". Semana da Informação. 25 de novembro de 2013. (4 de dezembro de 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776 ?
- IBM. "O que é big data?" (4 de dezembro de 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
- Intel. "Big Data 101: Como o Big Data causa grandes impactos." (29 de novembro de 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
- Intel. "Combata a fraude de cartão de crédito com Big Data." (30 de novembro de 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper .pdf
- Intel. "O que é Big Data?" (30 de novembro de 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
- Laney, Doug. "Deja VVVu: Outros reivindicando a construção do Gartner para Big Data." Gartner. 14 de janeiro de 2012. (1º de dezembro de 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data /
- Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonça e Sreenivas Ramaswamy. "Game Changers: Cinco Oportunidades para o Crescimento e Renovação dos EUA." McKinsey Global Institute. Julho de 2013. (3 de dezembro de 2013) http://www.mckinsey.com/insights/americas/us_game_changers
- MongoDB. "Big Data Explicado." (5 de dezembro de 2013) http://www.mongodb.com/learn/big-data
- Naughton, John. "Por que o Big Data tornou sua privacidade uma coisa do passado." Guardião. 5 de outubro de 2013. (29 de novembro de 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
- Novet, Jordan. "Eis por que 2014 será o ano da 'Internet das Coisas'." Venturebeat. 25 de novembro de 2013. (1º de dezembro de 2013) http://venturebeat.com/2013/11/25/heres-why-2014-will-be-the-year-of-the-internet-of-things /
- Romanov, Alex. "Colocando um valor em dólar em insights de Big Data." Com fio. 17 de julho de 2013. (4 de dezembro de 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
- SAS. "O que é Big Data?" (1º de dezembro de 2013) http://www.sas.com/big-data/
- Sicular, Svetlana. "A definição de Big Data do Gartner consiste em três partes, não deve ser confundida com três 'V's." Forbes. 27 de março de 2013. (1º de dezembro de 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not- ser-confundido-com-três-vs/
- Zettaset. "O que é Big Data e Hadoop?" (29 de novembro de 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php