Hadoop - Soluções de Big Data

Abordagem tradicional

Nessa abordagem, uma empresa terá um computador para armazenar e processar big data. Para fins de armazenamento, os programadores terão a ajuda de sua escolha de fornecedores de banco de dados, como Oracle, IBM, etc. Nesta abordagem, o usuário interage com o aplicativo, que por sua vez lida com a parte de armazenamento e análise de dados.

Limitação

Essa abordagem funciona bem com os aplicativos que processam dados menos volumosos que podem ser acomodados por servidores de banco de dados padrão ou até o limite do processador que está processando os dados. Mas, quando se trata de lidar com grandes quantidades de dados escaláveis, é uma tarefa agitada processar esses dados por meio de um único gargalo de banco de dados.

Solução do Google

O Google resolveu esse problema usando um algoritmo chamado MapReduce. Este algoritmo divide a tarefa em pequenas partes e as atribui a vários computadores, e coleta os resultados deles que, quando integrados, formam o conjunto de dados de resultados.

Hadoop

Usando a solução fornecida pelo Google, Doug Cutting e sua equipe desenvolveu um projeto de código aberto chamado HADOOP.

O Hadoop executa aplicativos usando o algoritmo MapReduce, onde os dados são processados em paralelo com outros. Resumindo, o Hadoop é usado para desenvolver aplicativos que podem realizar análises estatísticas completas em grandes quantidades de dados.