Samouczek Apache Pig

Apache Pig to abstrakcja w stosunku do MapReduce. Jest to narzędzie / platforma, która służy do analizy większych zbiorów danych reprezentujących je jako przepływy danych. Pig jest zwykle używany zHadoop; możemy wykonać wszystkie operacje manipulacji danymi w Hadoop za pomocą Pig.

Ten samouczek jest przeznaczony dla wszystkich profesjonalistów pracujących na Hadoop, którzy chcieliby wykonywać operacje MapReduce bez konieczności wpisywania skomplikowanych kodów w Javie.

Aby w pełni wykorzystać ten samouczek, należy dobrze zrozumieć podstawy poleceń Hadoop i HDFS. Z pewnością pomoże, jeśli jesteś dobry w SQL.

ja/tutorial