Samouczek PySpark
Apache Spark jest napisany w języku programowania Scala. Aby wspierać język Python za pomocą Sparka, społeczność Apache Spark wydała narzędzie PySpark. Używając PySpark, możesz również pracować z RDD w języku programowania Python. To dzięki bibliotece o nazwie Py4j są w stanie to osiągnąć. To jest samouczek wprowadzający, który obejmuje podstawy dokumentów opartych na danych i wyjaśnia, jak radzić sobie z różnymi komponentami i podkomponentami.
Ten samouczek jest przeznaczony dla profesjonalistów, którzy aspirują do kariery w języku programowania i frameworku przetwarzania w czasie rzeczywistym. Ten samouczek ma na celu ułatwienie czytelnikom rozpoczęcia pracy z PySpark wraz z jego różnymi modułami i podmodułami.
Przed przystąpieniem do różnych pojęć przedstawionych w tym samouczku zakłada się, że czytelnicy są już świadomi, czym jest język programowania i framework. Oprócz tego będzie bardzo pomocne, jeśli czytelnicy będą mieli solidną wiedzę na temat Apache Spark, Apache Hadoop, Scala Programming Language, Hadoop Distributed File System (HDFS) i Python.