PySpark - Wprowadzenie
W tym rozdziale zapoznamy się z tym, czym jest Apache Spark i jak powstał PySpark.
Spark - przegląd
Apache Spark to błyskawiczna platforma przetwarzania w czasie rzeczywistym. Wykonuje obliczenia w pamięci w celu analizy danych w czasie rzeczywistym. Pojawiło się jakoApache Hadoop MapReducewykonywał tylko przetwarzanie wsadowe i brakowało mu funkcji przetwarzania w czasie rzeczywistym. Dlatego wprowadzono Apache Spark, który może wykonywać przetwarzanie strumieniowe w czasie rzeczywistym, a także może zajmować się przetwarzaniem wsadowym.
Poza przetwarzaniem w czasie rzeczywistym i wsadowym, Apache Spark obsługuje również interaktywne zapytania i algorytmy iteracyjne. Apache Spark ma własnego menedżera klastra, w którym może hostować swoją aplikację. Wykorzystuje Apache Hadoop zarówno do przechowywania, jak i przetwarzania. To używaHDFS (Hadoop Distributed File system) do przechowywania i może uruchamiać aplikacje Spark na platformie YARN także.
PySpark - przegląd
Apache Spark jest napisany w Scala programming language. Aby wspierać język Python za pomocą Sparka, społeczność Apache Spark wydała narzędzie PySpark. Używając PySpark, możesz pracować zRDDsw języku programowania Python również. Dzieje się tak z powodu biblioteki o nazwiePy4j że są w stanie to osiągnąć.
PySpark oferuje PySpark Shellktóry łączy interfejs API języka Python z rdzeniem Spark i inicjuje kontekst Spark. Większość analityków danych i ekspertów od analityki korzysta obecnie z Pythona ze względu na bogaty zestaw bibliotek. Integracja Pythona z Spark jest dla nich dobrodziejstwem.