PySpark - Einführung
In diesem Kapitel lernen wir kennen, was Apache Spark ist und wie PySpark entwickelt wurde.
Funken - Übersicht
Apache Spark ist ein blitzschnelles Echtzeit-Verarbeitungsframework. Es führt In-Memory-Berechnungen durch, um Daten in Echtzeit zu analysieren. Es kam ins Bild alsApache Hadoop MapReduceführte nur eine Stapelverarbeitung durch und es fehlte eine Echtzeitverarbeitungsfunktion. Daher wurde Apache Spark eingeführt, da es die Stream-Verarbeitung in Echtzeit durchführen und sich auch um die Stapelverarbeitung kümmern kann.
Neben der Echtzeit- und Stapelverarbeitung unterstützt Apache Spark auch interaktive Abfragen und iterative Algorithmen. Apache Spark verfügt über einen eigenen Cluster-Manager, in dem die Anwendung gehostet werden kann. Es nutzt Apache Hadoop sowohl für die Speicherung als auch für die Verarbeitung. Es verwendetHDFS (Hadoop Distributed File System) für die Speicherung und es kann Spark-Anwendungen ausführen YARN auch.
PySpark - Übersicht
Apache Spark ist in geschrieben Scala programming language. Um Python mit Spark zu unterstützen, hat die Apache Spark Community das Tool PySpark veröffentlicht. Mit PySpark können Sie arbeitenRDDsauch in der Programmiersprache Python. Es liegt an einer Bibliothek namensPy4j dass sie dies erreichen können.
PySpark bietet PySpark ShellDadurch wird die Python-API mit dem Spark-Core verknüpft und der Spark-Kontext initialisiert. Die Mehrheit der Datenwissenschaftler und Analytik-Experten verwendet Python heute aufgrund seines umfangreichen Bibliothekssatzes. Die Integration von Python in Spark ist ein Segen für sie.