Tutorial PySpark
Apache Spark ditulis dalam bahasa pemrograman Scala. Untuk mendukung Python dengan Spark, komunitas Apache Spark merilis alat, PySpark. Menggunakan PySpark, Anda juga dapat bekerja dengan RDD dalam bahasa pemrograman Python. Karena perpustakaan bernama Py4j mereka dapat mencapai ini. Ini adalah tutorial pengantar, yang mencakup dasar-dasar Dokumen Berdasarkan Data dan menjelaskan cara menangani berbagai komponen dan sub-komponennya.
Tutorial ini disiapkan untuk para profesional yang bercita-cita untuk berkarir dalam bahasa pemrograman dan kerangka kerja pemrosesan waktu nyata. Tutorial ini dimaksudkan untuk membuat pembaca nyaman dalam memulai PySpark beserta berbagai modul dan submodulnya.
Sebelum melanjutkan dengan berbagai konsep yang diberikan dalam tutorial ini, diasumsikan bahwa pembaca sudah mengetahui tentang apa itu bahasa pemrograman dan framework. Selain itu, akan sangat membantu, jika pembaca memiliki pengetahuan suara tentang Apache Spark, Apache Hadoop, Bahasa Pemrograman Scala, Sistem File Terdistribusi Hadoop (HDFS) dan Python.