Mengekstrak fitur dengan PySpark

Pada bab ini, kita akan mempelajari tentang aplikasi fitur ekstraksi dengan PySpark dalam Agile Data Science.

Sekilas Spark

Apache Spark dapat didefinisikan sebagai kerangka kerja pemrosesan waktu nyata yang cepat. Itu melakukan perhitungan untuk menganalisis data secara real time. Apache Spark diperkenalkan sebagai sistem pemrosesan aliran secara real-time dan juga dapat menangani pemrosesan batch. Apache Spark mendukung kueri interaktif dan algoritme iteratif.

Spark ditulis dalam “bahasa pemrograman Scala”.

PySpark dapat dianggap sebagai kombinasi Python dengan Spark. PySpark menawarkan shell PySpark, yang menautkan Python API ke inti Spark dan menginisialisasi konteks Spark. Sebagian besar ilmuwan data menggunakan PySpark untuk fitur pelacakan seperti yang dibahas di bab sebelumnya.

Dalam contoh ini, kami akan fokus pada transformasi untuk membangun kumpulan data yang disebut hitungan dan menyimpannya ke file tertentu.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

Menggunakan PySpark, pengguna dapat bekerja dengan RDD dalam bahasa pemrograman python. Pustaka bawaan, yang mencakup dasar-dasar dokumen dan komponen Berdasarkan Data, membantu dalam hal ini.