Pemrograman Percikan Tingkat Lanjut

Spark berisi dua jenis variabel bersama - satu adalah broadcast variables dan kedua accumulators.

  • Broadcast variables - digunakan untuk secara efisien, mendistribusikan nilai-nilai besar.

  • Accumulators - digunakan untuk mengumpulkan informasi dari koleksi tertentu.

Variabel Siaran

Variabel siaran memungkinkan pemrogram untuk menyimpan variabel hanya-baca dalam cache pada setiap mesin daripada mengirimkan salinannya dengan tugas. Mereka dapat digunakan, misalnya, untuk memberikan setiap node, salinan dari set data masukan yang besar, dengan cara yang efisien. Spark juga mencoba mendistribusikan variabel siaran menggunakan algoritma siaran yang efisien untuk mengurangi biaya komunikasi.

Tindakan percikan dijalankan melalui serangkaian tahapan, dipisahkan oleh operasi "acak" yang didistribusikan. Spark secara otomatis menyiarkan data umum yang dibutuhkan oleh tugas dalam setiap tahapan.

Data yang disiarkan dengan cara ini di-cache dalam bentuk serial dan diserialisasi sebelum menjalankan setiap tugas. Ini berarti bahwa membuat variabel broadcast secara eksplisit, hanya berguna ketika tugas di beberapa tahapan membutuhkan data yang sama atau ketika menyimpan data dalam bentuk deserialisasi penting.

Variabel siaran dibuat dari variabel v dengan menyebut SparkContext.broadcast(v). Variabel siaran adalah pembungkusv, dan nilainya dapat diakses dengan memanggil valuemetode. Kode yang diberikan di bawah ini menunjukkan ini -

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

Output -

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

Setelah variabel broadcast dibuat, itu harus digunakan sebagai pengganti nilainya v dalam fungsi apa pun berjalan di cluster, sehingga vtidak dikirim ke node lebih dari sekali. Selain itu, objekv tidak boleh diubah setelah siaran, untuk memastikan bahwa semua node mendapatkan nilai yang sama dari variabel siaran.

Akumulator

Akumulator adalah variabel yang hanya "ditambahkan" melalui operasi asosiatif dan oleh karena itu, dapat didukung secara efisien secara paralel. Mereka dapat digunakan untuk mengimplementasikan penghitung (seperti dalam MapReduce) atau penjumlahan. Spark secara native mendukung akumulator tipe numerik, dan pemrogram dapat menambahkan dukungan untuk tipe baru. Jika akumulator dibuat dengan nama, mereka akan ditampilkan diSpark’s UI. Ini dapat berguna untuk memahami kemajuan tahapan yang sedang berjalan (CATATAN - ini belum didukung dalam Python).

Akumulator dibuat dari nilai awal v dengan menyebut SparkContext.accumulator(v). Tugas yang berjalan di cluster kemudian dapat ditambahkan ke cluster tersebut menggunakanaddmetode atau operator + = (dalam Scala dan Python). Namun, mereka tidak bisa membaca nilainya. Hanya program driver yang dapat membaca nilai akumulator, menggunakanvalue metode.

Kode yang diberikan di bawah ini menunjukkan akumulator yang digunakan untuk menjumlahkan elemen array -

scala> val accum = sc.accumulator(0) 
 
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

Jika Anda ingin melihat output dari kode di atas maka gunakan perintah berikut -

scala> accum.value

Keluaran

res2: Int = 10

Operasi RDD numerik

Spark memungkinkan Anda melakukan operasi yang berbeda pada data numerik, menggunakan salah satu metode API yang telah ditentukan sebelumnya. Operasi numerik Spark diimplementasikan dengan algoritme streaming yang memungkinkan pembuatan model, satu elemen pada satu waktu.

Operasi ini dihitung dan dikembalikan sebagai StatusCounter keberatan dengan menelepon status() metode.

Berikut ini adalah daftar metode numerik yang tersedia di StatusCounter.

S.No Metode & Arti
1

count()

Jumlah elemen dalam RDD.

2

Mean()

Rata-rata elemen dalam RDD.

3

Sum()

Nilai total elemen dalam RDD.

4

Max()

Nilai maksimum di antara semua elemen di RDD.

5

Min()

Nilai minimum di antara semua elemen di RDD.

6

Variance()

Varians elemen.

7

Stdev()

Simpangan baku.

Jika Anda hanya ingin menggunakan salah satu dari metode ini, Anda dapat memanggil metode terkait langsung di RDD.