MapReduce - Pendahuluan

MapReduce adalah model pemrograman untuk menulis aplikasi yang dapat memproses Big Data secara paralel di beberapa node. MapReduce menyediakan kemampuan analitis untuk menganalisis data kompleks dalam jumlah besar.

Apa itu Big Data?

Big Data adalah kumpulan kumpulan data besar yang tidak dapat diproses menggunakan teknik komputasi tradisional. Misalnya, volume data yang dibutuhkan Facebook atau Youtube untuk dikumpulkan dan dikelola setiap hari, dapat masuk dalam kategori Big Data. Namun, Big Data tidak hanya tentang skala dan volume, tetapi juga melibatkan satu atau lebih aspek berikut - Kecepatan, Variasi, Volume, dan Kompleksitas.

Mengapa MapReduce?

Sistem Perusahaan Tradisional biasanya memiliki server terpusat untuk menyimpan dan memproses data. Ilustrasi berikut menggambarkan pandangan skematis dari sistem perusahaan tradisional. Model tradisional tentunya tidak cocok untuk memproses volume besar data yang dapat diskalakan dan tidak dapat diakomodasi oleh server database standar. Selain itu, sistem terpusat menciptakan terlalu banyak hambatan saat memproses banyak file secara bersamaan.

Google memecahkan masalah kemacetan ini menggunakan algoritma yang disebut MapReduce. MapReduce membagi tugas menjadi bagian-bagian kecil dan menugaskannya ke banyak komputer. Nantinya, hasil dikumpulkan di satu tempat dan diintegrasikan untuk membentuk dataset hasil.

Bagaimana MapReduce Bekerja?

Algoritma MapReduce berisi dua tugas penting, yaitu Map dan Reduce.

  • Tugas Peta mengambil sekumpulan data dan mengubahnya menjadi kumpulan data lain, di mana elemen individual dipecah menjadi tupel (pasangan nilai-kunci).

  • Tugas Reduce mengambil output dari Map sebagai input dan menggabungkan tupel data tersebut (key-value pair) menjadi sekumpulan tupel yang lebih kecil.

Tugas pengurangan selalu dilakukan setelah pekerjaan peta.

Sekarang, mari kita cermati masing-masing fase dan coba pahami signifikansinya.

  • Input Phase - Di sini kita memiliki Pembaca Rekaman yang menerjemahkan setiap catatan dalam file input dan mengirimkan data yang diuraikan ke pembuat peta dalam bentuk pasangan nilai kunci.

  • Map - Peta adalah fungsi yang ditentukan pengguna, yang mengambil serangkaian pasangan nilai kunci dan memprosesnya masing-masing untuk menghasilkan nol atau lebih pasangan nilai kunci.

  • Intermediate Keys - Pasangan kunci-nilai yang dihasilkan oleh mapper dikenal sebagai kunci perantara.

  • Combiner- Penggabung adalah jenis Reducer lokal yang mengelompokkan data serupa dari fase peta ke dalam set yang dapat diidentifikasi. Ini mengambil kunci perantara dari mapper sebagai masukan dan menerapkan kode yang ditentukan pengguna untuk menggabungkan nilai dalam lingkup kecil satu mapper. Ini bukan bagian dari algoritma MapReduce utama; itu opsional.

  • Shuffle and Sort- Tugas Peredam dimulai dengan langkah Acak dan Urutkan. Ini mengunduh pasangan nilai kunci yang dikelompokkan ke mesin lokal, tempat Peredam berjalan. Pasangan nilai kunci individual diurutkan berdasarkan kunci ke dalam daftar data yang lebih besar. Daftar data mengelompokkan kunci yang setara sehingga nilainya dapat diiterasi dengan mudah dalam tugas Reducer.

  • Reducer- Peredam mengambil data pasangan nilai-kunci yang dikelompokkan sebagai input dan menjalankan fungsi Peredam di masing-masing data. Di sini, data dapat digabungkan, difilter, dan digabungkan dalam beberapa cara, dan memerlukan berbagai pemrosesan. Setelah eksekusi selesai, ini memberikan nol atau lebih pasangan nilai kunci ke langkah terakhir.

  • Output Phase - Dalam fase keluaran, kita memiliki pemformat keluaran yang menerjemahkan pasangan nilai kunci terakhir dari fungsi Reducer dan menuliskannya ke dalam file menggunakan penulis rekaman.

Mari kita coba memahami dua tugas Map & f Reduce dengan bantuan diagram kecil -

MapReduce-Example

Mari kita ambil contoh dunia nyata untuk memahami kekuatan MapReduce. Twitter menerima sekitar 500 juta tweet per hari, yang berarti hampir 3000 tweet per detik. Ilustrasi berikut menunjukkan bagaimana Tweeter mengelola tweet-nya dengan bantuan MapReduce.

Seperti yang diperlihatkan dalam ilustrasi, algoritma MapReduce melakukan tindakan berikut -

  • Tokenize - Tokenize tweet ke dalam peta token dan menulisnya sebagai pasangan nilai kunci.

  • Filter - Memfilter kata-kata yang tidak diinginkan dari peta token dan menulis peta yang difilter sebagai pasangan nilai kunci.

  • Count - Menghasilkan penghitung token per kata.

  • Aggregate Counters - Mempersiapkan agregat nilai penghitung serupa ke dalam unit-unit kecil yang dapat dikelola.