Hadoop - Ikhtisar Big Data

"90% dari data dunia dihasilkan dalam beberapa tahun terakhir."

Karena kemunculan teknologi, perangkat, dan sarana komunikasi baru seperti situs jejaring sosial, jumlah data yang dihasilkan umat manusia tumbuh pesat setiap tahun. Jumlah data yang kami hasilkan dari awal waktu hingga tahun 2003 adalah 5 miliar gigabyte. Jika Anda menumpuk data dalam bentuk disk, itu mungkin memenuhi seluruh lapangan sepak bola. Jumlah yang sama dibuat setiap dua hari dalam2011, dan setiap sepuluh menit masuk 2013. Angka ini masih tumbuh dengan pesat. Meskipun semua informasi yang dihasilkan ini bermakna dan dapat berguna saat diproses, namun hal itu diabaikan.

Apa itu Big Data?

Big dataadalah kumpulan kumpulan data besar yang tidak dapat diproses menggunakan teknik komputasi tradisional. Ini bukan satu teknik atau alat, melainkan telah menjadi subjek yang lengkap, yang melibatkan berbagai alat, teknik, dan kerangka kerja.

Apa Yang Ada Di Bawah Big Data?

Data besar melibatkan data yang dihasilkan oleh perangkat dan aplikasi yang berbeda. Diberikan di bawah ini adalah beberapa bidang yang berada di bawah payung Big Data.

  • Black Box Data - Ini adalah komponen helikopter, pesawat terbang, dan jet, dll. Ini menangkap suara awak pesawat, rekaman mikrofon dan earphone, dan informasi kinerja pesawat.

  • Social Media Data - Media sosial seperti Facebook dan Twitter menyimpan informasi dan pandangan yang diposting oleh jutaan orang di seluruh dunia.

  • Stock Exchange Data - Data bursa saham menyimpan informasi tentang keputusan 'beli' dan 'jual' yang dibuat atas saham perusahaan berbeda yang dibuat oleh pelanggan.

  • Power Grid Data - Data jaringan listrik menyimpan informasi yang dikonsumsi oleh node tertentu sehubungan dengan stasiun pangkalan.

  • Transport Data - Data transportasi meliputi model, kapasitas, jarak dan ketersediaan kendaraan.

  • Search Engine Data - Mesin pencari mengambil banyak data dari database yang berbeda.

Jadi Big Data mencakup volume yang sangat besar, kecepatan tinggi, dan variasi data yang dapat diperluas. Data di dalamnya terdiri dari tiga jenis.

  • Structured data - Data relasional.

  • Semi Structured data - Data XML.

  • Unstructured data - Word, PDF, Teks, Log Media.

Manfaat Big Data

  • Dengan menggunakan informasi yang disimpan di jejaring sosial seperti Facebook, agensi pemasaran mempelajari tanggapan untuk kampanye, promosi, dan media periklanan lainnya.

  • Menggunakan informasi di media sosial seperti preferensi dan persepsi produk konsumen mereka, perusahaan produk dan organisasi ritel merencanakan produksinya.

  • Dengan menggunakan data riwayat kesehatan pasien sebelumnya, rumah sakit memberikan layanan yang lebih baik dan cepat.

Teknologi Big Data

Teknologi big data penting dalam menyediakan analisis yang lebih akurat, yang dapat menghasilkan pengambilan keputusan yang lebih konkret yang menghasilkan efisiensi operasional yang lebih besar, pengurangan biaya, dan risiko bisnis yang lebih rendah.

Untuk memanfaatkan kekuatan big data, Anda memerlukan infrastruktur yang dapat mengelola dan memproses data terstruktur dan tidak terstruktur dalam jumlah besar secara realtime dan dapat melindungi privasi dan keamanan data.

Ada berbagai teknologi di pasar dari vendor yang berbeda termasuk Amazon, IBM, Microsoft, dll., Untuk menangani data besar. Sambil melihat ke dalam teknologi yang menangani big data, kami memeriksa dua kelas teknologi berikut -

Data Besar Operasional

Ini termasuk sistem seperti MongoDB yang menyediakan kemampuan operasional untuk beban kerja interaktif real-time di mana data terutama diambil dan disimpan.

Sistem NoSQL Big Data dirancang untuk memanfaatkan arsitektur komputasi awan baru yang telah muncul selama dekade terakhir untuk memungkinkan penghitungan besar-besaran dijalankan dengan murah dan efisien. Hal ini membuat beban kerja data besar operasional lebih mudah dikelola, lebih murah, dan lebih cepat untuk diterapkan.

Beberapa sistem NoSQL dapat memberikan wawasan tentang pola dan tren berdasarkan data waktu nyata dengan pengkodean minimal dan tanpa memerlukan ilmuwan data dan infrastruktur tambahan.

Big Data Analitis

Ini termasuk sistem seperti sistem database Massively Parallel Processing (MPP) dan MapReduce yang menyediakan kemampuan analitis untuk analisis retrospektif dan kompleks yang mungkin menyentuh sebagian besar atau semua data.

MapReduce menyediakan metode baru untuk menganalisis data yang melengkapi kemampuan yang disediakan oleh SQL, dan sistem berdasarkan MapReduce yang dapat ditingkatkan dari satu server ke ribuan mesin kelas atas dan bawah.

Kedua kelas teknologi ini saling melengkapi dan sering digunakan bersama.

Sistem Operasional vs. Analitis

Operasional Analitis
Latensi 1 md - 100 md 1 menit - 100 menit
Konkurensi 1000 - 100.000 1 - 10
Pola Akses Menulis dan Membaca Membaca
Pertanyaan Selektif Tidak selektif
Cakupan Data Operasional Retrospektif
Pengguna akhir Pelanggan Ilmuwan Data
Teknologi NoSQL MapReduce, Database MPP

Tantangan Big Data

Tantangan utama yang terkait dengan big data adalah sebagai berikut -

  • Menangkap data
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

Untuk memenuhi tantangan di atas, organisasi biasanya menggunakan bantuan server perusahaan.