Apache Flume - Panduan Cepat

Apa itu Flume?

Apache Flume adalah alat / layanan / mekanisme penyerapan data untuk mengumpulkan dan mengangkut data streaming dalam jumlah besar seperti file log, peristiwa (dll ...) dari berbagai sumber ke penyimpanan data terpusat.

Flume adalah alat yang sangat andal, terdistribusi, dan dapat dikonfigurasi. Ini pada dasarnya dirancang untuk menyalin data streaming (data log) dari berbagai server web ke HDFS.

Aplikasi Flume

Asumsikan aplikasi web e-commerce ingin menganalisis perilaku pelanggan dari wilayah tertentu. Untuk melakukannya, mereka perlu memindahkan data log yang tersedia ke Hadoop untuk dianalisis. Di sini, Apache Flume datang untuk menyelamatkan kita.

Flume digunakan untuk memindahkan data log yang dihasilkan oleh server aplikasi ke HDFS dengan kecepatan yang lebih tinggi.

Keuntungan Flume

Berikut keuntungan menggunakan Flume -

  • Menggunakan Apache Flume kita dapat menyimpan data ke salah satu toko terpusat (HBase, HDFS).

  • Ketika tingkat data yang masuk melebihi tingkat di mana data dapat ditulis ke tujuan, Flume bertindak sebagai mediator antara produsen data dan penyimpanan terpusat dan menyediakan aliran data yang stabil di antara mereka.

  • Flume menyediakan fitur contextual routing.

  • Transaksi di Flume berbasis saluran di mana dua transaksi (satu pengirim dan satu penerima) dipertahankan untuk setiap pesan. Ini menjamin pengiriman pesan yang andal.

  • Flume dapat diandalkan, toleran terhadap kesalahan, dapat diskalakan, dapat dikelola, dan dapat disesuaikan.

Fitur Flume

Beberapa fitur penting dari Flume adalah sebagai berikut -

  • Flume menyerap data log dari beberapa server web ke penyimpanan terpusat (HDFS, HBase) secara efisien.

  • Dengan Flume, kita bisa mendapatkan data dari beberapa server langsung ke Hadoop.

  • Bersamaan dengan file log, Flume juga digunakan untuk mengimpor data acara dalam jumlah besar yang dihasilkan oleh situs jejaring sosial seperti Facebook dan Twitter, dan situs web e-niaga seperti Amazon dan Flipkart.

  • Flume mendukung sekumpulan besar jenis sumber dan tujuan.

  • Flume mendukung aliran multi-hop, aliran fan-in fan-out, perutean kontekstual, dll.

  • Flume dapat diskalakan secara horizontal.

Big Data,seperti yang kita ketahui, adalah kumpulan kumpulan data besar yang tidak dapat diproses menggunakan teknik komputasi tradisional. Big Data, jika dianalisis, memberikan hasil yang berharga.Hadoop adalah kerangka kerja sumber terbuka yang memungkinkan untuk menyimpan dan memproses Big Data dalam lingkungan terdistribusi di seluruh cluster komputer menggunakan model pemrograman sederhana.

Streaming / Data Log

Umumnya, sebagian besar data yang akan dianalisis akan dihasilkan oleh berbagai sumber data seperti server aplikasi, situs jejaring sosial, server cloud, dan server perusahaan. Data ini akan berbentuklog files dan events.

Log file - Secara umum, file log adalah a fileyang mencantumkan peristiwa / tindakan yang terjadi dalam sistem operasi. Misalnya, server web mencantumkan setiap permintaan yang dibuat ke server di file log.

Saat memanen data log tersebut, kami dapat memperoleh informasi tentang -

  • kinerja aplikasi dan menemukan berbagai kegagalan perangkat lunak dan perangkat keras.
  • perilaku pengguna dan mendapatkan wawasan bisnis yang lebih baik.

Metode tradisional untuk mentransfer data ke sistem HDFS adalah dengan menggunakan putperintah. Mari kita lihat cara menggunakanput perintah.

HDFS menempatkan Command

Tantangan utama dalam menangani data log adalah memindahkan log yang dihasilkan oleh beberapa server ini ke lingkungan Hadoop.

Hadoop File System Shellmenyediakan perintah untuk memasukkan data ke Hadoop dan membacanya. Anda dapat memasukkan data ke Hadoop menggunakanput perintah seperti yang ditunjukkan di bawah ini.

$ Hadoop fs –put /path of the required file  /path in HDFS where to save the file

Masalah dengan put Command

Kita bisa menggunakan putperintah Hadoop untuk mentransfer data dari sumber ini ke HDFS. Tapi, itu menderita kekurangan berikut -

  • Menggunakan put perintah, kita dapat mentransfer only one file at a timesedangkan pembuat data menghasilkan data dengan kecepatan yang jauh lebih tinggi. Karena analisis yang dilakukan pada data lama kurang akurat, maka diperlukan solusi untuk mentransfer data secara real time.

  • Jika kami menggunakan putperintah, data perlu dikemas dan harus siap untuk diunggah. Karena server web menghasilkan data secara terus menerus, ini adalah tugas yang sangat sulit.

Yang kami butuhkan di sini adalah solusi yang dapat mengatasi kekurangannya put perintah dan transfer "streaming data" dari generator data ke penyimpanan terpusat (terutama HDFS) dengan penundaan yang lebih sedikit.

Masalah dengan HDFS

Dalam HDFS, file ada sebagai entri direktori dan panjang file akan dianggap nol sampai ditutup. Misalnya, jika suatu sumber sedang menulis data ke dalam HDFS dan jaringan terputus di tengah operasi (tanpa menutup file), maka data yang tertulis di file akan hilang.

Oleh karena itu diperlukan sistem yang handal, dapat dikonfigurasi, dan dipelihara untuk mentransfer data log ke dalam HDFS.

Note- Dalam sistem file POSIX, setiap kali kita mengakses file (misalnya menjalankan operasi tulis), program lain masih dapat membaca file ini (setidaknya bagian file yang disimpan). Ini karena file sudah ada di disk sebelum ditutup.

Solusi yang Tersedia

Untuk mengirim data streaming (file log, event dll ..,) dari berbagai sumber ke HDFS, kami memiliki alat-alat berikut yang tersedia untuk kami -

Penulis Facebook

Scribe adalah alat yang sangat populer yang digunakan untuk menggabungkan dan mengalirkan data log. Ini dirancang untuk menskalakan ke sejumlah besar node dan kuat untuk jaringan dan kegagalan node.

Apache Kafka

Kafka telah dikembangkan oleh Apache Software Foundation. Ini adalah broker pesan sumber terbuka. Dengan Kafka, kami dapat menangani feed dengan throughput tinggi dan latensi rendah.

Apache Flume

Apache Flume adalah mekanisme penyerapan alat / layanan / data untuk mengumpulkan dan mengangkut data streaming dalam jumlah besar seperti data log, peristiwa (dll ...) dari berbagai layanan web ke penyimpanan data terpusat.

Ini adalah alat yang sangat andal, terdistribusi, dan dapat dikonfigurasi yang pada prinsipnya dirancang untuk mentransfer data streaming dari berbagai sumber ke HDFS.

Dalam tutorial ini, kami akan membahas secara detail cara menggunakan Flume dengan beberapa contohnya.

Ilustrasi berikut menggambarkan arsitektur dasar Flume. Seperti yang diperlihatkan dalam ilustrasi,data generators (seperti Facebook, Twitter) menghasilkan data yang dikumpulkan oleh Flume individu agentsberlari di atasnya. Setelah itu, adata collector (yang juga merupakan agen) mengumpulkan data dari agen yang dikumpulkan dan didorong ke penyimpanan terpusat seperti HDFS atau HBase.

Acara Flume

Sebuah event adalah unit dasar dari data yang diangkut di dalamnya Flume. Ini berisi payload array byte yang akan diangkut dari sumber ke tujuan disertai dengan header opsional. Acara Flume tipikal akan memiliki struktur berikut -

Agen Flume

Sebuah agentadalah proses daemon independen (JVM) di Flume. Ini menerima data (peristiwa) dari klien atau agen lain dan meneruskannya ke tujuan berikutnya (sink atau agen). Flume mungkin memiliki lebih dari satu agen. Diagram berikut mewakili aFlume Agent

Seperti yang ditunjukkan pada diagram, Agen Flume berisi tiga komponen utama yaitu, source, channel, dan sink.

Sumber

SEBUAH source adalah komponen Agen yang menerima data dari penghasil data dan mentransfernya ke satu atau lebih saluran dalam bentuk peristiwa Flume.

Apache Flume mendukung beberapa jenis sumber dan setiap sumber menerima peristiwa dari generator data yang ditentukan.

Example - Sumber Avro, Sumber barang bekas, sumber twitter 1% dll.

Saluran

SEBUAH channeladalah penyimpanan sementara yang menerima peristiwa dari sumber dan menyangganya sampai dikonsumsi oleh sink. Ini bertindak sebagai jembatan antara sumber dan wastafel.

Saluran ini sepenuhnya transaksional dan dapat bekerja dengan sejumlah sumber dan sink.

Example - Saluran JDBC, Saluran sistem file, Saluran memori, dll.

Wastafel

SEBUAH sinkmenyimpan data ke dalam penyimpanan terpusat seperti HBase dan HDFS. Itu mengkonsumsi data (peristiwa) dari saluran dan mengirimkannya ke tujuan. Tujuan wastafel mungkin agen lain atau toko pusat.

Example - Wastafel HDFS

Note- Agen flume dapat memiliki berbagai sumber, sink, dan saluran. Kami telah membuat daftar semua sumber, sink, saluran yang didukung di bab konfigurasi Flume dari tutorial ini.

Komponen Tambahan Agen Flume

Apa yang telah kita bahas di atas adalah komponen primitif dari agen. Selain itu, kami memiliki beberapa komponen lagi yang memainkan peran penting dalam mentransfer peristiwa dari generator data ke penyimpanan terpusat.

Interceptors

Interceptors digunakan untuk mengubah / memeriksa kejadian flume yang ditransfer antara sumber dan saluran.

Pemilih Saluran

Ini digunakan untuk menentukan saluran mana yang akan dipilih untuk mentransfer data jika ada banyak saluran. Ada dua jenis pemilih saluran -

  • Default channel selectors - Ini juga dikenal sebagai pemilih saluran yang mereplikasi semua acara di setiap saluran.

  • Multiplexing channel selectors - Ini memutuskan saluran untuk mengirim acara berdasarkan alamat di tajuk acara itu.

Prosesor Tenggelam

Ini digunakan untuk memanggil sink tertentu dari grup sink yang dipilih. Ini digunakan untuk membuat jalur failover untuk sink Anda atau peristiwa load balance di beberapa sink dari sebuah saluran.

Flume adalah kerangka kerja yang digunakan untuk memindahkan data log ke HDFS. Umumnya peristiwa dan data log dihasilkan oleh server log dan server ini memiliki agen Flume yang menjalankannya. Agen ini menerima data dari penghasil data.

Data di agen ini akan dikumpulkan oleh node perantara yang dikenal sebagai Collector. Sama seperti agen, bisa ada banyak kolektor di Flume.

Terakhir, data dari semua kolektor ini akan dikumpulkan dan didorong ke penyimpanan terpusat seperti HBase atau HDFS. Diagram berikut menjelaskan aliran data di Flume.

Aliran Multi-hop

Di dalam Flume, mungkin ada beberapa agen dan sebelum mencapai tujuan akhir, sebuah acara dapat berjalan melalui lebih dari satu agen. Ini dikenal sebagaimulti-hop flow.

Aliran Fan-out

Aliran data dari satu sumber ke beberapa saluran dikenal sebagai fan-out flow. Ini dari dua jenis -

  • Replicating - Aliran data di mana data akan direplikasi di semua saluran yang dikonfigurasi.

  • Multiplexing - Aliran data dimana data akan dikirim ke saluran yang dipilih yang disebutkan di header acara.

Aliran Fan-in

Aliran data di mana data akan ditransfer dari banyak sumber ke satu saluran dikenal sebagai fan-in flow.

Penanganan Kegagalan

Di Flume, untuk setiap peristiwa, dua transaksi terjadi: satu di pengirim dan satu di penerima. Pengirim mengirimkan acara ke penerima. Segera setelah menerima data, penerima melakukan transaksinya sendiri dan mengirimkan sinyal yang "diterima" ke pengirim. Setelah menerima sinyal, pengirim melakukan transaksinya. (Pengirim tidak akan melakukan transaksinya sampai menerima sinyal dari penerima.)

Kita sudah membahas arsitektur Flume di bab sebelumnya. Di bab ini, mari kita lihat cara mengunduh dan mengatur Apache Flume.

Sebelum melangkah lebih jauh, Anda harus memiliki lingkungan Java di sistem Anda. Jadi pertama-tama, pastikan Anda telah menginstal Java di sistem Anda. Untuk beberapa contoh dalam tutorial ini, kami telah menggunakan Hadoop HDFS (sebagai sink). Oleh karena itu, kami menyarankan Anda untuk menginstal Hadoop bersama dengan Java. Untuk mengumpulkan lebih banyak informasi, ikuti tautan -http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

Memasang Flume

Pertama-tama, unduh perangkat lunak Apache Flume versi terbaru dari situs web https://flume.apache.org/.

Langkah 1

Buka situs webnya. Klik padadownloadtautan di sisi kiri beranda. Ini akan membawa Anda ke halaman unduhan Apache Flume.

Langkah 2

Di halaman Download, Anda dapat melihat link untuk file biner dan sumber Apache Flume. Klik pada link apache-flume-1.6.0-bin.tar.gz

Anda akan diarahkan ke daftar mirror di mana Anda dapat mulai mendownload dengan mengklik salah satu mirror ini. Dengan cara yang sama, Anda dapat mengunduh kode sumber Apache Flume dengan mengklik apache-flume-1.6.0-src.tar.gz .

LANGKAH 3

Buat direktori dengan nama Flume di direktori yang sama dengan direktori instalasi Hadoop, HBase, dan perangkat lunak lain telah diinstal (jika Anda telah menginstalnya) seperti yang ditunjukkan di bawah ini.

$ mkdir Flume

LANGKAH 4

Ekstrak file tar yang diunduh seperti yang ditunjukkan di bawah ini.

$ cd Downloads/ 
$ tar zxvf apache-flume-1.6.0-bin.tar.gz  
$ tar zxvf apache-flume-1.6.0-src.tar.gz

LANGKAH 5

Pindahkan konten apache-flume-1.6.0-bin.tar file ke Flumedirektori yang dibuat sebelumnya seperti yang ditunjukkan di bawah ini. (Asumsikan kita telah membuat direktori Flume di pengguna lokal bernama Hadoop.)

$ mv apache-flume-1.6.0-bin.tar/* /home/Hadoop/Flume/

Konfigurasi Flume

Untuk mengkonfigurasi Flume, kita harus memodifikasi tiga file yaitu, flume-env.sh, flumeconf.properties, dan bash.rc.

Mengatur Path / Classpath

Dalam .bashrc file, setel folder home, path, dan classpath untuk Flume seperti yang ditunjukkan di bawah ini.

folder conf

Jika Anda membuka file conf folder Apache Flume, Anda akan memiliki empat file berikut -

  • flume-conf.properties.template,
  • flume-env.sh.template,
  • flume-env.ps1.template, dan
  • log4j.properties.

Sekarang ganti nama

  • flume-conf.properties.template mengajukan sebagai flume-conf.properties dan

  • flume-env.sh.template sebagai flume-env.sh

flume-env.sh

Buka flume-env.sh file dan setel JAVA_Home ke folder tempat Java diinstal di sistem Anda.

Memverifikasi Instalasi

Verifikasi instalasi Apache Flume dengan menelusuri file bin folder dan ketikkan perintah berikut.

$ ./flume-ng

Jika Anda telah berhasil menginstal Flume, Anda akan mendapatkan prompt bantuan Flume seperti yang ditunjukkan di bawah ini.

Setelah menginstal Flume, kita perlu mengkonfigurasinya menggunakan file konfigurasi yang merupakan file properti Java key-value pairs. Kita perlu meneruskan nilai ke kunci dalam file.

Di file konfigurasi Flume, kita perlu -

  • Beri nama komponen agen saat ini.
  • Jelaskan / Konfigurasi sumber.
  • Jelaskan / Konfigurasi wastafel.
  • Jelaskan / Konfigurasi saluran.
  • Ikat sumber dan wastafel ke saluran.

Biasanya kita bisa memiliki banyak agen di Flume. Kami dapat membedakan setiap agen dengan menggunakan nama yang unik. Dan menggunakan nama ini, kita harus mengkonfigurasi setiap agen.

Memberi nama Komponen

Pertama-tama, Anda perlu memberi nama / daftar komponen seperti sumber, sink, dan saluran agen, seperti yang ditunjukkan di bawah ini.

agent_name.sources = source_name 
agent_name.sinks = sink_name 
agent_name.channels = channel_name

Flume mendukung berbagai sumber, sink, dan saluran. Mereka tercantum dalam tabel yang diberikan di bawah ini.

Sumber Saluran Tenggelam
  • Sumber Avro
  • Sumber Hemat
  • Exec Source
  • Sumber JMS
  • Sumber Direktori Spooling
  • Sumber firehose 1% Twitter
  • Sumber Kafka
  • Sumber NetCat
  • Sumber Generator Urutan
  • Sumber Syslog
  • Sumber TCP Syslog
  • Sumber TCP Syslog Multiport
  • Sumber UDP Syslog
  • Sumber HTTP
  • Sumber Stres
  • Sumber Warisan
  • Sumber Legacy Thrift
  • Sumber Kustom
  • Sumber Penulis
  • Saluran Memori
  • Saluran JDBC
  • Saluran Kafka
  • Saluran File
  • Saluran Memori yang Dapat Ditumpahkan
  • Saluran Transaksi Pseudo
  • HDFS Sink
  • Hive Sink
  • Logger Sink
  • Avro Sink
  • Thrift Sink
  • IRC Sink
  • File Roll Sink
  • Null Sink
  • HBaseSink
  • AsyncHBaseSink
  • MorphlineSolrSink
  • ElasticSearchSink
  • Kite Dataset Sink
  • Kafka Sink

Anda dapat menggunakan salah satunya. Misalnya, jika Anda mentransfer data Twitter menggunakan sumber Twitter melalui saluran memori ke sink HDFS, dan id nama agenTwitterAgent, kemudian

TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS

Setelah mendaftar komponen agen, Anda harus mendeskripsikan sumber, sink, dan saluran dengan memberikan nilai pada propertinya.

Menjelaskan Sumber

Setiap sumber akan memiliki daftar properti yang terpisah. Properti bernama "type" adalah umum untuk setiap sumber, dan digunakan untuk menentukan jenis sumber yang kita gunakan.

Bersama dengan properti "type", diperlukan untuk memberikan nilai dari semua required properti dari sumber tertentu untuk mengkonfigurasinya, seperti yang ditunjukkan di bawah ini.

agent_name.sources. source_name.type = value 
agent_name.sources. source_name.property2 = value 
agent_name.sources. source_name.property3 = value

Misalnya, jika kita mempertimbangkan file twitter source, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.

TwitterAgent.sources.Twitter.type = Twitter (type name) 
TwitterAgent.sources.Twitter.consumerKey =  
TwitterAgent.sources.Twitter.consumerSecret = 
TwitterAgent.sources.Twitter.accessToken =   
TwitterAgent.sources.Twitter.accessTokenSecret =

Menjelaskan Wastafel

Sama seperti sumbernya, setiap sink akan memiliki daftar properti terpisah. Properti bernama "type" adalah umum untuk setiap sink, dan digunakan untuk menentukan jenis sink yang kita gunakan. Bersama dengan properti "type", diperlukan untuk memberikan nilai untuk semuarequired properti sink tertentu untuk mengkonfigurasinya, seperti yang ditunjukkan di bawah ini.

agent_name.sinks. sink_name.type = value 
agent_name.sinks. sink_name.property2 = value 
agent_name.sinks. sink_name.property3 = value

Misalnya jika kita pertimbangkan HDFS sink, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.

TwitterAgent.sinks.HDFS.type = hdfs (type name)  
TwitterAgent.sinks.HDFS.hdfs.path = HDFS directory’s Path to store the data

Menjelaskan Channel

Flume menyediakan berbagai saluran untuk mentransfer data antara sumber dan sink. Oleh karena itu, beserta sumber dan salurannya, perlu dijelaskan saluran yang digunakan pada agen tersebut.

Untuk mendeskripsikan setiap saluran, Anda perlu mengatur properti yang diperlukan, seperti yang ditunjukkan di bawah ini.

agent_name.channels.channel_name.type = value 
agent_name.channels.channel_name. property2 = value 
agent_name.channels.channel_name. property3 = value

Misalnya jika kita pertimbangkan memory channel, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.

TwitterAgent.channels.MemChannel.type = memory (type name)

Mengikat Sumber dan Tenggelam ke Saluran

Karena saluran menghubungkan sumber dan sink, keduanya harus diikat ke saluran, seperti yang ditunjukkan di bawah ini.

agent_name.sources.source_name.channels = channel_name 
agent_name.sinks.sink_name.channels = channel_name

Contoh berikut menunjukkan cara mengikat sumber dan sink ke saluran. Di sini, kami pertimbangkantwitter source, memory channel, dan HDFS sink.

TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channels = MemChannel

Memulai Agen Flume

Setelah konfigurasi, kita harus menjalankan agen Flume. Itu dilakukan sebagai berikut -

$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

dimana -

  • agent - Perintah untuk memulai agen Flume

  • --conf ,-c<conf> - Gunakan file konfigurasi di direktori conf

  • -f<file> - Menentukan jalur file konfigurasi, jika hilang

  • --name, -n <name> - Nama agen twitter

  • -D property =value - Menetapkan nilai properti sistem Java.

Menggunakan Flume, kita dapat mengambil data dari berbagai layanan dan mengirimkannya ke penyimpanan terpusat (HDFS dan HBase). Bab ini menjelaskan cara mengambil data dari layanan Twitter dan menyimpannya di HDFS menggunakan Apache Flume.

Seperti yang dibahas dalam Arsitektur Flume, server web menghasilkan data log dan data ini dikumpulkan oleh agen di Flume. Saluran menyangga data ini ke wastafel, yang akhirnya mendorongnya ke penyimpanan terpusat.

Dalam contoh yang diberikan di bab ini, kita akan membuat aplikasi dan mendapatkan tweet darinya menggunakan sumber twitter eksperimental yang disediakan oleh Apache Flume. Kami akan menggunakan saluran memori untuk menyangga tweet ini dan wastafel HDFS untuk mendorong tweet ini ke HDFS.

Untuk mengambil data Twitter, kita harus mengikuti langkah-langkah yang diberikan di bawah ini -

  • Buat Aplikasi twitter
  • Instal / Mulai HDFS
  • Konfigurasi Flume

Membuat Aplikasi Twitter

Untuk mendapatkan tweet dari Twitter maka perlu dibuat aplikasi Twitter. Ikuti langkah-langkah yang diberikan di bawah ini untuk membuat aplikasi Twitter.

Langkah 1

Untuk membuat aplikasi Twitter, klik tautan berikut https://apps.twitter.com/. Masuk ke akun Twitter Anda. Anda akan memiliki jendela Manajemen Aplikasi Twitter tempat Anda dapat membuat, menghapus, dan mengelola Aplikasi Twitter.

Langkah 2

Klik pada Create New Apptombol. Anda akan diarahkan ke jendela di mana Anda akan mendapatkan formulir aplikasi di mana Anda harus mengisi detail Anda untuk membuat Aplikasi. Saat mengisi alamat situs web, berikan pola URL lengkap, misalnya,http://example.com.

LANGKAH 3

Isi detailnya, terima Developer Agreement setelah selesai, klik Create your Twitter application buttonyang ada di bagian bawah halaman. Jika semuanya berjalan dengan baik, Aplikasi akan dibuat dengan detail yang diberikan seperti yang ditunjukkan di bawah ini.

LANGKAH 4

Dibawah keys and Access Tokens tab di bagian bawah halaman, Anda dapat melihat tombol bernama Create my access token. Klik di atasnya untuk menghasilkan token akses.

LANGKAH 5

Terakhir, klik file Test OAuthtombol yang ada di sisi kanan atas halaman. Ini akan mengarah ke halaman yang menampilkan fileConsumer key, Consumer secret, Access token, dan Access token secret. Salin detail ini. Ini berguna untuk mengkonfigurasi agen di Flume.

Memulai HDFS

Karena kami menyimpan data di HDFS, kami perlu menginstal / memverifikasi Hadoop. Mulai Hadoop dan buat folder di dalamnya untuk menyimpan data Flume. Ikuti langkah-langkah yang diberikan di bawah ini sebelum mengkonfigurasi Flume.

Langkah 1: Instal / Verifikasi Hadoop

Pasang Hadoop . Jika Hadoop sudah diinstal di sistem Anda, verifikasi penginstalan menggunakan perintah versi Hadoop, seperti yang ditunjukkan di bawah ini.

$ hadoop version

Jika sistem Anda berisi Hadoop, dan jika Anda telah menyetel variabel jalur, Anda akan mendapatkan keluaran berikut -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar

Langkah 2: Memulai Hadoop

Jelajahi sbin direktori Hadoop dan mulai benang dan Hadoop dfs (sistem file terdistribusi) seperti yang ditunjukkan di bawah ini.

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
  
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out

Langkah 3: Buat Direktori di HDFS

Di Hadoop DFS, Anda dapat membuat direktori menggunakan perintah mkdir. Jelajahi dan buat direktori dengan namatwitter_data di jalur yang diperlukan seperti yang ditunjukkan di bawah ini.

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data

Konfigurasi Flume

Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan sumber eksperimental yang disediakan oleh Apache Flume bernamaTwitter 1% Firehose Saluran memori dan HDFS sink.

Sumber Api 1% Twitter

Sumber ini sangat eksperimental. Ini menghubungkan ke 1% sampel Twitter Firehose menggunakan streaming API dan terus mengunduh tweet, mengubahnya menjadi format Avro, dan mengirim peristiwa Avro ke sink Flume hilir.

Kami akan mendapatkan sumber ini secara default bersama dengan instalasi Flume. Itujar file yang sesuai dengan sumber ini dapat ditemukan di lib folder seperti yang ditunjukkan di bawah ini.

Menyetel jalur kelas

Mengatur classpath variabel ke lib folder Flume masuk Flume-env.sh file seperti yang ditunjukkan di bawah ini.

export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*

Sumber ini membutuhkan detail seperti Consumer key, Consumer secret, Access token, dan Access token secretdari aplikasi Twitter. Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -

  • Channels

  • Source type : org.apache.flume.source.twitter.TwitterSource

  • consumerKey - Kunci konsumen OAuth

  • consumerSecret - Rahasia konsumen OAuth

  • accessToken - Token akses OAuth

  • accessTokenSecret - Rahasia token OAuth

  • maxBatchSize- Jumlah maksimum pesan twitter yang harus ada dalam kelompok twitter. Nilai defaultnya adalah 1000 (opsional).

  • maxBatchDurationMillis- Jumlah maksimum milidetik untuk menunggu sebelum menutup batch. Nilai defaultnya adalah 1000 (opsional).

Saluran

Kami menggunakan saluran memori. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran.

  • type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalahMemChannel.

  • Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100 (opsional).

  • TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Nilai defaultnya adalah 100 (opsional).

HDFS Sink

Wastafel ini menulis data ke dalam HDFS. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.

  • Channel

  • type - hdfs

  • hdfs.path - jalur direktori di HDFS tempat data akan disimpan.

Dan kami dapat memberikan beberapa nilai opsional berdasarkan skenario. Diberikan di bawah ini adalah properti opsional dari sink HDFS yang kita konfigurasikan dalam aplikasi kita.

  • fileType - Ini adalah format file yang diperlukan dari file HDFS kami. SequenceFile, DataStream dan CompressedStreamadalah tiga jenis yang tersedia dengan aliran ini. Dalam contoh kami, kami menggunakanDataStream.

  • writeFormat - Bisa berupa teks atau bisa ditulis.

  • batchSize- Ini adalah jumlah kejadian yang ditulis ke file sebelum di-flush ke HDFS. Nilai defaultnya adalah 100.

  • rollsize- Ini adalah ukuran file untuk memicu gulungan. Nilai defaultnya adalah 100.

  • rollCount- Ini adalah jumlah kejadian yang ditulis ke dalam file sebelum digulung. Nilai defaultnya adalah 10.

Contoh - File Konfigurasi

Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagaitwitter.conf di folder conf Flume.

# Naming the components on the current agent. 
TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS
  
# Describing/Configuring the source 
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret 
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token 
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret 
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
  
# Describing/Configuring the sink 

TwitterAgent.sinks.HDFS.type = hdfs 
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream 
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text 
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0 
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000 
 
# Describing/Configuring the channel 
TwitterAgent.channels.MemChannel.type = memory 
TwitterAgent.channels.MemChannel.capacity = 10000 
TwitterAgent.channels.MemChannel.transactionCapacity = 100
  
# Binding the source and sink to the channel 
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel

Eksekusi

Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.

$ cd $FLUME_HOME 
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

Jika semuanya berjalan dengan baik, streaming tweet ke HDFS akan dimulai. Diberikan di bawah ini adalah snapshot dari jendela command prompt saat mengambil tweet.

Memverifikasi HDFS

Anda dapat mengakses UI Web Administrasi Hadoop menggunakan URL yang diberikan di bawah ini.

http://localhost:50070/

Klik pada dropdown bernama Utilitiesdi sisi kanan halaman. Anda dapat melihat dua opsi seperti yang ditunjukkan pada snapshot yang diberikan di bawah ini.

Klik Browse the file systemdan masukkan jalur direktori HDFS tempat Anda menyimpan tweet. Dalam contoh kita, jalurnya adalah/user/Hadoop/twitter_data/. Kemudian, Anda dapat melihat daftar file log twitter yang disimpan dalam HDFS seperti yang diberikan di bawah ini.

Pada bab sebelumnya, kita telah melihat bagaimana mengambil data dari sumber twitter ke HDFS. Bab ini menjelaskan cara mengambil data dariSequence generator.

Prasyarat

Untuk menjalankan contoh yang diberikan dalam bab ini, Anda perlu menginstal HDFS bersama Flume. Oleh karena itu, verifikasi instalasi Hadoop dan mulai HDFS sebelum melanjutkan lebih jauh. (Lihat bab sebelumnya untuk mempelajari cara memulai HDFS).

Konfigurasi Flume

Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan asequence generator source, Sebuah memory channel, dan HDFS sink.

Sumber Generator Urutan

Ini adalah sumber yang menghasilkan peristiwa terus menerus. Ia memelihara penghitung yang dimulai dari 0 dan bertambah 1. Ini digunakan untuk tujuan pengujian. Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -

  • Channels

  • Source type - seq

Saluran

Kami menggunakan memorysaluran. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran tersebut. Diberikan di bawah ini adalah daftar properti yang perlu Anda suplai saat mengkonfigurasi saluran memori -

  • type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalah MemChannel.

  • Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100. (opsional)

  • TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Standarnya adalah 100. (opsional).

HDFS Sink

Wastafel ini menulis data ke dalam HDFS. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.

  • Channel

  • type - hdfs

  • hdfs.path - jalur direktori di HDFS tempat data akan disimpan.

Dan kami dapat memberikan beberapa nilai opsional berdasarkan skenario. Diberikan di bawah ini adalah properti opsional dari sink HDFS yang kita konfigurasikan dalam aplikasi kita.

  • fileType - Ini adalah format file yang diperlukan dari file HDFS kami. SequenceFile, DataStream dan CompressedStreamadalah tiga jenis yang tersedia dengan aliran ini. Dalam contoh kami, kami menggunakanDataStream.

  • writeFormat - Bisa berupa teks atau bisa ditulis.

  • batchSize- Ini adalah jumlah kejadian yang ditulis ke file sebelum di-flush ke HDFS. Nilai defaultnya adalah 100.

  • rollsize- Ini adalah ukuran file untuk memicu gulungan. Nilai defaultnya adalah 100.

  • rollCount- Ini adalah jumlah kejadian yang ditulis ke dalam file sebelum digulung. Nilai defaultnya adalah 10.

Contoh - File Konfigurasi

Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagaiseq_gen .conf di folder conf Flume.

# Naming the components on the current agent 

SeqGenAgent.sources = SeqSource   
SeqGenAgent.channels = MemChannel 
SeqGenAgent.sinks = HDFS 
 
# Describing/Configuring the source 
SeqGenAgent.sources.SeqSource.type = seq
  
# Describing/Configuring the sink
SeqGenAgent.sinks.HDFS.type = hdfs 
SeqGenAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/seqgen_data/
SeqGenAgent.sinks.HDFS.hdfs.filePrefix = log 
SeqGenAgent.sinks.HDFS.hdfs.rollInterval = 0
SeqGenAgent.sinks.HDFS.hdfs.rollCount = 10000
SeqGenAgent.sinks.HDFS.hdfs.fileType = DataStream 
 
# Describing/Configuring the channel 
SeqGenAgent.channels.MemChannel.type = memory 
SeqGenAgent.channels.MemChannel.capacity = 1000 
SeqGenAgent.channels.MemChannel.transactionCapacity = 100 
 
# Binding the source and sink to the channel 
SeqGenAgent.sources.SeqSource.channels = MemChannel
SeqGenAgent.sinks.HDFS.channel = MemChannel

Eksekusi

Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.

$ cd $FLUME_HOME 
$./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/seq_gen.conf 
   --name SeqGenAgent

Jika semuanya berjalan dengan baik, sumber mulai menghasilkan nomor urut yang akan didorong ke HDFS dalam bentuk file log.

Diberikan di bawah ini adalah snapshot dari jendela prompt perintah yang mengambil data yang dihasilkan oleh generator urutan ke dalam HDFS.

Memverifikasi HDFS

Anda dapat mengakses UI Web Administrasi Hadoop menggunakan URL berikut -

http://localhost:50070/

Klik pada dropdown bernama Utilitiesdi sisi kanan halaman. Anda dapat melihat dua opsi seperti yang ditunjukkan pada diagram di bawah ini.

Klik Browse the file system dan masukkan jalur direktori HDFS tempat Anda menyimpan data yang dihasilkan oleh generator urutan.

Dalam contoh kita, jalurnya adalah /user/Hadoop/ seqgen_data /. Kemudian, Anda dapat melihat daftar file log yang dibuat oleh generator urutan, yang disimpan di HDFS seperti yang diberikan di bawah ini.

Memverifikasi Isi File

Semua file log ini berisi angka dalam format berurutan. Anda dapat memverifikasi konten file ini di sistem file menggunakancat perintah seperti yang ditunjukkan di bawah ini.

Bab ini mengambil contoh untuk menjelaskan bagaimana Anda dapat membuat peristiwa dan kemudian memasukkannya ke dalam konsol. Untuk ini, kami menggunakanNetCat sumber dan logger wastafel.

Prasyarat

Untuk menjalankan contoh yang diberikan dalam bab ini, Anda perlu menginstal Flume.

Konfigurasi Flume

Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan aNetCat Source, Memory channel, dan a logger sink.

Sumber NetCat

Saat mengkonfigurasi sumber NetCat, kita harus menentukan port saat mengkonfigurasi sumber. Sekarang sumber (sumber NetCat) mendengarkan port yang diberikan dan menerima setiap baris yang kita masukkan di port tersebut sebagai peristiwa individu dan mentransfernya ke sink melalui saluran yang ditentukan.

Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -

  • channels

  • Source type - netcat

  • bind - Nama host atau alamat IP yang akan diikat.

  • port - Nomor port yang ingin kita dengarkan sumbernya.

Saluran

Kami menggunakan memorysaluran. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran tersebut. Diberikan di bawah ini adalah daftar properti yang perlu Anda suplai saat mengkonfigurasi saluran memori -

  • type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalahMemChannel.

  • Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100. (opsional)

  • TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Nilai defaultnya adalah 100. (opsional).

Logger Sink

Tenggelam ini mencatat semua peristiwa yang diteruskan padanya. Umumnya, ini digunakan untuk tujuan pengujian atau debugging. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.

  • Channel

  • type - penebang

Contoh File Konfigurasi

Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagainetcat.conf di folder conf Flume.

# Naming the components on the current agent
NetcatAgent.sources = Netcat   
NetcatAgent.channels = MemChannel 
NetcatAgent.sinks = LoggerSink  

# Describing/Configuring the source 
NetcatAgent.sources.Netcat.type = netcat 
NetcatAgent.sources.Netcat.bind = localhost
NetcatAgent.sources.Netcat.port = 56565  

# Describing/Configuring the sink 
NetcatAgent.sinks.LoggerSink.type = logger  

# Describing/Configuring the channel 
NetcatAgent.channels.MemChannel.type = memory 
NetcatAgent.channels.MemChannel.capacity = 1000 
NetcatAgent.channels.MemChannel.transactionCapacity = 100 
 
# Bind the source and sink to the channel 
NetcatAgent.sources.Netcat.channels = MemChannel
NetcatAgent.sinks. LoggerSink.channel = MemChannel

Eksekusi

Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.

$ cd $FLUME_HOME
$ ./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/netcat.conf 
   --name NetcatAgent -Dflume.root.logger=INFO,console

Jika semuanya berjalan dengan baik, sumber mulai mendengarkan port yang diberikan. Dalam hal ini, memang demikian56565. Diberikan di bawah ini adalah snapshot dari jendela prompt perintah dari sumber NetCat yang telah dimulai dan mendengarkan port 56565.

Meneruskan Data ke Sumber

Untuk meneruskan data ke sumber NetCat, Anda harus membuka port yang diberikan di file konfigurasi. Buka terminal terpisah dan hubungkan ke sumber (56565) menggunakancurlperintah. Ketika koneksi berhasil, Anda akan mendapatkan pesan "connected”Seperti yang ditunjukkan di bawah ini.

$ curl telnet://localhost:56565 
connected

Sekarang Anda dapat memasukkan data baris demi baris (setelah setiap baris, Anda harus menekan Enter). Sumber NetCat menerima setiap baris sebagai acara individu dan Anda akan menerima pesan "OK".

Setiap kali Anda selesai dengan mengirimkan data, Anda dapat keluar dari konsol dengan menekan (Ctrl+C). Diberikan di bawah ini adalah snapshot dari konsol di mana kita telah terhubung ke sumber menggunakancurl perintah.

Setiap baris yang dimasukkan di konsol di atas akan diterima sebagai acara individu oleh sumber. Karena kami telah menggunakan fileLogger sink, peristiwa ini akan login ke konsol (konsol sumber) melalui saluran yang ditentukan (dalam hal ini saluran memori).

Snapshot berikut menunjukkan konsol NetCat di mana peristiwa dicatat.