Apache Flume - Panduan Cepat
Apa itu Flume?
Apache Flume adalah alat / layanan / mekanisme penyerapan data untuk mengumpulkan dan mengangkut data streaming dalam jumlah besar seperti file log, peristiwa (dll ...) dari berbagai sumber ke penyimpanan data terpusat.
Flume adalah alat yang sangat andal, terdistribusi, dan dapat dikonfigurasi. Ini pada dasarnya dirancang untuk menyalin data streaming (data log) dari berbagai server web ke HDFS.
Aplikasi Flume
Asumsikan aplikasi web e-commerce ingin menganalisis perilaku pelanggan dari wilayah tertentu. Untuk melakukannya, mereka perlu memindahkan data log yang tersedia ke Hadoop untuk dianalisis. Di sini, Apache Flume datang untuk menyelamatkan kita.
Flume digunakan untuk memindahkan data log yang dihasilkan oleh server aplikasi ke HDFS dengan kecepatan yang lebih tinggi.
Keuntungan Flume
Berikut keuntungan menggunakan Flume -
Menggunakan Apache Flume kita dapat menyimpan data ke salah satu toko terpusat (HBase, HDFS).
Ketika tingkat data yang masuk melebihi tingkat di mana data dapat ditulis ke tujuan, Flume bertindak sebagai mediator antara produsen data dan penyimpanan terpusat dan menyediakan aliran data yang stabil di antara mereka.
Flume menyediakan fitur contextual routing.
Transaksi di Flume berbasis saluran di mana dua transaksi (satu pengirim dan satu penerima) dipertahankan untuk setiap pesan. Ini menjamin pengiriman pesan yang andal.
Flume dapat diandalkan, toleran terhadap kesalahan, dapat diskalakan, dapat dikelola, dan dapat disesuaikan.
Fitur Flume
Beberapa fitur penting dari Flume adalah sebagai berikut -
Flume menyerap data log dari beberapa server web ke penyimpanan terpusat (HDFS, HBase) secara efisien.
Dengan Flume, kita bisa mendapatkan data dari beberapa server langsung ke Hadoop.
Bersamaan dengan file log, Flume juga digunakan untuk mengimpor data acara dalam jumlah besar yang dihasilkan oleh situs jejaring sosial seperti Facebook dan Twitter, dan situs web e-niaga seperti Amazon dan Flipkart.
Flume mendukung sekumpulan besar jenis sumber dan tujuan.
Flume mendukung aliran multi-hop, aliran fan-in fan-out, perutean kontekstual, dll.
Flume dapat diskalakan secara horizontal.
Big Data,seperti yang kita ketahui, adalah kumpulan kumpulan data besar yang tidak dapat diproses menggunakan teknik komputasi tradisional. Big Data, jika dianalisis, memberikan hasil yang berharga.Hadoop adalah kerangka kerja sumber terbuka yang memungkinkan untuk menyimpan dan memproses Big Data dalam lingkungan terdistribusi di seluruh cluster komputer menggunakan model pemrograman sederhana.
Streaming / Data Log
Umumnya, sebagian besar data yang akan dianalisis akan dihasilkan oleh berbagai sumber data seperti server aplikasi, situs jejaring sosial, server cloud, dan server perusahaan. Data ini akan berbentuklog files dan events.
Log file - Secara umum, file log adalah a fileyang mencantumkan peristiwa / tindakan yang terjadi dalam sistem operasi. Misalnya, server web mencantumkan setiap permintaan yang dibuat ke server di file log.
Saat memanen data log tersebut, kami dapat memperoleh informasi tentang -
- kinerja aplikasi dan menemukan berbagai kegagalan perangkat lunak dan perangkat keras.
- perilaku pengguna dan mendapatkan wawasan bisnis yang lebih baik.
Metode tradisional untuk mentransfer data ke sistem HDFS adalah dengan menggunakan putperintah. Mari kita lihat cara menggunakanput perintah.
HDFS menempatkan Command
Tantangan utama dalam menangani data log adalah memindahkan log yang dihasilkan oleh beberapa server ini ke lingkungan Hadoop.
Hadoop File System Shellmenyediakan perintah untuk memasukkan data ke Hadoop dan membacanya. Anda dapat memasukkan data ke Hadoop menggunakanput perintah seperti yang ditunjukkan di bawah ini.
$ Hadoop fs –put /path of the required file /path in HDFS where to save the file
Masalah dengan put Command
Kita bisa menggunakan putperintah Hadoop untuk mentransfer data dari sumber ini ke HDFS. Tapi, itu menderita kekurangan berikut -
Menggunakan put perintah, kita dapat mentransfer only one file at a timesedangkan pembuat data menghasilkan data dengan kecepatan yang jauh lebih tinggi. Karena analisis yang dilakukan pada data lama kurang akurat, maka diperlukan solusi untuk mentransfer data secara real time.
Jika kami menggunakan putperintah, data perlu dikemas dan harus siap untuk diunggah. Karena server web menghasilkan data secara terus menerus, ini adalah tugas yang sangat sulit.
Yang kami butuhkan di sini adalah solusi yang dapat mengatasi kekurangannya put perintah dan transfer "streaming data" dari generator data ke penyimpanan terpusat (terutama HDFS) dengan penundaan yang lebih sedikit.
Masalah dengan HDFS
Dalam HDFS, file ada sebagai entri direktori dan panjang file akan dianggap nol sampai ditutup. Misalnya, jika suatu sumber sedang menulis data ke dalam HDFS dan jaringan terputus di tengah operasi (tanpa menutup file), maka data yang tertulis di file akan hilang.
Oleh karena itu diperlukan sistem yang handal, dapat dikonfigurasi, dan dipelihara untuk mentransfer data log ke dalam HDFS.
Note- Dalam sistem file POSIX, setiap kali kita mengakses file (misalnya menjalankan operasi tulis), program lain masih dapat membaca file ini (setidaknya bagian file yang disimpan). Ini karena file sudah ada di disk sebelum ditutup.
Solusi yang Tersedia
Untuk mengirim data streaming (file log, event dll ..,) dari berbagai sumber ke HDFS, kami memiliki alat-alat berikut yang tersedia untuk kami -
Penulis Facebook
Scribe adalah alat yang sangat populer yang digunakan untuk menggabungkan dan mengalirkan data log. Ini dirancang untuk menskalakan ke sejumlah besar node dan kuat untuk jaringan dan kegagalan node.
Apache Kafka
Kafka telah dikembangkan oleh Apache Software Foundation. Ini adalah broker pesan sumber terbuka. Dengan Kafka, kami dapat menangani feed dengan throughput tinggi dan latensi rendah.
Apache Flume
Apache Flume adalah mekanisme penyerapan alat / layanan / data untuk mengumpulkan dan mengangkut data streaming dalam jumlah besar seperti data log, peristiwa (dll ...) dari berbagai layanan web ke penyimpanan data terpusat.
Ini adalah alat yang sangat andal, terdistribusi, dan dapat dikonfigurasi yang pada prinsipnya dirancang untuk mentransfer data streaming dari berbagai sumber ke HDFS.
Dalam tutorial ini, kami akan membahas secara detail cara menggunakan Flume dengan beberapa contohnya.
Ilustrasi berikut menggambarkan arsitektur dasar Flume. Seperti yang diperlihatkan dalam ilustrasi,data generators (seperti Facebook, Twitter) menghasilkan data yang dikumpulkan oleh Flume individu agentsberlari di atasnya. Setelah itu, adata collector (yang juga merupakan agen) mengumpulkan data dari agen yang dikumpulkan dan didorong ke penyimpanan terpusat seperti HDFS atau HBase.
Acara Flume
Sebuah event adalah unit dasar dari data yang diangkut di dalamnya Flume. Ini berisi payload array byte yang akan diangkut dari sumber ke tujuan disertai dengan header opsional. Acara Flume tipikal akan memiliki struktur berikut -
Agen Flume
Sebuah agentadalah proses daemon independen (JVM) di Flume. Ini menerima data (peristiwa) dari klien atau agen lain dan meneruskannya ke tujuan berikutnya (sink atau agen). Flume mungkin memiliki lebih dari satu agen. Diagram berikut mewakili aFlume Agent
Seperti yang ditunjukkan pada diagram, Agen Flume berisi tiga komponen utama yaitu, source, channel, dan sink.
Sumber
SEBUAH source adalah komponen Agen yang menerima data dari penghasil data dan mentransfernya ke satu atau lebih saluran dalam bentuk peristiwa Flume.
Apache Flume mendukung beberapa jenis sumber dan setiap sumber menerima peristiwa dari generator data yang ditentukan.
Example - Sumber Avro, Sumber barang bekas, sumber twitter 1% dll.
Saluran
SEBUAH channeladalah penyimpanan sementara yang menerima peristiwa dari sumber dan menyangganya sampai dikonsumsi oleh sink. Ini bertindak sebagai jembatan antara sumber dan wastafel.
Saluran ini sepenuhnya transaksional dan dapat bekerja dengan sejumlah sumber dan sink.
Example - Saluran JDBC, Saluran sistem file, Saluran memori, dll.
Wastafel
SEBUAH sinkmenyimpan data ke dalam penyimpanan terpusat seperti HBase dan HDFS. Itu mengkonsumsi data (peristiwa) dari saluran dan mengirimkannya ke tujuan. Tujuan wastafel mungkin agen lain atau toko pusat.
Example - Wastafel HDFS
Note- Agen flume dapat memiliki berbagai sumber, sink, dan saluran. Kami telah membuat daftar semua sumber, sink, saluran yang didukung di bab konfigurasi Flume dari tutorial ini.
Komponen Tambahan Agen Flume
Apa yang telah kita bahas di atas adalah komponen primitif dari agen. Selain itu, kami memiliki beberapa komponen lagi yang memainkan peran penting dalam mentransfer peristiwa dari generator data ke penyimpanan terpusat.
Interceptors
Interceptors digunakan untuk mengubah / memeriksa kejadian flume yang ditransfer antara sumber dan saluran.
Pemilih Saluran
Ini digunakan untuk menentukan saluran mana yang akan dipilih untuk mentransfer data jika ada banyak saluran. Ada dua jenis pemilih saluran -
Default channel selectors - Ini juga dikenal sebagai pemilih saluran yang mereplikasi semua acara di setiap saluran.
Multiplexing channel selectors - Ini memutuskan saluran untuk mengirim acara berdasarkan alamat di tajuk acara itu.
Prosesor Tenggelam
Ini digunakan untuk memanggil sink tertentu dari grup sink yang dipilih. Ini digunakan untuk membuat jalur failover untuk sink Anda atau peristiwa load balance di beberapa sink dari sebuah saluran.
Flume adalah kerangka kerja yang digunakan untuk memindahkan data log ke HDFS. Umumnya peristiwa dan data log dihasilkan oleh server log dan server ini memiliki agen Flume yang menjalankannya. Agen ini menerima data dari penghasil data.
Data di agen ini akan dikumpulkan oleh node perantara yang dikenal sebagai Collector. Sama seperti agen, bisa ada banyak kolektor di Flume.
Terakhir, data dari semua kolektor ini akan dikumpulkan dan didorong ke penyimpanan terpusat seperti HBase atau HDFS. Diagram berikut menjelaskan aliran data di Flume.
Aliran Multi-hop
Di dalam Flume, mungkin ada beberapa agen dan sebelum mencapai tujuan akhir, sebuah acara dapat berjalan melalui lebih dari satu agen. Ini dikenal sebagaimulti-hop flow.
Aliran Fan-out
Aliran data dari satu sumber ke beberapa saluran dikenal sebagai fan-out flow. Ini dari dua jenis -
Replicating - Aliran data di mana data akan direplikasi di semua saluran yang dikonfigurasi.
Multiplexing - Aliran data dimana data akan dikirim ke saluran yang dipilih yang disebutkan di header acara.
Aliran Fan-in
Aliran data di mana data akan ditransfer dari banyak sumber ke satu saluran dikenal sebagai fan-in flow.
Penanganan Kegagalan
Di Flume, untuk setiap peristiwa, dua transaksi terjadi: satu di pengirim dan satu di penerima. Pengirim mengirimkan acara ke penerima. Segera setelah menerima data, penerima melakukan transaksinya sendiri dan mengirimkan sinyal yang "diterima" ke pengirim. Setelah menerima sinyal, pengirim melakukan transaksinya. (Pengirim tidak akan melakukan transaksinya sampai menerima sinyal dari penerima.)
Kita sudah membahas arsitektur Flume di bab sebelumnya. Di bab ini, mari kita lihat cara mengunduh dan mengatur Apache Flume.
Sebelum melangkah lebih jauh, Anda harus memiliki lingkungan Java di sistem Anda. Jadi pertama-tama, pastikan Anda telah menginstal Java di sistem Anda. Untuk beberapa contoh dalam tutorial ini, kami telah menggunakan Hadoop HDFS (sebagai sink). Oleh karena itu, kami menyarankan Anda untuk menginstal Hadoop bersama dengan Java. Untuk mengumpulkan lebih banyak informasi, ikuti tautan -http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm
Memasang Flume
Pertama-tama, unduh perangkat lunak Apache Flume versi terbaru dari situs web https://flume.apache.org/.
Langkah 1
Buka situs webnya. Klik padadownloadtautan di sisi kiri beranda. Ini akan membawa Anda ke halaman unduhan Apache Flume.
Langkah 2
Di halaman Download, Anda dapat melihat link untuk file biner dan sumber Apache Flume. Klik pada link apache-flume-1.6.0-bin.tar.gz
Anda akan diarahkan ke daftar mirror di mana Anda dapat mulai mendownload dengan mengklik salah satu mirror ini. Dengan cara yang sama, Anda dapat mengunduh kode sumber Apache Flume dengan mengklik apache-flume-1.6.0-src.tar.gz .
LANGKAH 3
Buat direktori dengan nama Flume di direktori yang sama dengan direktori instalasi Hadoop, HBase, dan perangkat lunak lain telah diinstal (jika Anda telah menginstalnya) seperti yang ditunjukkan di bawah ini.
$ mkdir Flume
LANGKAH 4
Ekstrak file tar yang diunduh seperti yang ditunjukkan di bawah ini.
$ cd Downloads/
$ tar zxvf apache-flume-1.6.0-bin.tar.gz
$ tar zxvf apache-flume-1.6.0-src.tar.gz
LANGKAH 5
Pindahkan konten apache-flume-1.6.0-bin.tar file ke Flumedirektori yang dibuat sebelumnya seperti yang ditunjukkan di bawah ini. (Asumsikan kita telah membuat direktori Flume di pengguna lokal bernama Hadoop.)
$ mv apache-flume-1.6.0-bin.tar/* /home/Hadoop/Flume/
Konfigurasi Flume
Untuk mengkonfigurasi Flume, kita harus memodifikasi tiga file yaitu, flume-env.sh, flumeconf.properties, dan bash.rc.
Mengatur Path / Classpath
Dalam .bashrc file, setel folder home, path, dan classpath untuk Flume seperti yang ditunjukkan di bawah ini.
folder conf
Jika Anda membuka file conf folder Apache Flume, Anda akan memiliki empat file berikut -
- flume-conf.properties.template,
- flume-env.sh.template,
- flume-env.ps1.template, dan
- log4j.properties.
Sekarang ganti nama
flume-conf.properties.template mengajukan sebagai flume-conf.properties dan
flume-env.sh.template sebagai flume-env.sh
flume-env.sh
Buka flume-env.sh file dan setel JAVA_Home ke folder tempat Java diinstal di sistem Anda.
Memverifikasi Instalasi
Verifikasi instalasi Apache Flume dengan menelusuri file bin folder dan ketikkan perintah berikut.
$ ./flume-ng
Jika Anda telah berhasil menginstal Flume, Anda akan mendapatkan prompt bantuan Flume seperti yang ditunjukkan di bawah ini.
Setelah menginstal Flume, kita perlu mengkonfigurasinya menggunakan file konfigurasi yang merupakan file properti Java key-value pairs. Kita perlu meneruskan nilai ke kunci dalam file.
Di file konfigurasi Flume, kita perlu -
- Beri nama komponen agen saat ini.
- Jelaskan / Konfigurasi sumber.
- Jelaskan / Konfigurasi wastafel.
- Jelaskan / Konfigurasi saluran.
- Ikat sumber dan wastafel ke saluran.
Biasanya kita bisa memiliki banyak agen di Flume. Kami dapat membedakan setiap agen dengan menggunakan nama yang unik. Dan menggunakan nama ini, kita harus mengkonfigurasi setiap agen.
Memberi nama Komponen
Pertama-tama, Anda perlu memberi nama / daftar komponen seperti sumber, sink, dan saluran agen, seperti yang ditunjukkan di bawah ini.
agent_name.sources = source_name
agent_name.sinks = sink_name
agent_name.channels = channel_name
Flume mendukung berbagai sumber, sink, dan saluran. Mereka tercantum dalam tabel yang diberikan di bawah ini.
Sumber | Saluran | Tenggelam |
---|---|---|
|
|
|
Anda dapat menggunakan salah satunya. Misalnya, jika Anda mentransfer data Twitter menggunakan sumber Twitter melalui saluran memori ke sink HDFS, dan id nama agenTwitterAgent, kemudian
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
Setelah mendaftar komponen agen, Anda harus mendeskripsikan sumber, sink, dan saluran dengan memberikan nilai pada propertinya.
Menjelaskan Sumber
Setiap sumber akan memiliki daftar properti yang terpisah. Properti bernama "type" adalah umum untuk setiap sumber, dan digunakan untuk menentukan jenis sumber yang kita gunakan.
Bersama dengan properti "type", diperlukan untuk memberikan nilai dari semua required properti dari sumber tertentu untuk mengkonfigurasinya, seperti yang ditunjukkan di bawah ini.
agent_name.sources. source_name.type = value
agent_name.sources. source_name.property2 = value
agent_name.sources. source_name.property3 = value
Misalnya, jika kita mempertimbangkan file twitter source, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.
TwitterAgent.sources.Twitter.type = Twitter (type name)
TwitterAgent.sources.Twitter.consumerKey =
TwitterAgent.sources.Twitter.consumerSecret =
TwitterAgent.sources.Twitter.accessToken =
TwitterAgent.sources.Twitter.accessTokenSecret =
Menjelaskan Wastafel
Sama seperti sumbernya, setiap sink akan memiliki daftar properti terpisah. Properti bernama "type" adalah umum untuk setiap sink, dan digunakan untuk menentukan jenis sink yang kita gunakan. Bersama dengan properti "type", diperlukan untuk memberikan nilai untuk semuarequired properti sink tertentu untuk mengkonfigurasinya, seperti yang ditunjukkan di bawah ini.
agent_name.sinks. sink_name.type = value
agent_name.sinks. sink_name.property2 = value
agent_name.sinks. sink_name.property3 = value
Misalnya jika kita pertimbangkan HDFS sink, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.
TwitterAgent.sinks.HDFS.type = hdfs (type name)
TwitterAgent.sinks.HDFS.hdfs.path = HDFS directory’s Path to store the data
Menjelaskan Channel
Flume menyediakan berbagai saluran untuk mentransfer data antara sumber dan sink. Oleh karena itu, beserta sumber dan salurannya, perlu dijelaskan saluran yang digunakan pada agen tersebut.
Untuk mendeskripsikan setiap saluran, Anda perlu mengatur properti yang diperlukan, seperti yang ditunjukkan di bawah ini.
agent_name.channels.channel_name.type = value
agent_name.channels.channel_name. property2 = value
agent_name.channels.channel_name. property3 = value
Misalnya jika kita pertimbangkan memory channel, berikut adalah properti yang harus kita berikan nilai untuk mengkonfigurasinya.
TwitterAgent.channels.MemChannel.type = memory (type name)
Mengikat Sumber dan Tenggelam ke Saluran
Karena saluran menghubungkan sumber dan sink, keduanya harus diikat ke saluran, seperti yang ditunjukkan di bawah ini.
agent_name.sources.source_name.channels = channel_name
agent_name.sinks.sink_name.channels = channel_name
Contoh berikut menunjukkan cara mengikat sumber dan sink ke saluran. Di sini, kami pertimbangkantwitter source, memory channel, dan HDFS sink.
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channels = MemChannel
Memulai Agen Flume
Setelah konfigurasi, kita harus menjalankan agen Flume. Itu dilakukan sebagai berikut -
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
dimana -
agent - Perintah untuk memulai agen Flume
--conf ,-c<conf> - Gunakan file konfigurasi di direktori conf
-f<file> - Menentukan jalur file konfigurasi, jika hilang
--name, -n <name> - Nama agen twitter
-D property =value - Menetapkan nilai properti sistem Java.
Menggunakan Flume, kita dapat mengambil data dari berbagai layanan dan mengirimkannya ke penyimpanan terpusat (HDFS dan HBase). Bab ini menjelaskan cara mengambil data dari layanan Twitter dan menyimpannya di HDFS menggunakan Apache Flume.
Seperti yang dibahas dalam Arsitektur Flume, server web menghasilkan data log dan data ini dikumpulkan oleh agen di Flume. Saluran menyangga data ini ke wastafel, yang akhirnya mendorongnya ke penyimpanan terpusat.
Dalam contoh yang diberikan di bab ini, kita akan membuat aplikasi dan mendapatkan tweet darinya menggunakan sumber twitter eksperimental yang disediakan oleh Apache Flume. Kami akan menggunakan saluran memori untuk menyangga tweet ini dan wastafel HDFS untuk mendorong tweet ini ke HDFS.
Untuk mengambil data Twitter, kita harus mengikuti langkah-langkah yang diberikan di bawah ini -
- Buat Aplikasi twitter
- Instal / Mulai HDFS
- Konfigurasi Flume
Membuat Aplikasi Twitter
Untuk mendapatkan tweet dari Twitter maka perlu dibuat aplikasi Twitter. Ikuti langkah-langkah yang diberikan di bawah ini untuk membuat aplikasi Twitter.
Langkah 1
Untuk membuat aplikasi Twitter, klik tautan berikut https://apps.twitter.com/. Masuk ke akun Twitter Anda. Anda akan memiliki jendela Manajemen Aplikasi Twitter tempat Anda dapat membuat, menghapus, dan mengelola Aplikasi Twitter.
Langkah 2
Klik pada Create New Apptombol. Anda akan diarahkan ke jendela di mana Anda akan mendapatkan formulir aplikasi di mana Anda harus mengisi detail Anda untuk membuat Aplikasi. Saat mengisi alamat situs web, berikan pola URL lengkap, misalnya,http://example.com.
LANGKAH 3
Isi detailnya, terima Developer Agreement setelah selesai, klik Create your Twitter application buttonyang ada di bagian bawah halaman. Jika semuanya berjalan dengan baik, Aplikasi akan dibuat dengan detail yang diberikan seperti yang ditunjukkan di bawah ini.
LANGKAH 4
Dibawah keys and Access Tokens tab di bagian bawah halaman, Anda dapat melihat tombol bernama Create my access token. Klik di atasnya untuk menghasilkan token akses.
LANGKAH 5
Terakhir, klik file Test OAuthtombol yang ada di sisi kanan atas halaman. Ini akan mengarah ke halaman yang menampilkan fileConsumer key, Consumer secret, Access token, dan Access token secret. Salin detail ini. Ini berguna untuk mengkonfigurasi agen di Flume.
Memulai HDFS
Karena kami menyimpan data di HDFS, kami perlu menginstal / memverifikasi Hadoop. Mulai Hadoop dan buat folder di dalamnya untuk menyimpan data Flume. Ikuti langkah-langkah yang diberikan di bawah ini sebelum mengkonfigurasi Flume.
Langkah 1: Instal / Verifikasi Hadoop
Pasang Hadoop . Jika Hadoop sudah diinstal di sistem Anda, verifikasi penginstalan menggunakan perintah versi Hadoop, seperti yang ditunjukkan di bawah ini.
$ hadoop version
Jika sistem Anda berisi Hadoop, dan jika Anda telah menyetel variabel jalur, Anda akan mendapatkan keluaran berikut -
Hadoop 2.6.0
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar
Langkah 2: Memulai Hadoop
Jelajahi sbin direktori Hadoop dan mulai benang dan Hadoop dfs (sistem file terdistribusi) seperti yang ditunjukkan di bawah ini.
cd /$Hadoop_Home/sbin/
$ start-dfs.sh
localhost: starting namenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
starting secondarynamenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out
Langkah 3: Buat Direktori di HDFS
Di Hadoop DFS, Anda dapat membuat direktori menggunakan perintah mkdir. Jelajahi dan buat direktori dengan namatwitter_data di jalur yang diperlukan seperti yang ditunjukkan di bawah ini.
$cd /$Hadoop_Home/bin/
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data
Konfigurasi Flume
Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan sumber eksperimental yang disediakan oleh Apache Flume bernamaTwitter 1% Firehose Saluran memori dan HDFS sink.
Sumber Api 1% Twitter
Sumber ini sangat eksperimental. Ini menghubungkan ke 1% sampel Twitter Firehose menggunakan streaming API dan terus mengunduh tweet, mengubahnya menjadi format Avro, dan mengirim peristiwa Avro ke sink Flume hilir.
Kami akan mendapatkan sumber ini secara default bersama dengan instalasi Flume. Itujar file yang sesuai dengan sumber ini dapat ditemukan di lib folder seperti yang ditunjukkan di bawah ini.
Menyetel jalur kelas
Mengatur classpath variabel ke lib folder Flume masuk Flume-env.sh file seperti yang ditunjukkan di bawah ini.
export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*
Sumber ini membutuhkan detail seperti Consumer key, Consumer secret, Access token, dan Access token secretdari aplikasi Twitter. Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -
Channels
Source type : org.apache.flume.source.twitter.TwitterSource
consumerKey - Kunci konsumen OAuth
consumerSecret - Rahasia konsumen OAuth
accessToken - Token akses OAuth
accessTokenSecret - Rahasia token OAuth
maxBatchSize- Jumlah maksimum pesan twitter yang harus ada dalam kelompok twitter. Nilai defaultnya adalah 1000 (opsional).
maxBatchDurationMillis- Jumlah maksimum milidetik untuk menunggu sebelum menutup batch. Nilai defaultnya adalah 1000 (opsional).
Saluran
Kami menggunakan saluran memori. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran.
type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalahMemChannel.
Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100 (opsional).
TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Nilai defaultnya adalah 100 (opsional).
HDFS Sink
Wastafel ini menulis data ke dalam HDFS. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.
Channel
type - hdfs
hdfs.path - jalur direktori di HDFS tempat data akan disimpan.
Dan kami dapat memberikan beberapa nilai opsional berdasarkan skenario. Diberikan di bawah ini adalah properti opsional dari sink HDFS yang kita konfigurasikan dalam aplikasi kita.
fileType - Ini adalah format file yang diperlukan dari file HDFS kami. SequenceFile, DataStream dan CompressedStreamadalah tiga jenis yang tersedia dengan aliran ini. Dalam contoh kami, kami menggunakanDataStream.
writeFormat - Bisa berupa teks atau bisa ditulis.
batchSize- Ini adalah jumlah kejadian yang ditulis ke file sebelum di-flush ke HDFS. Nilai defaultnya adalah 100.
rollsize- Ini adalah ukuran file untuk memicu gulungan. Nilai defaultnya adalah 100.
rollCount- Ini adalah jumlah kejadian yang ditulis ke dalam file sebelum digulung. Nilai defaultnya adalah 10.
Contoh - File Konfigurasi
Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagaitwitter.conf di folder conf Flume.
# Naming the components on the current agent.
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
# Describing/Configuring the source
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
# Describing/Configuring the sink
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
# Describing/Configuring the channel
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100
# Binding the source and sink to the channel
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel
Eksekusi
Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.
$ cd $FLUME_HOME
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
Jika semuanya berjalan dengan baik, streaming tweet ke HDFS akan dimulai. Diberikan di bawah ini adalah snapshot dari jendela command prompt saat mengambil tweet.
Memverifikasi HDFS
Anda dapat mengakses UI Web Administrasi Hadoop menggunakan URL yang diberikan di bawah ini.
http://localhost:50070/
Klik pada dropdown bernama Utilitiesdi sisi kanan halaman. Anda dapat melihat dua opsi seperti yang ditunjukkan pada snapshot yang diberikan di bawah ini.
Klik Browse the file systemdan masukkan jalur direktori HDFS tempat Anda menyimpan tweet. Dalam contoh kita, jalurnya adalah/user/Hadoop/twitter_data/. Kemudian, Anda dapat melihat daftar file log twitter yang disimpan dalam HDFS seperti yang diberikan di bawah ini.
Pada bab sebelumnya, kita telah melihat bagaimana mengambil data dari sumber twitter ke HDFS. Bab ini menjelaskan cara mengambil data dariSequence generator.
Prasyarat
Untuk menjalankan contoh yang diberikan dalam bab ini, Anda perlu menginstal HDFS bersama Flume. Oleh karena itu, verifikasi instalasi Hadoop dan mulai HDFS sebelum melanjutkan lebih jauh. (Lihat bab sebelumnya untuk mempelajari cara memulai HDFS).
Konfigurasi Flume
Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan asequence generator source, Sebuah memory channel, dan HDFS sink.
Sumber Generator Urutan
Ini adalah sumber yang menghasilkan peristiwa terus menerus. Ia memelihara penghitung yang dimulai dari 0 dan bertambah 1. Ini digunakan untuk tujuan pengujian. Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -
Channels
Source type - seq
Saluran
Kami menggunakan memorysaluran. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran tersebut. Diberikan di bawah ini adalah daftar properti yang perlu Anda suplai saat mengkonfigurasi saluran memori -
type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalah MemChannel.
Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100. (opsional)
TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Standarnya adalah 100. (opsional).
HDFS Sink
Wastafel ini menulis data ke dalam HDFS. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.
Channel
type - hdfs
hdfs.path - jalur direktori di HDFS tempat data akan disimpan.
Dan kami dapat memberikan beberapa nilai opsional berdasarkan skenario. Diberikan di bawah ini adalah properti opsional dari sink HDFS yang kita konfigurasikan dalam aplikasi kita.
fileType - Ini adalah format file yang diperlukan dari file HDFS kami. SequenceFile, DataStream dan CompressedStreamadalah tiga jenis yang tersedia dengan aliran ini. Dalam contoh kami, kami menggunakanDataStream.
writeFormat - Bisa berupa teks atau bisa ditulis.
batchSize- Ini adalah jumlah kejadian yang ditulis ke file sebelum di-flush ke HDFS. Nilai defaultnya adalah 100.
rollsize- Ini adalah ukuran file untuk memicu gulungan. Nilai defaultnya adalah 100.
rollCount- Ini adalah jumlah kejadian yang ditulis ke dalam file sebelum digulung. Nilai defaultnya adalah 10.
Contoh - File Konfigurasi
Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagaiseq_gen .conf di folder conf Flume.
# Naming the components on the current agent
SeqGenAgent.sources = SeqSource
SeqGenAgent.channels = MemChannel
SeqGenAgent.sinks = HDFS
# Describing/Configuring the source
SeqGenAgent.sources.SeqSource.type = seq
# Describing/Configuring the sink
SeqGenAgent.sinks.HDFS.type = hdfs
SeqGenAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/seqgen_data/
SeqGenAgent.sinks.HDFS.hdfs.filePrefix = log
SeqGenAgent.sinks.HDFS.hdfs.rollInterval = 0
SeqGenAgent.sinks.HDFS.hdfs.rollCount = 10000
SeqGenAgent.sinks.HDFS.hdfs.fileType = DataStream
# Describing/Configuring the channel
SeqGenAgent.channels.MemChannel.type = memory
SeqGenAgent.channels.MemChannel.capacity = 1000
SeqGenAgent.channels.MemChannel.transactionCapacity = 100
# Binding the source and sink to the channel
SeqGenAgent.sources.SeqSource.channels = MemChannel
SeqGenAgent.sinks.HDFS.channel = MemChannel
Eksekusi
Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.
$ cd $FLUME_HOME
$./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/seq_gen.conf
--name SeqGenAgent
Jika semuanya berjalan dengan baik, sumber mulai menghasilkan nomor urut yang akan didorong ke HDFS dalam bentuk file log.
Diberikan di bawah ini adalah snapshot dari jendela prompt perintah yang mengambil data yang dihasilkan oleh generator urutan ke dalam HDFS.
Memverifikasi HDFS
Anda dapat mengakses UI Web Administrasi Hadoop menggunakan URL berikut -
http://localhost:50070/
Klik pada dropdown bernama Utilitiesdi sisi kanan halaman. Anda dapat melihat dua opsi seperti yang ditunjukkan pada diagram di bawah ini.
Klik Browse the file system dan masukkan jalur direktori HDFS tempat Anda menyimpan data yang dihasilkan oleh generator urutan.
Dalam contoh kita, jalurnya adalah /user/Hadoop/ seqgen_data /. Kemudian, Anda dapat melihat daftar file log yang dibuat oleh generator urutan, yang disimpan di HDFS seperti yang diberikan di bawah ini.
Memverifikasi Isi File
Semua file log ini berisi angka dalam format berurutan. Anda dapat memverifikasi konten file ini di sistem file menggunakancat perintah seperti yang ditunjukkan di bawah ini.
Bab ini mengambil contoh untuk menjelaskan bagaimana Anda dapat membuat peristiwa dan kemudian memasukkannya ke dalam konsol. Untuk ini, kami menggunakanNetCat sumber dan logger wastafel.
Prasyarat
Untuk menjalankan contoh yang diberikan dalam bab ini, Anda perlu menginstal Flume.
Konfigurasi Flume
Kita harus mengkonfigurasi sumber, saluran, dan wastafel menggunakan file konfigurasi di confmap. Contoh yang diberikan dalam bab ini menggunakan aNetCat Source, Memory channel, dan a logger sink.
Sumber NetCat
Saat mengkonfigurasi sumber NetCat, kita harus menentukan port saat mengkonfigurasi sumber. Sekarang sumber (sumber NetCat) mendengarkan port yang diberikan dan menerima setiap baris yang kita masukkan di port tersebut sebagai peristiwa individu dan mentransfernya ke sink melalui saluran yang ditentukan.
Saat mengonfigurasi sumber ini, Anda harus memberikan nilai ke properti berikut -
channels
Source type - netcat
bind - Nama host atau alamat IP yang akan diikat.
port - Nomor port yang ingin kita dengarkan sumbernya.
Saluran
Kami menggunakan memorysaluran. Untuk mengkonfigurasi saluran memori, Anda harus memberikan nilai pada jenis saluran tersebut. Diberikan di bawah ini adalah daftar properti yang perlu Anda suplai saat mengkonfigurasi saluran memori -
type- Ini memegang jenis saluran. Dalam contoh kami, jenisnya adalahMemChannel.
Capacity- Ini adalah jumlah maksimum acara yang disimpan di saluran. Nilai defaultnya adalah 100. (opsional)
TransactionCapacity- Ini adalah jumlah maksimum acara yang diterima atau dikirim saluran. Nilai defaultnya adalah 100. (opsional).
Logger Sink
Tenggelam ini mencatat semua peristiwa yang diteruskan padanya. Umumnya, ini digunakan untuk tujuan pengujian atau debugging. Untuk mengonfigurasi sink ini, Anda harus memberikan detail berikut.
Channel
type - penebang
Contoh File Konfigurasi
Diberikan di bawah ini adalah contoh file konfigurasi. Salin konten ini dan simpan sebagainetcat.conf di folder conf Flume.
# Naming the components on the current agent
NetcatAgent.sources = Netcat
NetcatAgent.channels = MemChannel
NetcatAgent.sinks = LoggerSink
# Describing/Configuring the source
NetcatAgent.sources.Netcat.type = netcat
NetcatAgent.sources.Netcat.bind = localhost
NetcatAgent.sources.Netcat.port = 56565
# Describing/Configuring the sink
NetcatAgent.sinks.LoggerSink.type = logger
# Describing/Configuring the channel
NetcatAgent.channels.MemChannel.type = memory
NetcatAgent.channels.MemChannel.capacity = 1000
NetcatAgent.channels.MemChannel.transactionCapacity = 100
# Bind the source and sink to the channel
NetcatAgent.sources.Netcat.channels = MemChannel
NetcatAgent.sinks. LoggerSink.channel = MemChannel
Eksekusi
Jelajahi direktori home Flume dan jalankan aplikasi seperti yang ditunjukkan di bawah ini.
$ cd $FLUME_HOME
$ ./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/netcat.conf
--name NetcatAgent -Dflume.root.logger=INFO,console
Jika semuanya berjalan dengan baik, sumber mulai mendengarkan port yang diberikan. Dalam hal ini, memang demikian56565. Diberikan di bawah ini adalah snapshot dari jendela prompt perintah dari sumber NetCat yang telah dimulai dan mendengarkan port 56565.
Meneruskan Data ke Sumber
Untuk meneruskan data ke sumber NetCat, Anda harus membuka port yang diberikan di file konfigurasi. Buka terminal terpisah dan hubungkan ke sumber (56565) menggunakancurlperintah. Ketika koneksi berhasil, Anda akan mendapatkan pesan "connected”Seperti yang ditunjukkan di bawah ini.
$ curl telnet://localhost:56565
connected
Sekarang Anda dapat memasukkan data baris demi baris (setelah setiap baris, Anda harus menekan Enter). Sumber NetCat menerima setiap baris sebagai acara individu dan Anda akan menerima pesan "OK".
Setiap kali Anda selesai dengan mengirimkan data, Anda dapat keluar dari konsol dengan menekan (Ctrl+C). Diberikan di bawah ini adalah snapshot dari konsol di mana kita telah terhubung ke sumber menggunakancurl perintah.
Setiap baris yang dimasukkan di konsol di atas akan diterima sebagai acara individu oleh sumber. Karena kami telah menggunakan fileLogger sink, peristiwa ini akan login ke konsol (konsol sumber) melalui saluran yang ditentukan (dalam hal ini saluran memori).
Snapshot berikut menunjukkan konsol NetCat di mana peristiwa dicatat.