Apache Tajo - Pendahuluan
Sistem Gudang Data Terdistribusi
Data warehouse adalah database relasional yang dirancang untuk query dan analisis daripada untuk pemrosesan transaksi. Ini adalah kumpulan data yang berorientasi pada subjek, terintegrasi, varian waktu, dan non-volatil. Data ini membantu analis untuk mengambil keputusan yang tepat dalam sebuah organisasi tetapi volume data relasional meningkat dari hari ke hari.
Untuk mengatasi tantangan tersebut, sistem gudang data terdistribusi membagikan data di beberapa repositori data untuk tujuan Online Analytical Processing (OLAP). Setiap gudang data mungkin milik satu atau lebih organisasi. Ia melakukan load balancing dan skalabilitas. Metadata direplikasi dan didistribusikan secara terpusat.
Apache Tajo adalah sistem gudang data terdistribusi yang menggunakan Hadoop Distributed File System (HDFS) sebagai lapisan penyimpanan dan memiliki mesin eksekusi kuerinya sendiri, bukan kerangka kerja MapReduce.
Ringkasan SQL di Hadoop
Hadoop adalah kerangka kerja sumber terbuka yang memungkinkan untuk menyimpan dan memproses data besar dalam lingkungan terdistribusi. Ini sangat cepat dan kuat. Namun, Hadoop memiliki kemampuan kueri yang terbatas sehingga kinerjanya dapat menjadi lebih baik dengan bantuan SQL di Hadoop. Ini memungkinkan pengguna untuk berinteraksi dengan Hadoop melalui perintah SQL yang mudah.
Beberapa contoh SQL pada aplikasi Hadoop adalah Hive, Impala, Drill, Presto, Spark, HAWQ dan Apache Tajo.
Apa itu Apache Tajo
Apache Tajo adalah kerangka kerja pemrosesan data relasional dan terdistribusi. Ini dirancang untuk latensi rendah dan analisis kueri ad-hoc yang skalabel.
Tajo mendukung SQL standar dan berbagai format data. Sebagian besar kueri Tajo dapat dijalankan tanpa modifikasi apa pun.
Tajo punya fault-tolerance melalui mekanisme restart untuk tugas-tugas yang gagal dan mesin penulisan ulang kueri yang dapat diperluas.
Tajo melakukan yang diperlukan ETL (Extract Transform and Load process)operasi untuk meringkas kumpulan data besar yang disimpan di HDFS. Ini adalah pilihan alternatif untuk Sarang / Babi.
Versi terbaru Tajo memiliki konektivitas yang lebih baik ke program Java dan database pihak ketiga seperti Oracle dan PostGreSQL.
Fitur Apache Tajo
Apache Tajo memiliki beberapa fitur berikut -
- Skalabilitas yang unggul dan kinerja yang dioptimalkan
- Latensi rendah
- Fungsi yang ditentukan pengguna
- Kerangka kerja pemrosesan penyimpanan baris / kolom.
- Kompatibilitas dengan HiveQL dan Hive MetaStore
- Aliran data sederhana dan perawatan mudah.
Manfaat Apache Tajo
Apache Tajo menawarkan keuntungan berikut -
- Mudah digunakan
- Arsitektur yang disederhanakan
- Pengoptimalan kueri berbasis biaya
- Rencana eksekusi kueri vektor
- Pengiriman cepat
- Mekanisme I / O sederhana dan mendukung berbagai jenis penyimpanan.
- Toleransi kesalahan
Kasus Penggunaan Apache Tajo
Berikut adalah beberapa kasus penggunaan Apache Tajo -
Penyimpanan dan analisis data
Perusahaan SK Telecom Korea menjalankan Tajo terhadap data senilai 1,7 terabyte dan menemukan bahwa itu dapat menyelesaikan kueri dengan kecepatan lebih tinggi daripada Hive atau Impala.
Penemuan data
Layanan streaming musik Korea Melon menggunakan Tajo untuk pemrosesan analitik. Tajo menjalankan tugas ETL (proses ekstrak-transform-load) 1,5 hingga 10 kali lebih cepat dari Hive.
Analisis log
Bluehole Studio, sebuah perusahaan yang berbasis di Korea mengembangkan TERA - sebuah game online fantasi multipemain. Perusahaan menggunakan Tajo untuk analisis log permainan dan menemukan penyebab utama gangguan kualitas layanan.
Format Penyimpanan dan Data
Apache Tajo mendukung format data berikut -
- JSON
- File teks (CSV)
- Parquet
- File Urutan
- AVRO
- Protocol Buffer
- Apache Orc
Tajo mendukung format penyimpanan berikut -
- HDFS
- JDBC
- Amazon S3
- Apache HBase
- Elasticsearch