HBase - ภาพรวม

ตั้งแต่ปี 1970 RDBMS เป็นโซลูชันสำหรับการจัดเก็บข้อมูลและปัญหาที่เกี่ยวข้องกับการบำรุงรักษา หลังจากการถือกำเนิดของข้อมูลขนาดใหญ่ บริษัท ต่างๆได้ตระหนักถึงประโยชน์ของการประมวลผลข้อมูลขนาดใหญ่และเริ่มเลือกใช้โซลูชันเช่น Hadoop

Hadoop ใช้ระบบไฟล์แบบกระจายสำหรับจัดเก็บข้อมูลขนาดใหญ่และ MapReduce เพื่อประมวลผล Hadoop มีความเชี่ยวชาญในการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ในรูปแบบต่างๆเช่นตามอำเภอใจกึ่งหรือแม้กระทั่งไม่มีโครงสร้าง

ข้อ จำกัด ของ Hadoop

Hadoop สามารถดำเนินการได้เฉพาะการประมวลผลแบบแบตช์และข้อมูลจะถูกเข้าถึงในลักษณะตามลำดับเท่านั้น นั่นหมายความว่าเราต้องค้นหาชุดข้อมูลทั้งหมดแม้จะเป็นงานที่ง่ายที่สุดก็ตาม

ชุดข้อมูลขนาดใหญ่เมื่อประมวลผลจะทำให้เกิดชุดข้อมูลขนาดใหญ่อีกชุดหนึ่งซึ่งควรประมวลผลตามลำดับ ณ จุดนี้จำเป็นต้องใช้โซลูชันใหม่ในการเข้าถึงจุดใด ๆ ของข้อมูลในหน่วยเวลาเดียว (การเข้าถึงแบบสุ่ม)

ฐานข้อมูล Hadoop Random Access

แอปพลิเคชันเช่น HBase, Cassandra, couchDB, Dynamo และ MongoDB เป็นฐานข้อมูลบางส่วนที่จัดเก็บข้อมูลจำนวนมากและเข้าถึงข้อมูลในลักษณะสุ่ม

HBase คืออะไร?

HBase เป็นฐานข้อมูลเชิงคอลัมน์แบบกระจายที่สร้างขึ้นที่ด้านบนของระบบไฟล์ Hadoop เป็นโครงการโอเพ่นซอร์สและปรับขนาดได้ในแนวนอน

HBase เป็นรูปแบบข้อมูลที่คล้ายกับตารางขนาดใหญ่ของ Google ที่ออกแบบมาเพื่อให้เข้าถึงข้อมูลที่มีโครงสร้างจำนวนมหาศาลโดยสุ่มได้อย่างรวดเร็ว มันใช้ประโยชน์จากความทนทานต่อความผิดพลาดที่จัดเตรียมโดย Hadoop File System (HDFS)

เป็นส่วนหนึ่งของระบบนิเวศ Hadoop ที่ให้การเข้าถึงข้อมูลแบบสุ่มอ่าน / เขียนแบบเรียลไทม์ใน Hadoop File System

สามารถจัดเก็บข้อมูลใน HDFS ได้โดยตรงหรือผ่าน HBase ผู้บริโภคข้อมูลอ่าน / เข้าถึงข้อมูลใน HDFS แบบสุ่มโดยใช้ HBase HBase อยู่ด้านบนของ Hadoop File System และให้การเข้าถึงแบบอ่านและเขียน

HBase และ HDFS

HDFS HBase
HDFS เป็นระบบไฟล์แบบกระจายเหมาะสำหรับจัดเก็บไฟล์ขนาดใหญ่ HBase เป็นฐานข้อมูลที่สร้างขึ้นจาก HDFS
HDFS ไม่รองรับการค้นหาบันทึกแต่ละรายการอย่างรวดเร็ว HBase ให้การค้นหาอย่างรวดเร็วสำหรับตารางขนาดใหญ่
มีการประมวลผลแบทช์ที่มีความหน่วงสูง ไม่มีแนวคิดของการประมวลผลชุดงาน ให้การเข้าถึงแถวเดียวที่มีเวลาแฝงต่ำจากบันทึกหลายพันล้านรายการ (การเข้าถึงแบบสุ่ม)
ให้การเข้าถึงข้อมูลตามลำดับเท่านั้น HBase ใช้ตาราง Hash ภายในและให้การเข้าถึงแบบสุ่มและจัดเก็บข้อมูลในไฟล์ HDFS ที่จัดทำดัชนีเพื่อการค้นหาที่เร็วขึ้น

กลไกการจัดเก็บใน HBase

HBase คือ column-oriented databaseและตารางในนั้นจะเรียงตามแถว สคีมาของตารางกำหนดเฉพาะตระกูลคอลัมน์ซึ่งเป็นคู่คีย์ค่า ตารางมีหลายคอลัมน์และแต่ละตระกูลคอลัมน์สามารถมีคอลัมน์กี่คอลัมน์ก็ได้ ค่าของคอลัมน์ที่ตามมาจะถูกจัดเก็บอย่างต่อเนื่องบนดิสก์ ค่าแต่ละเซลล์ของตารางมีการประทับเวลา ในระยะสั้นใน HBase:

  • ตารางคือชุดของแถว
  • Row คือชุดของตระกูลคอลัมน์
  • Column family คือชุดของคอลัมน์
  • คอลัมน์คือชุดของคู่ค่าคีย์

ด้านล่างนี้เป็นตัวอย่างสคีมาของตารางใน HBase

Rowid คอลัมน์ครอบครัว คอลัมน์ครอบครัว คอลัมน์ครอบครัว คอลัมน์ครอบครัว
col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3
1
2
3

เชิงคอลัมน์และเชิงแถว

ฐานข้อมูลที่เน้นคอลัมน์คือฐานข้อมูลที่จัดเก็บตารางข้อมูลเป็นส่วนของคอลัมน์ของข้อมูลแทนที่จะเป็นแถวของข้อมูล ไม่นานพวกเขาจะมีครอบครัวคอลัมน์

ฐานข้อมูลเชิงแถว ฐานข้อมูลเชิงคอลัมน์
เหมาะสำหรับ Online Transaction Process (OLTP) เหมาะสำหรับ Online Analytical Processing (OLAP)
ฐานข้อมูลดังกล่าวออกแบบมาสำหรับแถวและคอลัมน์จำนวนน้อย ฐานข้อมูลเชิงคอลัมน์ได้รับการออกแบบมาสำหรับตารางขนาดใหญ่

รูปภาพต่อไปนี้แสดงตระกูลคอลัมน์ในฐานข้อมูลเชิงคอลัมน์:

HBase และ RDBMS

HBase RDBMS
HBase เป็น schema-less ไม่มีแนวคิดของ schema คอลัมน์คงที่ กำหนดเฉพาะคอลัมน์ตระกูล RDBMS ถูกควบคุมโดยสคีมาซึ่งอธิบายโครงสร้างทั้งหมดของตาราง
สร้างขึ้นสำหรับโต๊ะกว้าง HBase สามารถปรับขนาดได้ในแนวนอน มีขนาดบางและสร้างขึ้นสำหรับโต๊ะขนาดเล็ก ยากที่จะปรับขนาด
ไม่มีธุรกรรมใน HBase RDBMS เป็นธุรกรรม
มีข้อมูลที่ไม่เป็นมาตรฐาน มันจะมีข้อมูลที่ทำให้เป็นมาตรฐาน
เหมาะสำหรับข้อมูลกึ่งโครงสร้างและข้อมูลที่มีโครงสร้าง เหมาะสำหรับข้อมูลที่มีโครงสร้าง

คุณสมบัติของ HBase

  • HBase สามารถปรับขนาดได้เชิงเส้น
  • มีการสนับสนุนความล้มเหลวโดยอัตโนมัติ
  • ให้การอ่านและเขียนที่สอดคล้องกัน
  • ผสานรวมกับ Hadoop ทั้งต้นทางและปลายทาง
  • มี java API ที่ง่ายสำหรับไคลเอนต์
  • มีการจำลองข้อมูลข้ามคลัสเตอร์

ใช้ HBase ได้ที่ไหน

  • Apache HBase ใช้เพื่อเข้าถึงข้อมูลขนาดใหญ่แบบอ่าน / เขียนแบบสุ่มแบบเรียลไทม์

  • มีโต๊ะขนาดใหญ่มากอยู่ด้านบนของกลุ่มฮาร์ดแวร์สินค้าโภคภัณฑ์

  • Apache HBase เป็นฐานข้อมูลที่ไม่เกี่ยวข้องซึ่งจำลองมาจาก Bigtable ของ Google Bigtable ทำงานบนระบบไฟล์ของ Google เช่นเดียวกัน Apache HBase ทำงานบน Hadoop และ HDFS

การใช้งาน HBase

  • ใช้เมื่อใดก็ตามที่จำเป็นต้องเขียนแอพพลิเคชั่นหนัก ๆ
  • HBase ใช้เมื่อใดก็ตามที่เราต้องการให้การเข้าถึงข้อมูลที่มีอยู่โดยสุ่มอย่างรวดเร็ว
  • บริษัท ต่างๆเช่น Facebook, Twitter, Yahoo และ Adobe ใช้ HBase เป็นการภายใน

ประวัติ HBase

ปี เหตุการณ์
พ.ย. 2549 Google เปิดตัวกระดาษบน BigTable
ก.พ. 2550 ต้นแบบ HBase เริ่มต้นถูกสร้างขึ้นเพื่อสนับสนุน Hadoop
ต.ค. 2550 HBase ที่ใช้งานได้ตัวแรกพร้อมกับ Hadoop 0.15.0 ได้รับการเผยแพร่
ม.ค. 2551 HBase กลายเป็นโครงการย่อยของ Hadoop
ต.ค. 2551 HBase 0.18.1 เปิดตัวแล้ว
ม.ค. 2552 HBase 0.19.0 เปิดตัวแล้ว
ก.ย. 2552 HBase 0.20.0 ถูกปล่อยออกมา
พฤษภาคม 2553 HBase กลายเป็นโครงการระดับบนสุดของ Apache