HBase: descripción general

Desde 1970, RDBMS es la solución para problemas relacionados con el almacenamiento y mantenimiento de datos. Después de la llegada del Big Data, las empresas se dieron cuenta de los beneficios de procesar Big Data y comenzaron a optar por soluciones como Hadoop.

Hadoop utiliza un sistema de archivos distribuido para almacenar macrodatos y MapReduce para procesarlos. Hadoop sobresale en el almacenamiento y procesamiento de grandes datos de varios formatos, como arbitrarios, semi o incluso no estructurados.

Limitaciones de Hadoop

Hadoop solo puede realizar el procesamiento por lotes, y se accederá a los datos solo de manera secuencial. Eso significa que uno tiene que buscar en todo el conjunto de datos incluso para los trabajos más simples.

Un conjunto de datos enorme cuando se procesa da como resultado otro conjunto de datos enorme, que también debe procesarse secuencialmente. En este punto, se necesita una nueva solución para acceder a cualquier punto de datos en una sola unidad de tiempo (acceso aleatorio).

Bases de datos de acceso aleatorio de Hadoop

Aplicaciones como HBase, Cassandra, couchDB, Dynamo y MongoDB son algunas de las bases de datos que almacenan grandes cantidades de datos y acceden a los datos de forma aleatoria.

¿Qué es HBase?

HBase es una base de datos distribuida orientada a columnas construida sobre el sistema de archivos Hadoop. Es un proyecto de código abierto y escalable horizontalmente.

HBase es un modelo de datos similar a la gran tabla de Google diseñado para proporcionar acceso aleatorio rápido a grandes cantidades de datos estructurados. Aprovecha la tolerancia a fallos proporcionada por el sistema de archivos Hadoop (HDFS).

Es una parte del ecosistema Hadoop que proporciona acceso aleatorio de lectura / escritura en tiempo real a los datos en el sistema de archivos Hadoop.

Se pueden almacenar los datos en HDFS directamente o mediante HBase. El consumidor de datos lee / accede a los datos en HDFS de forma aleatoria utilizando HBase. HBase se encuentra en la parte superior del sistema de archivos Hadoop y proporciona acceso de lectura y escritura.

HBase y HDFS

HDFS HBase
HDFS es un sistema de archivos distribuido adecuado para almacenar archivos grandes. HBase es una base de datos construida sobre HDFS.
HDFS no admite búsquedas rápidas de registros individuales. HBase proporciona búsquedas rápidas para tablas más grandes.
Proporciona procesamiento por lotes de alta latencia; ningún concepto de procesamiento por lotes. Proporciona acceso de baja latencia a filas individuales de miles de millones de registros (acceso aleatorio).
Proporciona solo acceso secuencial de datos. HBase utiliza internamente tablas Hash y proporciona acceso aleatorio, y almacena los datos en archivos HDFS indexados para búsquedas más rápidas.

Mecanismo de almacenamiento en HBase

HBase es un column-oriented databasey las tablas que contiene están ordenadas por filas. El esquema de tabla define solo familias de columnas, que son los pares clave-valor. Una tabla tiene varias familias de columnas y cada familia de columnas puede tener cualquier número de columnas. Los valores de las columnas posteriores se almacenan de forma contigua en el disco. Cada valor de celda de la tabla tiene una marca de tiempo. En resumen, en una HBase:

  • La tabla es una colección de filas.
  • Row es una colección de familias de columnas.
  • La familia de columnas es una colección de columnas.
  • La columna es una colección de pares clave-valor.

A continuación se muestra un esquema de ejemplo de tabla en HBase.

Rowid Familia de columnas Familia de columnas Familia de columnas Familia de columnas
col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3
1
2
3

Orientado a columnas y orientado a filas

Las bases de datos orientadas a columnas son aquellas que almacenan tablas de datos como secciones de columnas de datos, en lugar de filas de datos. En breve, tendrán familias de columnas.

Base de datos orientada a filas Base de datos orientada a columnas
Es adecuado para el proceso de transacciones en línea (OLTP). Es adecuado para el procesamiento analítico en línea (OLAP).
Estas bases de datos están diseñadas para un pequeño número de filas y columnas. Las bases de datos orientadas a columnas están diseñadas para tablas enormes.

La siguiente imagen muestra familias de columnas en una base de datos orientada a columnas:

HBase y RDBMS

HBase RDBMS
HBase no tiene esquema, no tiene el concepto de esquema de columnas fijas; define solo familias de columnas. Un RDBMS se rige por su esquema, que describe toda la estructura de las tablas.
Está construido para mesas anchas. HBase es escalable horizontalmente. Es delgado y construido para mesas pequeñas. Difícil de escalar.
No hay transacciones en HBase. RDBMS es transaccional.
Tiene datos desnormalizados. Tendrá datos normalizados.
Es bueno tanto para datos estructurados como semiestructurados. Es bueno para datos estructurados.

Características de HBase

  • HBase es linealmente escalable.
  • Tiene soporte automático de fallas.
  • Proporciona lecturas y escrituras coherentes.
  • Se integra con Hadoop, tanto como fuente como como destino.
  • Tiene una API de Java fácil para el cliente.
  • Proporciona replicación de datos en clústeres.

Dónde usar HBase

  • Apache HBase se utiliza para tener acceso de lectura / escritura aleatorio en tiempo real a Big Data.

  • Aloja tablas muy grandes sobre grupos de hardware básico.

  • Apache HBase es una base de datos no relacional modelada a partir de Bigtable de Google. Bigtable actúa en el sistema de archivos de Google, al igual que Apache HBase funciona sobre Hadoop y HDFS.

Aplicaciones de HBase

  • Se utiliza siempre que sea necesario escribir aplicaciones pesadas.
  • HBase se utiliza siempre que necesitamos proporcionar un acceso aleatorio rápido a los datos disponibles.
  • Empresas como Facebook, Twitter, Yahoo y Adobe utilizan HBase internamente.

Historia de HBase

Año Evento
Noviembre de 2006 Google publicó el documento sobre BigTable.
Febrero de 2007 El prototipo inicial de HBase se creó como una contribución de Hadoop.
Octubre de 2007 Se lanzó el primer HBase utilizable junto con Hadoop 0.15.0.
Ene. De 2008 HBase se convirtió en el subproyecto de Hadoop.
Octubre de 2008 Se liberó HBase 0.18.1.
Ene. De 2009 Se lanzó HBase 0.19.0.
Septiembre de 2009 Se lanzó HBase 0.20.0.
Mayo de 2010 HBase se convirtió en un proyecto de nivel superior de Apache.