Cassandra - Présentation

Apache Cassandra est une base de données distribuée hautement évolutive et hautes performances conçue pour gérer de grandes quantités de données sur de nombreux serveurs de base, offrant une haute disponibilité sans point de défaillance unique. C'est un type de base de données NoSQL. Voyons d'abord ce que fait une base de données NoSQL.

NoSQLDatabase

Une base de données NoSQL (parfois appelée Not Only SQL) est une base de données qui fournit un mécanisme pour stocker et récupérer des données autres que les relations tabulaires utilisées dans les bases de données relationnelles. Ces bases de données sont sans schéma, prennent en charge une réplication facile, ont une API simple, finalement cohérente et peuvent gérer d'énormes quantités de données.

L'objectif principal d'une base de données NoSQL est d'avoir

  • simplicité de conception,
  • mise à l'échelle horizontale, et
  • contrôle plus fin de la disponibilité.

Les bases de données NoSql utilisent des structures de données différentes des bases de données relationnelles. Cela accélère certaines opérations dans NoSQL. L'adéquation d'une base de données NoSQL donnée dépend du problème qu'elle doit résoudre.

NoSQL vs base de données relationnelle

Le tableau suivant répertorie les points qui différencient une base de données relationnelle d'une base de données NoSQL.

Base de données relationnelle Base de données NoSql
Prend en charge un langage de requête puissant. Prend en charge un langage de requête très simple.
Il a un schéma fixe. Pas de schéma fixe.
Suit ACID (atomicité, cohérence, isolation et durabilité). Ce n'est que «finalement cohérent».
Prend en charge les transactions. Ne prend pas en charge les transactions.

Outre Cassandra, nous avons les bases de données NoSQL suivantes qui sont très populaires -

  • Apache HBase- HBase est une base de données open source, non relationnelle et distribuée, inspirée du BigTable de Google et écrite en Java. Il est développé dans le cadre du projet Apache Hadoop et s'exécute sur HDFS, fournissant des fonctionnalités de type BigTable pour Hadoop.

  • MongoDB - MongoDB est un système de base de données multi-plateforme orienté document qui évite d'utiliser la structure de base de données relationnelle traditionnelle basée sur des tables au profit de documents de type JSON avec des schémas dynamiques rendant l'intégration des données dans certains types d'applications plus facile et plus rapide.

Qu'est-ce qu'Apache Cassandra?

Apache Cassandra est un système de stockage (base de données) open source, distribué et décentralisé / distribué, permettant de gérer de très grandes quantités de données structurées réparties à travers le monde. Il fournit un service hautement disponible sans point de défaillance unique.

Voici quelques-uns des points notables d'Apache Cassandra -

  • Il est évolutif, tolérant aux pannes et cohérent.

  • C'est une base de données orientée colonnes.

  • Sa conception de distribution est basée sur Dynamo d'Amazon et son modèle de données sur Bigtable de Google.

  • Créé chez Facebook, il diffère fortement des systèmes de gestion de bases de données relationnelles.

  • Cassandra implémente un modèle de réplication de type Dynamo sans point de défaillance unique, mais ajoute un modèle de données de «famille de colonnes» plus puissant.

  • Cassandra est utilisé par certaines des plus grandes entreprises telles que Facebook, Twitter, Cisco, Rackspace, ebay, Twitter, Netflix, etc.

Caractéristiques de Cassandra

Cassandra est devenue si populaire en raison de ses caractéristiques techniques exceptionnelles. Voici quelques-unes des fonctionnalités de Cassandra:

  • Elastic scalability- Cassandra est hautement évolutive; il permet d'ajouter plus de matériel pour accueillir plus de clients et plus de données selon les besoins.

  • Always on architecture - Cassandra n'a pas de point de défaillance unique et est disponible en permanence pour les applications stratégiques qui ne peuvent pas se permettre une défaillance.

  • Fast linear-scale performance- Cassandra est linéairement évolutif, c'est-à-dire qu'il augmente votre débit à mesure que vous augmentez le nombre de nœuds dans le cluster. Par conséquent, il maintient un temps de réponse rapide.

  • Flexible data storage- Cassandra accepte tous les formats de données possibles, y compris: structurés, semi-structurés et non structurés. Il peut s'adapter de manière dynamique aux modifications de vos structures de données en fonction de vos besoins.

  • Easy data distribution - Cassandra offre la flexibilité de distribuer les données là où vous en avez besoin en répliquant les données sur plusieurs centres de données.

  • Transaction support - Cassandra prend en charge des propriétés telles que l'atomicité, la cohérence, l'isolement et la durabilité (ACID).

  • Fast writes- Cassandra a été conçu pour fonctionner avec du matériel de base bon marché. Il effectue des écritures extrêmement rapides et peut stocker des centaines de téraoctets de données, sans sacrifier l'efficacité de lecture.

Histoire de Cassandra

  • Cassandra a été développé sur Facebook pour la recherche dans la boîte de réception.
  • Il a été open-source par Facebook en juillet 2008.
  • Cassandra a été acceptée dans Apache Incubator en mars 2009.
  • Il s'agit d'un projet Apache de premier niveau depuis février 2010.