Elasticsearch - Grundlegende Konzepte

Elasticsearch ist ein Apache Lucene-basierter Suchserver. Es wurde von Shay Banon entwickelt und 2010 veröffentlicht. Es wird jetzt von Elasticsearch BV gepflegt. Die neueste Version ist 7.0.0.

Elasticsearch ist eine verteilte und Open-Source-Volltextsuch- und Analyse-Engine in Echtzeit. Es ist über die RESTful-Webdienstschnittstelle zugänglich und verwendet schemalose JSON-Dokumente (JavaScript Object Notation) zum Speichern von Daten. Es basiert auf der Programmiersprache Java und kann daher auf verschiedenen Plattformen ausgeführt werden. Es ermöglicht Benutzern, sehr große Datenmengen mit sehr hoher Geschwindigkeit zu untersuchen.

Allgemeine Merkmale

Die allgemeinen Funktionen von Elasticsearch sind wie folgt:

  • Elasticsearch ist auf Petabyte strukturierter und unstrukturierter Daten skalierbar.

  • Elasticsearch kann als Ersatz für Dokumentenspeicher wie MongoDB und RavenDB verwendet werden.

  • Elasticsearch verwendet die Denormalisierung, um die Suchleistung zu verbessern.

  • Elasticsearch ist eine der beliebtesten Unternehmenssuchmaschinen und wird derzeit von vielen großen Organisationen wie Wikipedia, The Guardian, StackOverflow, GitHub usw. verwendet.

  • Elasticsearch ist Open Source und unter der Apache-Lizenz Version 2.0 verfügbar.

Schlüssel Konzepte

Die Schlüsselkonzepte von Elasticsearch lauten wie folgt:

Knoten

Es bezieht sich auf eine einzelne laufende Instanz von Elasticsearch. Ein einzelner physischer und virtueller Server bietet Platz für mehrere Knoten, abhängig von den Fähigkeiten ihrer physischen Ressourcen wie RAM, Speicher und Verarbeitungsleistung.

Cluster

Es ist eine Sammlung von einem oder mehreren Knoten. Cluster bietet kollektive Indizierungs- und Suchfunktionen für alle Daten auf allen Knoten.

Index

Es ist eine Sammlung verschiedener Arten von Dokumenten und ihrer Eigenschaften. Index verwendet auch das Konzept der Shards, um die Leistung zu verbessern. Beispielsweise enthält ein Dokumentensatz Daten einer Anwendung für soziale Netzwerke.

Dokument

Es ist eine Sammlung von Feldern, die auf eine bestimmte Art und Weise im JSON-Format definiert sind. Jedes Dokument gehört zu einem Typ und befindet sich in einem Index. Jedem Dokument ist eine eindeutige Kennung zugeordnet, die als UID bezeichnet wird.

Scherbe

Indizes werden horizontal in Shards unterteilt. Dies bedeutet, dass jeder Shard alle Eigenschaften des Dokuments enthält, jedoch weniger JSON-Objekte als der Index. Die horizontale Trennung macht Shard zu einem unabhängigen Knoten, der in jedem Knoten gespeichert werden kann. Der primäre Shard ist der ursprüngliche horizontale Teil eines Index. Anschließend werden diese primären Shards in Replikatshards repliziert.

Repliken

Mit Elasticsearch kann ein Benutzer Replikate seiner Indizes und Shards erstellen. Die Replikation trägt nicht nur dazu bei, die Verfügbarkeit von Daten im Fehlerfall zu erhöhen, sondern verbessert auch die Suchleistung, indem in diesen Replikaten eine parallele Suchoperation ausgeführt wird.

Vorteile

  • Elasticsearch wurde auf Java entwickelt und ist daher auf nahezu jeder Plattform kompatibel.

  • Elasticsearch erfolgt in Echtzeit, dh nach einer Sekunde kann das hinzugefügte Dokument in dieser Engine durchsucht werden

  • Elasticsearch ist verteilt, was die Skalierung und Integration in jedes große Unternehmen erleichtert.

  • Das Erstellen vollständiger Sicherungen ist mithilfe des in Elasticsearch vorhandenen Gateway-Konzepts einfach.

  • Der Umgang mit Mandantenfähigkeit ist in Elasticsearch im Vergleich zu Apache Solr sehr einfach.

  • Elasticsearch verwendet JSON-Objekte als Antworten, wodurch der Elasticsearch-Server mit einer großen Anzahl verschiedener Programmiersprachen aufgerufen werden kann.

  • Elasticsearch unterstützt fast alle Dokumenttypen mit Ausnahme derjenigen, die das Rendern von Text nicht unterstützen.

Nachteile

  • Elasticsearch bietet keine mehrsprachige Unterstützung für die Verarbeitung von Anforderungs- und Antwortdaten (nur in JSON möglich), im Gegensatz zu Apache Solr, wo dies in den Formaten CSV, XML und JSON möglich ist.

  • Gelegentlich hat Elasticsearch ein Problem mit Split-Brain-Situationen.

Vergleich zwischen Elasticsearch und RDBMS

In Elasticsearch ähnelt der Index Tabellen in RDBMS (Relation Database Management System). Jede Tabelle ist eine Sammlung von Zeilen, genauso wie jeder Index eine Sammlung von Dokumenten in Elasticsearch ist.

Die folgende Tabelle gibt einen direkten Vergleich zwischen diesen Begriffen

Elasticsearch RDBMS
Cluster Datenbank
Scherbe Scherbe
Index Tabelle
Feld Säule
Dokument Reihe