Elasticsearch - Kurzanleitung

Elasticsearch ist ein Apache Lucene-basierter Suchserver. Es wurde von Shay Banon entwickelt und 2010 veröffentlicht. Es wird jetzt von Elasticsearch BV gepflegt. Die neueste Version ist 7.0.0.

Elasticsearch ist eine verteilte und Open-Source-Volltextsuch- und Analyse-Engine in Echtzeit. Es ist über die RESTful-Webdienstschnittstelle zugänglich und verwendet schemalose JSON-Dokumente (JavaScript Object Notation) zum Speichern von Daten. Es basiert auf der Programmiersprache Java und kann daher auf verschiedenen Plattformen ausgeführt werden. Es ermöglicht Benutzern, sehr große Datenmengen mit sehr hoher Geschwindigkeit zu untersuchen.

Allgemeine Merkmale

Die allgemeinen Funktionen von Elasticsearch sind wie folgt:

  • Elasticsearch ist auf Petabyte strukturierter und unstrukturierter Daten skalierbar.

  • Elasticsearch kann als Ersatz für Dokumentenspeicher wie MongoDB und RavenDB verwendet werden.

  • Elasticsearch verwendet die Denormalisierung, um die Suchleistung zu verbessern.

  • Elasticsearch ist eine der beliebtesten Unternehmenssuchmaschinen und wird derzeit von vielen großen Organisationen wie Wikipedia, The Guardian, StackOverflow, GitHub usw. verwendet.

  • Elasticsearch ist Open Source und unter der Apache-Lizenz Version 2.0 verfügbar.

Schlüssel Konzepte

Die Schlüsselkonzepte von Elasticsearch lauten wie folgt:

Knoten

Es bezieht sich auf eine einzelne laufende Instanz von Elasticsearch. Ein einzelner physischer und virtueller Server bietet Platz für mehrere Knoten, abhängig von den Fähigkeiten ihrer physischen Ressourcen wie RAM, Speicher und Verarbeitungsleistung.

Cluster

Es ist eine Sammlung von einem oder mehreren Knoten. Cluster bietet kollektive Indizierungs- und Suchfunktionen für alle Daten auf allen Knoten.

Index

Es ist eine Sammlung verschiedener Arten von Dokumenten und ihrer Eigenschaften. Index verwendet auch das Konzept der Shards, um die Leistung zu verbessern. Beispielsweise enthält ein Dokumentensatz Daten einer Anwendung für soziale Netzwerke.

Dokument

Es ist eine Sammlung von Feldern, die auf eine bestimmte Art und Weise im JSON-Format definiert sind. Jedes Dokument gehört zu einem Typ und befindet sich in einem Index. Jedem Dokument ist eine eindeutige Kennung zugeordnet, die als UID bezeichnet wird.

Scherbe

Indizes werden horizontal in Shards unterteilt. Dies bedeutet, dass jeder Shard alle Eigenschaften des Dokuments enthält, jedoch weniger JSON-Objekte als der Index. Die horizontale Trennung macht Shard zu einem unabhängigen Knoten, der in jedem Knoten gespeichert werden kann. Der primäre Shard ist der ursprüngliche horizontale Teil eines Index. Anschließend werden diese primären Shards in Replikatshards repliziert.

Repliken

Mit Elasticsearch kann ein Benutzer Replikate seiner Indizes und Shards erstellen. Die Replikation trägt nicht nur dazu bei, die Verfügbarkeit von Daten im Fehlerfall zu erhöhen, sondern verbessert auch die Suchleistung, indem in diesen Replikaten eine parallele Suchoperation ausgeführt wird.

Vorteile

  • Elasticsearch wurde auf Java entwickelt und ist daher auf nahezu jeder Plattform kompatibel.

  • Elasticsearch ist in Echtzeit, dh nach einer Sekunde kann das hinzugefügte Dokument in dieser Engine durchsucht werden

  • Elasticsearch ist verteilt, was die Skalierung und Integration in jedes große Unternehmen erleichtert.

  • Das Erstellen vollständiger Sicherungen ist mithilfe des in Elasticsearch vorhandenen Gateway-Konzepts einfach.

  • Die Handhabung von Mandantenfähigkeit ist in Elasticsearch im Vergleich zu Apache Solr sehr einfach.

  • Elasticsearch verwendet JSON-Objekte als Antworten, wodurch der Elasticsearch-Server mit einer großen Anzahl verschiedener Programmiersprachen aufgerufen werden kann.

  • Elasticsearch unterstützt fast alle Dokumenttypen mit Ausnahme derjenigen, die das Rendern von Text nicht unterstützen.

Nachteile

  • Elasticsearch bietet keine mehrsprachige Unterstützung für die Verarbeitung von Anforderungs- und Antwortdaten (nur in JSON möglich), im Gegensatz zu Apache Solr, wo dies in den Formaten CSV, XML und JSON möglich ist.

  • Gelegentlich hat Elasticsearch ein Problem mit Split-Brain-Situationen.

Vergleich zwischen Elasticsearch und RDBMS

In Elasticsearch ähnelt der Index Tabellen in RDBMS (Relation Database Management System). Jede Tabelle ist eine Sammlung von Zeilen, genauso wie jeder Index eine Sammlung von Dokumenten in Elasticsearch ist.

Die folgende Tabelle gibt einen direkten Vergleich zwischen diesen Begriffen

Elasticsearch RDBMS
Cluster Datenbank
Scherbe Scherbe
Index Tabelle
Feld Säule
Dokument Reihe

In diesem Kapitel werden wir den Installationsvorgang von Elasticsearch im Detail verstehen.

Um Elasticsearch auf Ihrem lokalen Computer zu installieren, müssen Sie die folgenden Schritte ausführen:

Step 1- Überprüfen Sie die auf Ihrem Computer installierte Java-Version. Es sollte Java 7 oder höher sein. Sie können dies überprüfen, indem Sie Folgendes tun:

Im Windows-Betriebssystem (über die Eingabeaufforderung) -

> java -version

Unter UNIX (Using Terminal) -

$ echo $JAVA_HOME

Step 2 - Laden Sie Elasticsearch je nach Betriebssystem wie unten beschrieben von www.elastic.co herunter. -

  • Laden Sie unter Windows die ZIP-Datei herunter.

  • Laden Sie unter UNIX die TAR-Datei herunter.

  • Laden Sie für Debian OS die DEB-Datei herunter.

  • Laden Sie für Red Hat und andere Linux-Distributionen die RPN-Datei herunter.

  • APT- und Yum-Dienstprogramme können auch verwendet werden, um Elasticsearch in vielen Linux-Distributionen zu installieren.

Step 3 - Der Installationsprozess für Elasticsearch ist einfach und wird unten für verschiedene Betriebssysteme beschrieben. -

  • Windows OS- Entpacken Sie das Zip-Paket und die Elasticsearch ist installiert.

  • UNIX OS- Extrahieren Sie die TAR-Datei an einem beliebigen Ort und die Elasticsearch wird installiert.

$wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch7.0.0-linux-x86_64.tar.gz $tar -xzf elasticsearch-7.0.0-linux-x86_64.tar.gz
  • Using APT utility for Linux OS- Laden Sie den öffentlichen Signaturschlüssel herunter und installieren Sie ihn

$ wget -qo - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo
apt-key add -

Speichern Sie die Repository-Definition wie unten gezeigt -

$ echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" |
sudo tee -a /etc/apt/sources.list.d/elastic-7.x.list

Führen Sie das Update mit dem folgenden Befehl aus:

$ sudo apt-get update

Jetzt können Sie mit dem folgenden Befehl installieren:

$ sudo apt-get install elasticsearch
  • Download and install the Debian package manually using the command given here −

$wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch7.0.0-amd64.deb $sudo dpkg -i elasticsearch-7.0.0-amd64.deb0
  • Using YUM utility for Debian Linux OS

  • Laden Sie den öffentlichen Signaturschlüssel herunter und installieren Sie ihn -

$ rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch
  • Fügen Sie der Datei den folgenden Text mit dem Suffix .repo in Ihrem Verzeichnis "/etc/yum.repos.d/" hinzu. Zum Beispiel elasticsearch.repo

elasticsearch-7.x]
name=Elasticsearch repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md
  • Sie können Elasticsearch jetzt mit dem folgenden Befehl installieren

sudo yum install elasticsearch

Step 4- Wechseln Sie in das Elasticsearch-Ausgangsverzeichnis und in den Ordner bin. Führen Sie die Datei elasticsearch.bat unter Windows aus, oder Sie können dies auch über die Eingabeaufforderung und über das Terminal bei UNIX rum Elasticsearch tun.

In Windows

> cd elasticsearch-2.1.0/bin
> elasticsearch

Unter Linux

$ cd elasticsearch-2.1.0/bin
$ ./elasticsearch

Note - Bei Windows wird möglicherweise die Fehlermeldung angezeigt, dass JAVA_HOME nicht festgelegt ist. Setzen Sie die Umgebungsvariablen auf "C: \ Programme \ Java \ jre1.8.0_31" oder den Speicherort, an dem Sie Java installiert haben.

Step 5- Der Standardport für die Elasticsearch-Weboberfläche ist 9200, oder Sie können ihn ändern, indem Sie http.port in der Datei elasticsearch.yml im bin-Verzeichnis ändern. Sie können durch Durchsuchen überprüfen, ob der Server betriebsbereit isthttp://localhost:9200. Es wird ein JSON-Objekt zurückgegeben, das die Informationen zur installierten Elasticsearch auf folgende Weise enthält:

{
   "name" : "Brain-Child",
   "cluster_name" : "elasticsearch", "version" : {
      "number" : "2.1.0",
      "build_hash" : "72cd1f1a3eee09505e036106146dc1949dc5dc87",
      "build_timestamp" : "2015-11-18T22:40:03Z",
      "build_snapshot" : false,
      "lucene_version" : "5.3.1"
   },
   "tagline" : "You Know, for Search"
}

Step 6- Lassen Sie uns in diesem Schritt Kibana installieren. Befolgen Sie den unten angegebenen Code für die Installation unter Linux und Windows -

For Installation on Linux −

wget https://artifacts.elastic.co/downloads/kibana/kibana-7.0.0-linuxx86_64.tar.gz

tar -xzf kibana-7.0.0-linux-x86_64.tar.gz

cd kibana-7.0.0-linux-x86_64/

./bin/kibana

For Installation on Windows −

Laden Sie Kibana für Windows von herunter https://www.elastic.co/products/kibana. Sobald Sie auf den Link klicken, finden Sie die Homepage wie unten gezeigt -

Entpacken Sie das Kibana-Ausgangsverzeichnis und führen Sie es aus.

CD c:\kibana-7.0.0-windows-x86_64
.\bin\kibana.bat

In diesem Kapitel erfahren Sie, wie Sie Elasticsearch Index, Zuordnung und Daten hinzufügen. Beachten Sie, dass einige dieser Daten in den in diesem Lernprogramm erläuterten Beispielen verwendet werden.

Index erstellen

Mit dem folgenden Befehl können Sie einen Index erstellen:

PUT school

Antwort

Wenn der Index erstellt wird, sehen Sie die folgende Ausgabe:

{"acknowledged": true}

Daten hinzufügen

Elasticsearch speichert die Dokumente, die wir dem Index hinzufügen, wie im folgenden Code gezeigt. Die Dokumente erhalten einige IDs, die zur Identifizierung des Dokuments verwendet werden.

Text anfordern

POST school/_doc/10
{
   "name":"Saint Paul School", "description":"ICSE Afiliation",
   "street":"Dawarka", "city":"Delhi", "state":"Delhi", "zip":"110075",
   "location":[28.5733056, 77.0122136], "fees":5000,
   "tags":["Good Faculty", "Great Sports"], "rating":"4.5"
}

Antwort

{
   "_index" : "school",
   "_type" : "_doc",
   "_id" : "10",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 2,
   "_primary_term" : 1
}

Hier fügen wir ein weiteres ähnliches Dokument hinzu.

POST school/_doc/16
{
   "name":"Crescent School", "description":"State Board Affiliation",
   "street":"Tonk Road",
   "city":"Jaipur", "state":"RJ", "zip":"176114","location":[26.8535922,75.7923988],
   "fees":2500, "tags":["Well equipped labs"], "rating":"4.5"
}

Antwort

{
   "_index" : "school",
   "_type" : "_doc",
   "_id" : "16",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 9,
   "_primary_term" : 7
}

Auf diese Weise werden wir in den kommenden Kapiteln weiterhin alle Beispieldaten hinzufügen, die wir für unsere Arbeit benötigen.

Hinzufügen von Beispieldaten in Kibana

Kibana ist ein GUI-gesteuertes Tool für den Zugriff auf die Daten und die Erstellung der Visualisierung. Lassen Sie uns in diesem Abschnitt verstehen, wie wir Beispieldaten hinzufügen können.

Wählen Sie auf der Kibana-Homepage die folgende Option, um Beispiel-E-Commerce-Daten hinzuzufügen:

Der nächste Bildschirm zeigt eine Visualisierung und eine Schaltfläche zum Hinzufügen von Daten -

Wenn Sie auf Daten hinzufügen klicken, wird der folgende Bildschirm angezeigt, in dem bestätigt wird, dass die Daten einem Index mit dem Namen eCommerce hinzugefügt wurden.

In jedem System oder jeder Software müssen wir beim Upgrade auf eine neuere Version einige Schritte ausführen, um die Anwendungseinstellungen, Konfigurationen, Daten und andere Dinge zu verwalten. Diese Schritte sind erforderlich, um die Anwendung in einem neuen System stabil zu machen oder die Integrität der Daten aufrechtzuerhalten (um zu verhindern, dass Daten beschädigt werden).

Sie müssen die folgenden Schritte ausführen, um Elasticsearch zu aktualisieren:

  • Lesen Sie die Upgrade-Dokumente von https://www.elastic.co/

  • Testen Sie die aktualisierte Version in Ihren Nicht-Produktionsumgebungen wie UAT-, E2E-, SIT- oder DEV-Umgebungen.

  • Beachten Sie, dass ein Rollback auf die vorherige Elasticsearch-Version ohne Datensicherung nicht möglich ist. Daher wird vor dem Upgrade auf eine höhere Version eine Datensicherung empfohlen.

  • Wir können ein Upgrade mit einem vollständigen Cluster-Neustart oder einem fortlaufenden Upgrade durchführen. Rolling Upgrade ist für neue Versionen. Beachten Sie, dass es keinen Dienstausfall gibt, wenn Sie die fortlaufende Upgrade-Methode für die Migration verwenden.

Schritte zum Upgrade

  • Testen Sie das Upgrade in einer Entwicklungsumgebung, bevor Sie Ihr Produktionscluster aktualisieren.

  • Sichern Sie Ihre Daten. Sie können nicht auf eine frühere Version zurücksetzen, es sei denn, Sie haben eine Momentaufnahme Ihrer Daten.

  • Schließen Sie maschinelle Lernjobs, bevor Sie mit dem Upgrade beginnen. Während maschinelles Lernen während eines fortlaufenden Upgrades weiterhin ausgeführt werden kann, erhöht dies den Overhead des Clusters während des Upgradevorgangs.

  • Aktualisieren Sie die Komponenten Ihres Elastic Stack in der folgenden Reihenfolge:

    • Elasticsearch
    • Kibana
    • Logstash
    • Beats
    • APM Server

Upgrade von 6.6 oder früher

Um von Version 6.0-6.6 direkt auf Elasticsearch 7.1.0 zu aktualisieren, müssen Sie alle 5.x-Indizes, die Sie übertragen müssen, manuell neu indizieren und einen vollständigen Cluster-Neustart durchführen.

Vollständiger Cluster-Neustart

Bei einem vollständigen Neustart des Clusters wird jeder Knoten im Cluster heruntergefahren, jeder Knoten auf das 7-fache aktualisiert und anschließend der Cluster neu gestartet.

Im Folgenden sind die allgemeinen Schritte aufgeführt, die für einen vollständigen Neustart des Clusters ausgeführt werden müssen:

  • Deaktivieren Sie die Shard-Zuordnung
  • Beenden Sie die Indizierung und führen Sie eine synchronisierte Spülung durch
  • Fahren Sie alle Knoten herunter
  • Aktualisieren Sie alle Knoten
  • Aktualisieren Sie alle Plugins
  • Starten Sie jeden aktualisierten Knoten
  • Warten Sie, bis alle Knoten dem Cluster beigetreten sind, und melden Sie den Status Gelb
  • Aktivieren Sie die Zuordnung erneut

Sobald die Zuordnung wieder aktiviert ist, beginnt der Cluster, die Replikatshards den Datenknoten zuzuweisen. Zu diesem Zeitpunkt ist es sicher, die Indizierung und Suche fortzusetzen. Ihr Cluster wird jedoch schneller wiederhergestellt, wenn Sie warten können, bis alle primären und Replikatshards erfolgreich zugewiesen wurden und der Status aller Knoten grün ist.

Application Programming Interface (API) im Web ist eine Gruppe von Funktionsaufrufen oder anderen Programmieranweisungen für den Zugriff auf die Softwarekomponente in dieser bestimmten Webanwendung. Beispielsweise hilft die Facebook-API einem Entwickler beim Erstellen von Anwendungen, indem er auf Daten oder andere Funktionen von Facebook zugreift. Dies kann ein Geburtsdatum oder eine Statusaktualisierung sein.

Elasticsearch bietet eine REST-API, auf die JSON über HTTP zugreift. Elasticsearch verwendet einige Konventionen, die wir jetzt diskutieren werden.

Mehrere Indizes

Die meisten Operationen, hauptsächlich Such- und andere Operationen, in APIs beziehen sich auf einen oder mehrere Indizes. Dies hilft dem Benutzer, an mehreren Stellen oder in allen verfügbaren Daten zu suchen, indem nur eine Abfrage einmal ausgeführt wird. Viele verschiedene Notationen werden verwendet, um Operationen in mehreren Indizes auszuführen. Wir werden einige davon hier in diesem Kapitel diskutieren.

Kommagetrennte Notation

POST /index1,index2,index3/_search

Text anfordern

{
   "query":{
      "query_string":{
         "query":"any_string"
      }
   }
}

Antwort

JSON-Objekte aus index1, index2, index3 mit any_string.

_all Schlüsselwort für alle Indizes

POST /_all/_search

Text anfordern

{
   "query":{
      "query_string":{
         "query":"any_string"
      }
   }
}

Antwort

JSON-Objekte aus allen Indizes und mit any_string.

Platzhalter (*, +, -)

POST /school*/_search

Text anfordern

{
   "query":{
      "query_string":{
         "query":"CBSE"
      }
   }
}

Antwort

JSON-Objekte aus allen Indizes, die mit der Schule beginnen und CBSE enthalten.

Alternativ können Sie auch den folgenden Code verwenden:

POST /school*,-schools_gov /_search

Text anfordern

{
   "query":{
      "query_string":{
         "query":"CBSE"
      }
   }
}

Antwort

JSON-Objekte aus allen Indizes, die mit "school" beginnen, jedoch nicht aus school_gov und mit CBSE.

Es gibt auch einige Parameter für URL-Abfragezeichenfolgen -

  • ignore_unavailable- Es tritt kein Fehler auf oder es wird kein Vorgang gestoppt, wenn der eine oder die mehreren in der URL vorhandenen Indizes nicht vorhanden sind. Beispielsweise gibt es einen Schulindex, aber keine Buchhandlungen.

POST /school*,book_shops/_search

Text anfordern

{
   "query":{
      "query_string":{
         "query":"CBSE"
      }
   }
}

Text anfordern

{
   "error":{
      "root_cause":[{
         "type":"index_not_found_exception", "reason":"no such index",
         "resource.type":"index_or_alias", "resource.id":"book_shops",
         "index":"book_shops"
      }],
      "type":"index_not_found_exception", "reason":"no such index",
      "resource.type":"index_or_alias", "resource.id":"book_shops",
      "index":"book_shops"
   },"status":404
}

Betrachten Sie den folgenden Code -

POST /school*,book_shops/_search?ignore_unavailable = true

Text anfordern

{
   "query":{
      "query_string":{
         "query":"CBSE"
      }
   }
}

Antwort (kein Fehler)

JSON-Objekte aus allen Indizes, die mit der Schule beginnen und CBSE enthalten.

allow_no_indices

trueDer Wert dieses Parameters verhindert Fehler, wenn eine URL mit Platzhalter keine Indizes ergibt. Zum Beispiel gibt es keinen Index, der mit school_pri beginnt -

POST /schools_pri*/_search?allow_no_indices = true

Text anfordern

{
   "query":{
      "match_all":{}
   }
}

Antwort (keine Fehler)

{
   "took":1,"timed_out": false, "_shards":{"total":0, "successful":0, "failed":0},
   "hits":{"total":0, "max_score":0.0, "hits":[]}
}

expand_wildcards

Dieser Parameter entscheidet, ob die Platzhalter erweitert werden müssen, um Indizes zu öffnen oder zu schließen, oder ob beide ausgeführt werden sollen. Der Wert dieses Parameters kann offen und geschlossen sein oder keiner und alle.

Zum Beispiel schließen Indexschulen -

POST /schools/_close

Antwort

{"acknowledged":true}

Betrachten Sie den folgenden Code -

POST /school*/_search?expand_wildcards = closed

Text anfordern

{
   "query":{
      "match_all":{}
   }
}

Antwort

{
   "error":{
      "root_cause":[{
         "type":"index_closed_exception", "reason":"closed", "index":"schools"
      }],
      "type":"index_closed_exception", "reason":"closed", "index":"schools"
   }, "status":403
}

Datum Math Support in Indexnamen

Elasticsearch bietet eine Funktion zum Suchen von Indizes nach Datum und Uhrzeit. Wir müssen Datum und Uhrzeit in einem bestimmten Format angeben. Beispiel: Der Kontodetail-2015.12.30, Index speichert die Bankkontodaten vom 30. Dezember 2015. Mathematische Operationen können ausgeführt werden, um Details für ein bestimmtes Datum oder einen Bereich von Datum und Uhrzeit abzurufen.

Format für Datum Mathe Indexname -

<static_name{date_math_expr{date_format|time_zone}}>
/<accountdetail-{now-2d{YYYY.MM.dd|utc}}>/_search

static_name ist ein Teil des Ausdrucks, der in jedem mathematischen Datumsindex wie bei den Kontodetails gleich bleibt. date_math_expr enthält den mathematischen Ausdruck, der Datum und Uhrzeit dynamisch wie now-2d bestimmt. date_format enthält das Format, in dem das Datum in einen Index wie YYYY.MM.dd geschrieben wird. Wenn das heutige Datum der 30. Dezember 2015 ist, gibt <accountdetail- {now-2d {YYYY.MM.dd}}> accountdetail-2015.12.28 zurück.

Ausdruck Beschließt zu
<accountdetail- {now-d}> accountdetail-2015.12.29
<accountdetail- {now-M}> accountdetail-2015.11.30
<accountdetail- {now {YYYY.MM}}> accountdetail-2015.12

Wir werden nun einige der in Elasticsearch verfügbaren allgemeinen Optionen sehen, mit denen die Antwort in einem bestimmten Format abgerufen werden kann.

Hübsche Ergebnisse

Wir können eine Antwort in einem gut formatierten JSON-Objekt erhalten, indem wir einfach einen URL-Abfrageparameter anhängen, dh ziemlich = wahr.

POST /schools/_search?pretty = true

Text anfordern

{
   "query":{
      "match_all":{}
   }
}

Antwort

……………………..
{
   "_index" : "schools", "_type" : "school", "_id" : "1", "_score" : 1.0,
   "_source":{
      "name":"Central School", "description":"CBSE Affiliation",
      "street":"Nagan", "city":"paprola", "state":"HP", "zip":"176115",
      "location": [31.8955385, 76.8380405], "fees":2000,
      "tags":["Senior Secondary", "beautiful campus"], "rating":"3.5"
   }
}
………………….

Vom Menschen lesbare Ausgabe

Diese Option kann die statistischen Antworten entweder in eine vom Menschen lesbare Form (wenn Mensch = wahr) oder in eine computerlesbare Form (wenn Mensch = falsch) ändern. Wenn beispielsweise human = true, dann distance_kilometer = 20KM und wenn human = false, ist distance_kilometer = 20000, wenn die Antwort von einem anderen Computerprogramm verwendet werden muss.

Antwortfilterung

Wir können die Antwort auf weniger Felder filtern, indem wir sie im Parameter field_path hinzufügen. Zum Beispiel,

POST /schools/_search?filter_path = hits.total

Text anfordern

{
   "query":{
      "match_all":{}
   }
}

Antwort

{"hits":{"total":3}}

Elasticsearch bietet APIs für einzelne Dokumente und APIs für mehrere Dokumente, wobei der API-Aufruf auf ein einzelnes Dokument bzw. mehrere Dokumente abzielt.

Index-API

Es ist hilfreich, das JSON-Dokument in einem Index hinzuzufügen oder zu aktualisieren, wenn eine Anforderung an den jeweiligen Index mit einer bestimmten Zuordnung erfolgt. Mit der folgenden Anforderung wird beispielsweise das JSON-Objekt zu Indexschulen und unter Schulzuordnung hinzugefügt:

PUT schools/_doc/5
{
   name":"City School", "description":"ICSE", "street":"West End",
   "city":"Meerut",
   "state":"UP", "zip":"250002", "location":[28.9926174, 77.692485],
   "fees":3500,
   "tags":["fully computerized"], "rating":"4.5"
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "5",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 2,
   "_primary_term" : 1
}

Automatische Indexerstellung

Wenn eine Anforderung zum Hinzufügen eines JSON-Objekts zu einem bestimmten Index gestellt wird und dieser Index nicht vorhanden ist, erstellt diese API automatisch diesen Index und auch die zugrunde liegende Zuordnung für dieses bestimmte JSON-Objekt. Diese Funktionalität kann deaktiviert werden, indem die Werte der folgenden Parameter in false geändert werden, die in der Datei elasticsearch.yml enthalten sind.

action.auto_create_index:false
index.mapper.dynamic:false

Sie können auch die automatische Erstellung von Indizes einschränken, bei denen nur Indexnamen mit bestimmten Mustern zulässig sind, indem Sie den Wert des folgenden Parameters ändern:

action.auto_create_index:+acc*,-bank*

Note - Hier bedeutet + erlaubt und - zeigt nicht erlaubt an.

Versionierung

Elasticsearch bietet auch eine Versionskontrollfunktion. Wir können einen Versionsabfrageparameter verwenden, um die Version eines bestimmten Dokuments anzugeben.

PUT schools/_doc/5?version=7&version_type=external
{
   "name":"Central School", "description":"CBSE Affiliation", "street":"Nagan",
   "city":"paprola", "state":"HP", "zip":"176115", "location":[31.8955385, 76.8380405],
   "fees":2200, "tags":["Senior Secondary", "beautiful campus"], "rating":"3.3"
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "5",
   "_version" : 7,
   "result" : "updated",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 3,
   "_primary_term" : 1
}

Die Versionierung ist ein Echtzeitprozess und wird von den Echtzeitsuchvorgängen nicht beeinflusst.

Es gibt zwei wichtige Arten der Versionierung:

Interne Versionierung

Die interne Versionierung ist die Standardversion, die mit 1 beginnt und mit jedem Update inkrementiert wird, einschließlich Löschungen.

Externe Versionierung

Es wird verwendet, wenn die Versionierung der Dokumente in einem externen System wie Versionssystemen von Drittanbietern gespeichert wird. Um diese Funktionalität zu aktivieren, müssen wir version_type auf external setzen. Hier speichert Elasticsearch die vom externen System festgelegte Versionsnummer und erhöht diese nicht automatisch.

Operationstyp

Der Operationstyp wird verwendet, um eine Erstellungsoperation zu erzwingen. Dies hilft, das Überschreiben eines vorhandenen Dokuments zu vermeiden.

PUT chapter/_doc/1?op_type=create
{
   "Text":"this is chapter one"
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "chapter",
   "_type" : "_doc",
   "_id" : "1",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 0,
   "_primary_term" : 1
}

Automatische ID-Generierung

Wenn im Indexvorgang keine ID angegeben wird, generiert Elasticsearch automatisch eine ID für dieses Dokument.

POST chapter/_doc/
{
   "user" : "tpoint",
   "post_date" : "2018-12-25T14:12:12",
   "message" : "Elasticsearch Tutorial"
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "chapter",
   "_type" : "_doc",
   "_id" : "PVghWGoB7LiDTeV6LSGu",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 1,
   "_primary_term" : 1
}

API abrufen

Die API hilft beim Extrahieren eines JSON-Objekts vom Typ, indem eine Abrufanforderung für ein bestimmtes Dokument ausgeführt wird.

pre class="prettyprint notranslate" > GET schools/_doc/5

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "5",
   "_version" : 7,
   "_seq_no" : 3,
   "_primary_term" : 1,
   "found" : true,
   "_source" : {
      "name" : "Central School",
      "description" : "CBSE Affiliation",
      "street" : "Nagan",
      "city" : "paprola",
      "state" : "HP",
      "zip" : "176115",
      "location" : [
         31.8955385,
         76.8380405
      ],
      "fees" : 2200,
      "tags" : [
         "Senior Secondary",
         "beautiful campus"
      ],
      "rating" : "3.3"
   }
}
  • Dieser Vorgang erfolgt in Echtzeit und wird von der Aktualisierungsrate des Index nicht beeinflusst.

  • Sie können auch die Version angeben. Dann ruft Elasticsearch nur diese Version des Dokuments ab.

  • Sie können auch _all in der Anforderung angeben, damit die Elasticsearch in jedem Typ nach dieser Dokument-ID suchen kann und das erste übereinstimmende Dokument zurückgibt.

  • Sie können auch die Felder angeben, die in Ihrem Ergebnis aus diesem bestimmten Dokument enthalten sein sollen.

GET schools/_doc/5?_source_includes=name,fees

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "5",
   "_version" : 7,
   "_seq_no" : 3,
   "_primary_term" : 1,
   "found" : true,
   "_source" : {
      "fees" : 2200,
      "name" : "Central School"
   }
}

Sie können den Quellteil auch in Ihrem Ergebnis abrufen, indem Sie einfach _source part in Ihre get-Anfrage einfügen.

GET schools/_doc/5?_source

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "5",
   "_version" : 7,
   "_seq_no" : 3,
   "_primary_term" : 1,
   "found" : true,
   "_source" : {
      "name" : "Central School",
      "description" : "CBSE Affiliation",
      "street" : "Nagan",
      "city" : "paprola",
      "state" : "HP",
      "zip" : "176115",
      "location" : [
         31.8955385,
         76.8380405
      ],
      "fees" : 2200,
      "tags" : [
         "Senior Secondary",
         "beautiful campus"
      ],
      "rating" : "3.3"
   }
}

Sie können den Shard auch vor dem Abrufen aktualisieren, indem Sie den Aktualisierungsparameter auf true setzen.

API löschen

Sie können einen bestimmten Index, eine bestimmte Zuordnung oder ein bestimmtes Dokument löschen, indem Sie eine HTTP-DELETE-Anforderung an Elasticsearch senden.

DELETE schools/_doc/4

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "found":true, "_index":"schools", "_type":"school", "_id":"4", "_version":2,
   "_shards":{"total":2, "successful":1, "failed":0}
}

Die Version des Dokuments kann angegeben werden, um diese bestimmte Version zu löschen. Der Routing-Parameter kann angegeben werden, um das Dokument von einem bestimmten Benutzer zu löschen. Der Vorgang schlägt fehl, wenn das Dokument nicht zu diesem bestimmten Benutzer gehört. In diesem Vorgang können Sie die Aktualisierungs- und Timeout-Option wie bei der GET-API angeben.

API aktualisieren

Für diesen Vorgang wird ein Skript verwendet, und durch die Versionierung wird sichergestellt, dass während des Abrufens und erneuten Indexierens keine Aktualisierungen vorgenommen wurden. Zum Beispiel können Sie die Schulgebühren mithilfe eines Skripts aktualisieren -

POST schools/_update/4
{
   "script" : {
      "source": "ctx._source.name = params.sname",
      "lang": "painless",
      "params" : {
         "sname" : "City Wise School"
      }
   }
 }

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "schools",
   "_type" : "_doc",
   "_id" : "4",
   "_version" : 3,
   "result" : "updated",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 4,
   "_primary_term" : 2
}

Sie können das Update überprüfen, indem Sie eine Get-Anfrage an das aktualisierte Dokument senden.

Diese API wird zum Suchen von Inhalten in Elasticsearch verwendet. Ein Benutzer kann suchen, indem er eine Abrufanforderung mit einer Abfragezeichenfolge als Parameter sendet, oder er kann eine Abfrage im Nachrichtentext der Postanforderung veröffentlichen. Hauptsächlich sind alle Such-APIS Multi-Index, Multi-Typ.

Multi-Index

Mit Elasticsearch können wir nach Dokumenten suchen, die in allen Indizes oder in bestimmten Indizes vorhanden sind. Wenn wir beispielsweise alle Dokumente mit einem Namen durchsuchen müssen, der Central enthält, können wir wie hier gezeigt vorgehen:

GET /_all/_search?q=city:paprola

Beim Ausführen des obigen Codes erhalten wir die folgende Antwort:

{
   "took" : 33,
   "timed_out" : false,
   "_shards" : {
      "total" : 7,
      "successful" : 7,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 1,
         "relation" : "eq"
      },
      "max_score" : 0.9808292,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "5",
            "_score" : 0.9808292,
            "_source" : {
               "name" : "Central School",
               "description" : "CBSE Affiliation",
               "street" : "Nagan",
               "city" : "paprola",
               "state" : "HP",
               "zip" : "176115",
               "location" : [
                  31.8955385,
                  76.8380405
               ],
               "fees" : 2200,
               "tags" : [
                  "Senior Secondary",
                  "beautiful campus"
               ],
               "rating" : "3.3"
            }
         }
      ]
   }
}

URI-Suche

Viele Parameter können in einer Suchoperation mit Uniform Resource Identifier übergeben werden -

S.No. Parameter & Beschreibung
1

Q

Dieser Parameter wird verwendet, um eine Abfragezeichenfolge anzugeben.

2

lenient

Dieser Parameter wird verwendet, um eine Abfragezeichenfolge anzugeben. Formatbasierte Fehler können ignoriert werden, indem dieser Parameter einfach auf true gesetzt wird. Es ist standardmäßig falsch.

3

fields

Dieser Parameter wird verwendet, um eine Abfragezeichenfolge anzugeben.

4

sort

Mit diesem Parameter können wir ein sortiertes Ergebnis erhalten. Die möglichen Werte für diesen Parameter sind fieldName, fieldName: asc / fieldname: desc

5

timeout

Mit diesem Parameter können wir die Suchzeit einschränken. Die Antwort enthält nur die Treffer in der angegebenen Zeit. Standardmäßig gibt es keine Zeitüberschreitung.

6

terminate_after

Wir können die Antwort auf eine bestimmte Anzahl von Dokumenten für jeden Shard beschränken, bei deren Erreichen die Abfrage vorzeitig beendet wird. Standardmäßig gibt es kein terminate_after.

7

from

Der Start vom Index der Treffer bis zur Rückkehr. Der Standardwert ist 0.

8

size

Es gibt die Anzahl der Treffer an, die zurückgegeben werden sollen. Der Standardwert ist 10.

Körpersuche anfordern

Wir können die Abfrage auch mithilfe der Abfrage-DSL im Anforderungshauptteil angeben. In den vorherigen Kapiteln wurden bereits viele Beispiele aufgeführt. Ein solches Beispiel wird hier gegeben -

POST /schools/_search
{
   "query":{
      "query_string":{
         "query":"up"
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die folgende Antwort:

{
   "took" : 11,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 1,
         "relation" : "eq"
      },
      "max_score" : 0.47000363,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "4",
            "_score" : 0.47000363,
            "_source" : {
               "name" : "City Best School",
               "description" : "ICSE",
               "street" : "West End",
               "city" : "Meerut",
               "state" : "UP",
               "zip" : "250002",
               "location" : [
                  28.9926174,
                  77.692485
               ],
               "fees" : 3500,
               "tags" : [
                  "fully computerized"
               ],
               "rating" : "4.5"
            }
         }
      ]
   }
}

Das Aggregationsframework sammelt alle von der Suchabfrage ausgewählten Daten und besteht aus vielen Bausteinen, die beim Erstellen komplexer Zusammenfassungen der Daten helfen. Die Grundstruktur einer Aggregation wird hier gezeigt -

"aggregations" : {
   "" : {
      "" : {

      }
 
      [,"meta" : { [] } ]?
      [,"aggregations" : { []+ } ]?
   }
   [,"" : { ... } ]*
}

There are different types of aggregations, each with its own purpose. They are discussed in detail in this chapter.

Metrics Aggregations

These aggregations help in computing matrices from the field’s values of the aggregated documents and sometime some values can be generated from scripts.

Numeric matrices are either single-valued like average aggregation or multi-valued like stats.

Avg Aggregation

This aggregation is used to get the average of any numeric field present in the aggregated documents. For example,

POST /schools/_search
{
   "aggs":{
      "avg_fees":{"avg":{"field":"fees"}}
   }
}

On running the above code, we get the following result −

{
   "took" : 41,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : 1.0,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "5",
            "_score" : 1.0,
            "_source" : {
               "name" : "Central School",
               "description" : "CBSE Affiliation",
               "street" : "Nagan",
               "city" : "paprola",
               "state" : "HP",
               "zip" : "176115",
               "location" : [
                  31.8955385,
                  76.8380405
               ],
            "fees" : 2200,
            "tags" : [
               "Senior Secondary",
               "beautiful campus"
            ],
            "rating" : "3.3"
         }
      },
      {
         "_index" : "schools",
         "_type" : "school",
         "_id" : "4",
         "_score" : 1.0,
         "_source" : {
            "name" : "City Best School",
            "description" : "ICSE",
            "street" : "West End",
            "city" : "Meerut",
            "state" : "UP",
            "zip" : "250002",
            "location" : [
               28.9926174,
               77.692485
            ],
            "fees" : 3500,
            "tags" : [
               "fully computerized"
            ],
            "rating" : "4.5"
         }
      }
   ]
 },
   "aggregations" : {
      "avg_fees" : {
         "value" : 2850.0
      }
   }
}

Cardinality Aggregation

This aggregation gives the count of distinct values of a particular field.

POST /schools/_search?size=0
{
   "aggs":{
      "distinct_name_count":{"cardinality":{"field":"fees"}}
   }
}

On running the above code, we get the following result −

{
   "took" : 2,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "distinct_name_count" : {
         "value" : 2
      }
   }
}

Note − The value of cardinality is 2 because there are two distinct values in fees.

Extended Stats Aggregation

This aggregation generates all the statistics about a specific numerical field in aggregated documents.

POST /schools/_search?size=0
{
   "aggs" : {
      "fees_stats" : { "extended_stats" : { "field" : "fees" } }
   }
}

On running the above code, we get the following result −

{
   "took" : 8,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "fees_stats" : {
         "count" : 2,
         "min" : 2200.0,
         "max" : 3500.0,
         "avg" : 2850.0,
         "sum" : 5700.0,
         "sum_of_squares" : 1.709E7,
         "variance" : 422500.0,
         "std_deviation" : 650.0,
         "std_deviation_bounds" : {
            "upper" : 4150.0,
            "lower" : 1550.0
         }
      }
   }
}

Max Aggregation

This aggregation finds the max value of a specific numeric field in aggregated documents.

POST /schools/_search?size=0
{
   "aggs" : {
   "max_fees" : { "max" : { "field" : "fees" } }
   }
}

On running the above code, we get the following result −

{
   "took" : 16,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
  "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "max_fees" : {
         "value" : 3500.0
      }
   }
}

Min Aggregation

This aggregation finds the min value of a specific numeric field in aggregated documents.

POST /schools/_search?size=0
{
   "aggs" : {
      "min_fees" : { "min" : { "field" : "fees" } }
   }
}

On running the above code, we get the following result −

{
   "took" : 2,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
  "aggregations" : {
      "min_fees" : {
         "value" : 2200.0
      }
   }
}

Sum Aggregation

This aggregation calculates the sum of a specific numeric field in aggregated documents.

POST /schools/_search?size=0
{
   "aggs" : {
      "total_fees" : { "sum" : { "field" : "fees" } }
   }
}

On running the above code, we get the following result −

{
   "took" : 8,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "total_fees" : {
         "value" : 5700.0
      }
   }
}

There are some other metrics aggregations which are used in special cases like geo bounds aggregation and geo centroid aggregation for the purpose of geo location.

Stats Aggregations

A multi-value metrics aggregation that computes stats over numeric values extracted from the aggregated documents.

POST /schools/_search?size=0
{
   "aggs" : {
      "grades_stats" : { "stats" : { "field" : "fees" } }
   }
}

On running the above code, we get the following result −

{
   "took" : 2,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "grades_stats" : {
         "count" : 2,
         "min" : 2200.0,
         "max" : 3500.0,
         "avg" : 2850.0,
         "sum" : 5700.0
      }
   }
}

Aggregation Metadata

You can add some data about the aggregation at the time of request by using meta tag and can get that in response.

POST /schools/_search?size=0
{
   "aggs" : {
      "min_fees" : { "avg" : { "field" : "fees" } ,
         "meta" :{
            "dsc" :"Lowest Fees This Year"
         }
      }
   }
}

On running the above code, we get the following result −

{
   "took" : 0,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   },
   "aggregations" : {
      "min_fees" : {
         "meta" : {
            "dsc" : "Lowest Fees This Year"
         },
         "value" : 2850.0
      }
   }
}

These APIs are responsible for managing all the aspects of the index like settings, aliases, mappings, index templates.

Create Index

This API helps you to create an index. An index can be created automatically when a user is passing JSON objects to any index or it can be created before that. To create an index, you just need to send a PUT request with settings, mappings and aliases or just a simple request without body.

PUT colleges

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

{
   "acknowledged" : true,
   "shards_acknowledged" : true,
   "index" : "colleges"
}

Wir können dem obigen Befehl auch einige Einstellungen hinzufügen -

PUT colleges
{
  "settings" : {
      "index" : {
         "number_of_shards" : 3,
         "number_of_replicas" : 2
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

{
   "acknowledged" : true,
   "shards_acknowledged" : true,
   "index" : "colleges"
}

Index löschen

Mit dieser API können Sie jeden Index löschen. Sie müssen nur eine Löschanforderung mit dem Namen dieses bestimmten Index übergeben.

DELETE /colleges

Sie können alle Indizes einfach mit _all oder * löschen.

Index abrufen

Diese API kann durch einfaches Senden einer Get-Anfrage an einen oder mehrere Indizes aufgerufen werden. Dies gibt die Informationen zum Index zurück.

GET colleges

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

{
   "colleges" : {
      "aliases" : {
         "alias_1" : { },
         "alias_2" : {
            "filter" : {
               "term" : {
                  "user" : "pkay"
               }
            },
            "index_routing" : "pkay",
            "search_routing" : "pkay"
         }
      },
      "mappings" : { },
      "settings" : {
         "index" : {
            "creation_date" : "1556245406616",
            "number_of_shards" : "1",
            "number_of_replicas" : "1",
            "uuid" : "3ExJbdl2R1qDLssIkwDAug",
            "version" : {
               "created" : "7000099"
            },
            "provided_name" : "colleges"
         }
      }
   }
}

Sie können die Informationen aller Indizes mit _all oder * abrufen.

Index vorhanden

Das Vorhandensein eines Index kann durch einfaches Senden einer Abrufanforderung an diesen Index festgestellt werden. Wenn die HTTP-Antwort 200 ist, ist sie vorhanden. Wenn es 404 ist, existiert es nicht.

HEAD colleges

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

200-OK

Indexeinstellungen

Sie können die Indexeinstellungen abrufen, indem Sie einfach das Schlüsselwort _settings am Ende der URL anhängen.

GET /colleges/_settings

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

{
   "colleges" : {
      "settings" : {
         "index" : {
            "creation_date" : "1556245406616",
            "number_of_shards" : "1",
            "number_of_replicas" : "1",
            "uuid" : "3ExJbdl2R1qDLssIkwDAug",
            "version" : {
               "created" : "7000099"
            },
            "provided_name" : "colleges"
         }
      }
   }
}

Indexstatistik

Mit dieser API können Sie Statistiken zu einem bestimmten Index extrahieren. Sie müssen lediglich eine Get-Anfrage mit der Index-URL und dem Schlüsselwort _stats am Ende senden.

GET /_stats

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

………………………………………………
},
   "request_cache" : {
      "memory_size_in_bytes" : 849,
      "evictions" : 0,
      "hit_count" : 1171,
      "miss_count" : 4
   },
   "recovery" : {
      "current_as_source" : 0,
      "current_as_target" : 0,
      "throttle_time_in_millis" : 0
   }
} ………………………………………………

Spülen

Der Flush-Prozess eines Index stellt sicher, dass alle Daten, die derzeit nur im Transaktionsprotokoll gespeichert sind, auch in Lucene dauerhaft gespeichert werden. Dies reduziert die Wiederherstellungszeiten, da diese Daten nach dem Öffnen des Lucene-Index nicht erneut aus den Transaktionsprotokollen indiziert werden müssen.

POST colleges/_flush

Beim Ausführen des obigen Codes erhalten wir die Ausgabe wie unten gezeigt -

{
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   } 
}

Normalerweise werden die Ergebnisse verschiedener Elasticsearch-APIs im JSON-Format angezeigt. Aber JSON ist nicht immer leicht zu lesen. Die in Elasticsearch verfügbare Funktion für Katzen-APIs hilft also dabei, das Druckformat der Ergebnisse leichter zu lesen und zu verstehen. In der cat-API werden verschiedene Parameter verwendet, die beispielsweise einen anderen Zweck erfüllen - der Begriff V macht die Ausgabe ausführlich.

In diesem Kapitel erfahren Sie mehr über Cat-APIs.

Ausführlich

Die ausführliche Ausgabe bietet eine schöne Anzeige der Ergebnisse eines cat-Befehls. Im folgenden Beispiel erhalten wir die Details verschiedener im Cluster vorhandener Indizes.

GET /_cat/indices?v

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

health status index uuid pri rep docs.count docs.deleted store.size pri.store.size
yellow open schools RkMyEn2SQ4yUgzT6EQYuAA 1 1 2 1 21.6kb 21.6kb
yellow open index_4_analysis zVmZdM1sTV61YJYrNXf1gg 1 1 0 0 283b 283b
yellow open sensor-2018-01-01 KIrrHwABRB-ilGqTu3OaVQ 1 1 1 0 4.2kb 4.2kb
yellow open colleges 3ExJbdl2R1qDLssIkwDAug 1 1 0 0 283b 283b

Überschriften

Der Parameter h, auch Header genannt, wird verwendet, um nur die im Befehl genannten Spalten anzuzeigen.

GET /_cat/nodes?h=ip,port

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

127.0.0.1 9300

Sortieren

Der Befehl sort akzeptiert eine Abfragezeichenfolge, mit der die Tabelle nach der angegebenen Spalte in der Abfrage sortiert werden kann. Die Standardsortierung ist aufsteigend. Dies kann jedoch durch Hinzufügen von: desc zu einer Spalte geändert werden.

Das folgende Beispiel zeigt ein Ergebnis von Vorlagen, die in absteigender Reihenfolge der abgelegten Indexmuster angeordnet sind.

GET _cat/templates?v&s=order:desc,index_patterns

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

name index_patterns order version
.triggered_watches [.triggered_watches*] 2147483647
.watch-history-9 [.watcher-history-9*] 2147483647
.watches [.watches*] 2147483647
.kibana_task_manager [.kibana_task_manager] 0 7000099

Anzahl

Der Parameter count gibt die Anzahl der Gesamtzahl der Dokumente im gesamten Cluster an.

GET /_cat/count?v

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

epoch timestamp count
1557633536 03:58:56 17809

Die Cluster-API wird verwendet, um Informationen über den Cluster und seine Knoten abzurufen und Änderungen daran vorzunehmen. Um diese API aufzurufen, müssen Sie den Knotennamen, die Adresse oder _local angeben.

GET /_nodes/_local

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

………………………………………………
cluster_name" : "elasticsearch",
   "nodes" : {
      "FKH-5blYTJmff2rJ_lQOCg" : {
         "name" : "ubuntu",
         "transport_address" : "127.0.0.1:9300",
         "host" : "127.0.0.1",
         "ip" : "127.0.0.1",
         "version" : "7.0.0",
         "build_flavor" : "default",
         "build_type" : "tar",
         "build_hash" : "b7e28a7",
         "total_indexing_buffer" : 106502553,
         "roles" : [
            "master",
            "data",
            "ingest"
         ],
         "attributes" : {
………………………………………………

Clusterzustand

Diese API wird verwendet, um den Status des Zustands des Clusters durch Anhängen des Schlüsselworts 'health' abzurufen.

GET /_cluster/health

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "cluster_name" : "elasticsearch",
   "status" : "yellow",
   "timed_out" : false,
   "number_of_nodes" : 1,
   "number_of_data_nodes" : 1,
   "active_primary_shards" : 7,
   "active_shards" : 7,
   "relocating_shards" : 0,
   "initializing_shards" : 0,
   "unassigned_shards" : 4,
   "delayed_unassigned_shards" : 0,
   "number_of_pending_tasks" : 0,
   "number_of_in_flight_fetch" : 0,
   "task_max_waiting_in_queue_millis" : 0,
   "active_shards_percent_as_number" : 63.63636363636363
}

Clusterstatus

Diese API wird verwendet, um Statusinformationen zu einem Cluster abzurufen, indem die Schlüsselwort-URL 'state' angehängt wird. Die Statusinformationen enthalten Version, Masterknoten, andere Knoten, Routing-Tabelle, Metadaten und Blöcke.

GET /_cluster/state

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

………………………………………………
{
   "cluster_name" : "elasticsearch",
   "cluster_uuid" : "IzKu0OoVTQ6LxqONJnN2eQ",
   "version" : 89,
   "state_uuid" : "y3BlwvspR1eUQBTo0aBjig",
   "master_node" : "FKH-5blYTJmff2rJ_lQOCg",
   "blocks" : { },
   "nodes" : {
      "FKH-5blYTJmff2rJ_lQOCg" : {
      "name" : "ubuntu",
      "ephemeral_id" : "426kTGpITGixhEzaM-5Qyg",
      "transport
   }
………………………………………………

Cluster-Statistiken

Diese API hilft beim Abrufen von Statistiken über Cluster mithilfe des Schlüsselworts 'stats'. Diese API gibt die Shard-Nummer, die Speichergröße, die Speichernutzung, die Anzahl der Knoten, die Rollen, das Betriebssystem und das Dateisystem zurück.

GET /_cluster/stats

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

………………………………………….
"cluster_name" : "elasticsearch",
"cluster_uuid" : "IzKu0OoVTQ6LxqONJnN2eQ",
"timestamp" : 1556435464704,
"status" : "yellow",
"indices" : {
   "count" : 7,
   "shards" : {
      "total" : 7,
      "primaries" : 7,
      "replication" : 0.0,
      "index" : {
         "shards" : {
         "min" : 1,
         "max" : 1,
         "avg" : 1.0
      },
      "primaries" : {
         "min" : 1,
         "max" : 1,
         "avg" : 1.0
      },
      "replication" : {
         "min" : 0.0,
         "max" : 0.0,
         "avg" : 0.0
      }
………………………………………….

Cluster-Update-Einstellungen

Mit dieser API können Sie die Einstellungen eines Clusters mithilfe des Schlüsselworts "settings" aktualisieren. Es gibt zwei Arten von Einstellungen: persistente (bei Neustarts angewendete) und vorübergehende (überleben Sie einen vollständigen Cluster-Neustart nicht).

Knotenstatistik

Diese API wird verwendet, um die Statistiken eines weiteren Knotens des Clusters abzurufen. Die Knotenstatistiken entsprechen fast denen des Clusters.

GET /_nodes/stats

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "_nodes" : {
      "total" : 1,
      "successful" : 1,
      "failed" : 0
   },
   "cluster_name" : "elasticsearch",
   "nodes" : {
      "FKH-5blYTJmff2rJ_lQOCg" : {
         "timestamp" : 1556437348653,
         "name" : "ubuntu",
         "transport_address" : "127.0.0.1:9300",
         "host" : "127.0.0.1",
         "ip" : "127.0.0.1:9300",
         "roles" : [
            "master",
            "data",
            "ingest"
         ],
         "attributes" : {
            "ml.machine_memory" : "4112797696",
            "xpack.installed" : "true",
            "ml.max_open_jobs" : "20"
         },
………………………………………………………….

Knoten hot_threads

Mit dieser API können Sie Informationen zu den aktuellen Hot-Threads auf jedem Knoten im Cluster abrufen.

GET /_nodes/hot_threads

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

:::{ubuntu}{FKH-5blYTJmff2rJ_lQOCg}{426kTGpITGixhEzaM5Qyg}{127.0.0.1}{127.0.0.1:9300}{ml.machine_memory=4112797696,
xpack.installed=true, ml.max_open_jobs=20}
 Hot threads at 2019-04-28T07:43:58.265Z, interval=500ms, busiestThreads=3,
ignoreIdleThreads=true:

In Elasticsearch wird die Suche mithilfe einer auf JSON basierenden Abfrage ausgeführt. Eine Abfrage besteht aus zwei Klauseln -

  • Leaf Query Clauses - Diese Klauseln sind Übereinstimmungen, Begriffe oder Bereiche, die nach einem bestimmten Wert in einem bestimmten Feld suchen.

  • Compound Query Clauses - Diese Abfragen sind eine Kombination aus Blattabfrageklauseln und anderen zusammengesetzten Abfragen, um die gewünschten Informationen zu extrahieren.

Elasticsearch unterstützt eine große Anzahl von Abfragen. Eine Abfrage beginnt mit einem Abfrage-Schlüsselwort und enthält dann Bedingungen und Filter in Form eines JSON-Objekts. Die verschiedenen Arten von Abfragen wurden unten beschrieben.

Alle Abfragen abgleichen

Dies ist die grundlegendste Abfrage. Es gibt den gesamten Inhalt und die Punktzahl 1,0 für jedes Objekt zurück.

POST /schools/_search
{
   "query":{
      "match_all":{}
   }
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "took" : 7,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : 1.0,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "5",
            "_score" : 1.0,
            "_source" : {
               "name" : "Central School",
               "description" : "CBSE Affiliation",
               "street" : "Nagan",
               "city" : "paprola",
               "state" : "HP",
               "zip" : "176115",
               "location" : [
                  31.8955385,
                  76.8380405
               ],
               "fees" : 2200,
               "tags" : [
                  "Senior Secondary",
                  "beautiful campus"
               ],
               "rating" : "3.3"
            }
         },
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "4",
            "_score" : 1.0,
            "_source" : {
               "name" : "City Best School",
               "description" : "ICSE",
               "street" : "West End",
               "city" : "Meerut",
               "state" : "UP",
               "zip" : "250002",
               "location" : [
                  28.9926174,
                  77.692485
               ],
               "fees" : 3500,
               "tags" : [
                  "fully computerized"
               ],
               "rating" : "4.5"
            }
         }
      ]
   }
}

Volltextabfragen

Diese Abfragen werden verwendet, um einen vollständigen Text wie ein Kapitel oder einen Nachrichtenartikel zu durchsuchen. Diese Abfrage funktioniert gemäß dem Analysator, der diesem bestimmten Index oder Dokument zugeordnet ist. In diesem Abschnitt werden die verschiedenen Arten von Volltextabfragen erläutert.

Abfrage abgleichen

Diese Abfrage ordnet einen Text oder eine Phrase den Werten eines oder mehrerer Felder zu.

POST /schools*/_search
{
   "query":{
      "match" : {
         "rating":"4.5"
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 44,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 1,
         "relation" : "eq"
      },
      "max_score" : 0.47000363,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "4",
            "_score" : 0.47000363,
            "_source" : {
               "name" : "City Best School",
               "description" : "ICSE",
               "street" : "West End",
               "city" : "Meerut",
               "state" : "UP",
               "zip" : "250002",
               "location" : [
                  28.9926174,
                  77.692485
               ],
               "fees" : 3500,
               "tags" : [
                  "fully computerized"
               ],
               "rating" : "4.5"
            }
         }
      ]
   }
}

Multi-Match-Abfrage

Diese Abfrage entspricht einem Text oder einer Phrase mit mehr als einem Feld.

POST /schools*/_search
{
   "query":{
      "multi_match" : {
         "query": "paprola",
         "fields": [ "city", "state" ]
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 12,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 1,
         "relation" : "eq"
      },
      "max_score" : 0.9808292,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "5",
            "_score" : 0.9808292,
            "_source" : {
               "name" : "Central School",
               "description" : "CBSE Affiliation",
               "street" : "Nagan",
               "city" : "paprola",
               "state" : "HP",
               "zip" : "176115",
               "location" : [
                  31.8955385,
                  76.8380405
               ],
               "fees" : 2200,
               "tags" : [
                  "Senior Secondary",
                  "beautiful campus"
               ],
               "rating" : "3.3"
            }
         }
      ]
   }
}

Abfragezeichenfolge Abfrage

Diese Abfrage verwendet den Abfrageparser und das Schlüsselwort query_string.

POST /schools*/_search
{
   "query":{
      "query_string":{
         "query":"beautiful"
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 60,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
      "value" : 1,
      "relation" : "eq"
   },
………………………………….

Abfragen auf Termebene

Diese Abfragen befassen sich hauptsächlich mit strukturierten Daten wie Zahlen, Daten und Aufzählungen.

POST /schools*/_search
{
   "query":{
      "term":{"zip":"176115"}
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

……………………………..
hits" : [
   {
      "_index" : "schools",
      "_type" : "school",
      "_id" : "5",
      "_score" : 0.9808292,
      "_source" : {
         "name" : "Central School",
         "description" : "CBSE Affiliation",
         "street" : "Nagan",
         "city" : "paprola",
         "state" : "HP",
         "zip" : "176115",
         "location" : [
            31.8955385,
            76.8380405
         ],
      }
   }
]   
…………………………………………..

Bereichsabfrage

Diese Abfrage wird verwendet, um die Objekte mit Werten zwischen den angegebenen Wertebereichen zu finden. Dafür müssen wir Operatoren wie - verwenden

  • gte - größer als gleich
  • gt - größer als
  • lte - weniger als gleich
  • lt - weniger als

Beachten Sie zum Beispiel den unten angegebenen Code -

POST /schools*/_search
{
   "query":{
      "range":{
         "rating":{
            "gte":3.5
         }
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 24,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 1,
         "relation" : "eq"
      },
      "max_score" : 1.0,
      "hits" : [
         {
            "_index" : "schools",
            "_type" : "school",
            "_id" : "4",
            "_score" : 1.0,
            "_source" : {
               "name" : "City Best School",
               "description" : "ICSE",
               "street" : "West End",
               "city" : "Meerut",
               "state" : "UP",
               "zip" : "250002",
               "location" : [
                  28.9926174,
                  77.692485
               ],
               "fees" : 3500,
               "tags" : [
                  "fully computerized"
               ],
               "rating" : "4.5"
            }
         }
      ]
   }
}

Es gibt auch andere Arten von Abfragen auf Begriffebene, z.

  • Exists query - Wenn ein bestimmtes Feld einen Wert ungleich Null hat.

  • Missing query - Dies ist völlig entgegengesetzt zu einer vorhandenen Abfrage. Diese Abfrage sucht nach Objekten ohne bestimmte Felder oder Felder mit dem Wert Null.

  • Wildcard or regexp query - Diese Abfrage verwendet reguläre Ausdrücke, um Muster in den Objekten zu finden.

Zusammengesetzte Abfragen

Diese Abfragen sind eine Sammlung verschiedener Abfragen, die unter Verwendung von Booleschen Operatoren wie und, oder, nicht oder für verschiedene Indizes oder mit Funktionsaufrufen usw. zusammengeführt werden.

POST /schools/_search
{
   "query": {
      "bool" : {
         "must" : {
            "term" : { "state" : "UP" }
         },
         "filter": {
            "term" : { "fees" : "2200" }
         },
         "minimum_should_match" : 1,
         "boost" : 1.0
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 6,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 0,
         "relation" : "eq"
      },
      "max_score" : null,
      "hits" : [ ]
   }
}

Geo-Abfragen

Diese Abfragen befassen sich mit Geostandorten und Geopunkten. Diese Abfragen helfen dabei, Schulen oder andere geografische Objekte in der Nähe eines beliebigen Ortes herauszufinden. Sie müssen den Geopunktdatentyp verwenden.

PUT /geo_example
{
   "mappings": {
      "properties": {
         "location": {
            "type": "geo_shape"
         }
      }
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{  "acknowledged" : true,
   "shards_acknowledged" : true,
   "index" : "geo_example"
}

Jetzt veröffentlichen wir die Daten in dem oben erstellten Index.

POST /geo_example/_doc?refresh
{
   "name": "Chapter One, London, UK",
   "location": {
      "type": "point",
      "coordinates": [11.660544, 57.800286]
   }
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 1,
   "timed_out" : false,
   "_shards" : {
      "total" : 1,
      "successful" : 1,
      "skipped" : 0,
      "failed" : 0
   },
   "hits" : {
      "total" : {
         "value" : 2,
         "relation" : "eq"
      },
      "max_score" : 1.0,
      "hits" : [
         "_index" : "geo_example",
         "_type" : "_doc",
         "_id" : "hASWZ2oBbkdGzVfiXHKD",
         "_score" : 1.0,
         "_source" : {
            "name" : "Chapter One, London, UK",
            "location" : {
               "type" : "point",
               "coordinates" : [
                  11.660544,
                  57.800286
               ]
            }
         }
      }
   }

Die Zuordnung ist der Umriss der in einem Index gespeicherten Dokumente. Es definiert den Datentyp wie geo_point oder string und das Format der Felder in den Dokumenten und Regeln, um die Zuordnung von dynamisch hinzugefügten Feldern zu steuern.

PUT bankaccountdetails
{
   "mappings":{
      "properties":{
         "name": { "type":"text"}, "date":{ "type":"date"},
         "balance":{ "type":"double"}, "liability":{ "type":"double"}
      }
   }
 }

Wenn wir den obigen Code ausführen, erhalten wir die Antwort wie unten gezeigt -

{
   "acknowledged" : true,
   "shards_acknowledged" : true,
   "index" : "bankaccountdetails"
}

Felddatentypen

Elasticsearch unterstützt verschiedene Datentypen für die Felder in einem Dokument. Die zum Speichern von Feldern in Elasticsearch verwendeten Datentypen werden hier ausführlich erläutert.

Kerndatentypen

Dies sind die grundlegenden Datentypen wie Text, Schlüsselwort, Datum, Long, Double, Boolean oder IP, die von fast allen Systemen unterstützt werden.

Komplexe Datentypen

Diese Datentypen sind eine Kombination von Kerndatentypen. Dazu gehören Array, JSON-Objekt und verschachtelter Datentyp. Ein Beispiel für einen verschachtelten Datentyp ist unten & minus dargestellt

POST /tabletennis/_doc/1
{
   "group" : "players",
   "user" : [
      {
         "first" : "dave", "last" : "jones"
      },
      {
         "first" : "kevin", "last" : "morris"
      }
   ]
}

Wenn wir den obigen Code ausführen, erhalten wir die Antwort wie unten gezeigt -

{
   "_index" : "tabletennis",
   "_type" : "_doc",
   "_id" : "1",
   _version" : 2,
   "result" : "updated",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 1,
   "_primary_term" : 1
}

Ein weiterer Beispielcode ist unten dargestellt -

POST /accountdetails/_doc/1
{
   "from_acc":"7056443341", "to_acc":"7032460534",
   "date":"11/1/2016", "amount":10000
}

Wenn wir den obigen Code ausführen, erhalten wir die Antwort wie unten gezeigt -

{  "_index" : "accountdetails",
   "_type" : "_doc",
   "_id" : "1",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 1,
   "_primary_term" : 1
}

Wir können das obige Dokument mit dem folgenden Befehl überprüfen:

GET /accountdetails/_mappings?include_type_name=false

Entfernen von Zuordnungstypen

In Elasticsearch 7.0.0 oder höher erstellte Indizes akzeptieren keine Standardzuordnung mehr. In 6.x erstellte Indizes funktionieren weiterhin wie zuvor in Elasticsearch 6.x. Typen sind in APIs in 7.0 veraltet.

Wenn eine Abfrage während eines Suchvorgangs verarbeitet wird, wird der Inhalt eines beliebigen Index vom Analysemodul analysiert. Dieses Modul besteht aus Analysator, Tokenizer, Tokenfiltern und Zeichenfiltern. Wenn kein Analysator definiert ist, werden standardmäßig die integrierten Analysatoren, Token, Filter und Tokenizer beim Analysemodul registriert.

Im folgenden Beispiel verwenden wir einen Standardanalysator, der verwendet wird, wenn kein anderer Analysator angegeben ist. Es analysiert den Satz anhand der Grammatik und erzeugt die im Satz verwendeten Wörter.

POST _analyze
{
   "analyzer": "standard",
   "text": "Today's weather is beautiful"
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "tokens" : [
      {
         "token" : "today's",
         "start_offset" : 0,
         "end_offset" : 7,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "weather",
         "start_offset" : 8,
         "end_offset" : 15,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "is",
         "start_offset" : 16,
         "end_offset" : 18,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 19,
         "end_offset" : 28,
         "type" : "",
         "position" : 3
      }
   ]
}

Konfigurieren des Standardanalysators

Wir können den Standardanalysator mit verschiedenen Parametern konfigurieren, um unsere benutzerdefinierten Anforderungen zu erfüllen.

Im folgenden Beispiel konfigurieren wir den Standardanalysator so, dass er eine max_token_length von 5 hat.

Dazu erstellen wir zunächst einen Index mit dem Analysator mit dem Parameter max_length_token.

PUT index_4_analysis
{
   "settings": {
      "analysis": {
         "analyzer": {
            "my_english_analyzer": {
               "type": "standard",
               "max_token_length": 5,
               "stopwords": "_english_"
            }
         }
      }
   }
}

Als nächstes wenden wir den Analysator mit einem Text an, wie unten gezeigt. Bitte beachten Sie, dass das Token nicht angezeigt wird, da es am Anfang zwei Leerzeichen und am Ende zwei Leerzeichen enthält. Für das Wort "ist" gibt es ein Leerzeichen am Anfang und ein Leerzeichen am Ende. Wenn man sie alle nimmt, werden es 4 Buchstaben mit Leerzeichen und das macht es nicht zu einem Wort. Zumindest am Anfang oder am Ende sollte ein Leerzeichen stehen, damit es zu einem zu zählenden Wort wird.

POST index_4_analysis/_analyze
{
   "analyzer": "my_english_analyzer",
   "text": "Today's weather is beautiful"
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "tokens" : [
      {
         "token" : "today",
         "start_offset" : 0,
         "end_offset" : 5,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "s",
         "start_offset" : 6,
         "end_offset" : 7,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "weath",
         "start_offset" : 8,
         "end_offset" : 13,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "er",
         "start_offset" : 13,
         "end_offset" : 15,
         "type" : "",
         "position" : 3
      },
      {
         "token" : "beaut",
         "start_offset" : 19,
         "end_offset" : 24,
         "type" : "",
         "position" : 5
      },
      {
         "token" : "iful",
         "start_offset" : 24,
         "end_offset" : 28,
         "type" : "",
         "position" : 6
      }
   ]
}

Die Liste der verschiedenen Analysegeräte und ihre Beschreibung sind in der folgenden Tabelle aufgeführt.

S.No. Analysator & Beschreibung
1

Standard analyzer (standard)

Für diesen Analysator können Stoppwörter und die Einstellung max_token_length festgelegt werden. Standardmäßig ist die Stoppwortliste leer und max_token_length ist 255.

2

Simple analyzer (simple)

Dieser Analysator besteht aus einem Tokenizer in Kleinbuchstaben.

3

Whitespace analyzer (whitespace)

Dieser Analysator besteht aus einem Whitespace-Tokenizer.

4

Stop analyzer (stop)

stopwords und stopwords_path können konfiguriert werden. Standardmäßig werden Stoppwörter mit englischen Stoppwörtern initialisiert und stopwords_path enthält den Pfad zu einer Textdatei mit Stoppwörtern.

Tokenizer

Tokenizer werden zum Generieren von Token aus einem Text in Elasticsearch verwendet. Text kann unter Berücksichtigung von Leerzeichen oder anderen Satzzeichen in Token zerlegt werden. Elasticsearch verfügt über zahlreiche integrierte Tokenizer, die in benutzerdefinierten Analysegeräten verwendet werden können.

Ein Beispiel für einen Tokenizer, der Text in Begriffe zerlegt, wenn er auf ein Zeichen trifft, das kein Buchstabe ist, aber auch alle Begriffe in Kleinbuchstaben schreibt, ist unten dargestellt.

POST _analyze
{
   "tokenizer": "lowercase",
   "text": "It Was a Beautiful Weather 5 Days ago."
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "tokens" : [
      {
         "token" : "it",
         "start_offset" : 0,
         "end_offset" : 2,
         "type" : "word",
         "position" : 0
      },
      {
         "token" : "was",
         "start_offset" : 3,
         "end_offset" : 6,
         "type" : "word",
         "position" : 1
      },
      {
         "token" : "a",
         "start_offset" : 7,
         "end_offset" : 8,
         "type" : "word",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 9,
         "end_offset" : 18,
         "type" : "word",
         "position" : 3
      },
      {
         "token" : "weather",
         "start_offset" : 19,
         "end_offset" : 26,
         "type" : "word",
         "position" : 4
      },
      {
         "token" : "days",
         "start_offset" : 29,
         "end_offset" : 33,
         "type" : "word",
         "position" : 5
      },
      {
         "token" : "ago",
         "start_offset" : 34,
         "end_offset" : 37,
         "type" : "word",
         "position" : 6
      }
   ]
}

Eine Liste der Tokenizer und ihrer Beschreibungen finden Sie hier in der folgenden Tabelle -

S.No. Tokenizer & Beschreibung
1

Standard tokenizer (standard)

Dies basiert auf einem grammatikalischen Tokenizer und max_token_length kann für diesen Tokenizer konfiguriert werden.

2

Edge NGram tokenizer (edgeNGram)

Für diesen Tokenizer können Einstellungen wie min_gram, max_gram, token_chars festgelegt werden.

3

Keyword tokenizer (keyword)

Dies erzeugt die gesamte Eingabe als Ausgabe und dafür kann buffer_size eingestellt werden.

4

Letter tokenizer (letter)

Dies erfasst das gesamte Wort, bis ein Nicht-Buchstabe gefunden wird.

Elasticsearch besteht aus einer Reihe von Modulen, die für die Funktionalität verantwortlich sind. Diese Module haben zwei Arten von Einstellungen:

  • Static Settings- Diese Einstellungen müssen in der Konfigurationsdatei (elasticsearch.yml) konfiguriert werden, bevor Elasticsearch gestartet wird. Sie müssen alle betroffenen Knoten im Cluster aktualisieren, um die Änderungen durch diese Einstellungen widerzuspiegeln.

  • Dynamic Settings - Diese Einstellungen können in der Live-Elasticsearch vorgenommen werden.

Wir werden die verschiedenen Module von Elasticsearch in den folgenden Abschnitten dieses Kapitels diskutieren.

Routing auf Cluster-Ebene und Shard-Zuweisung

Einstellungen auf Clusterebene bestimmen die Zuordnung von Shards zu verschiedenen Knoten und die Neuzuweisung von Shards, um den Cluster neu auszugleichen. Dies sind die folgenden Einstellungen zur Steuerung der Shard-Zuordnung.

Shard-Zuordnung auf Cluster-Ebene

Rahmen Möglicher Wert Beschreibung
cluster.routing.allocation.enable
alle Dieser Standardwert ermöglicht die Zuweisung von Shards für alle Arten von Shards.
Vorwahlen Dies ermöglicht die Zuweisung von Shards nur für primäre Shards.
new_primaries Dies ermöglicht die Zuweisung von Shards nur für primäre Shards für neue Indizes.
keiner Dies erlaubt keine Shard-Zuweisungen.
cluster.routing.allocation .node_concurrent_recoveries Numerischer Wert (standardmäßig 2) Dies schränkt die Anzahl der gleichzeitigen Shard-Wiederherstellung ein.
cluster.routing.allocation .node_initial_primaries_recoveries Numerischer Wert (standardmäßig 4) Dies schränkt die Anzahl der parallelen anfänglichen primären Wiederherstellungen ein.
cluster.routing.allocation .same_shard.host Boolescher Wert (standardmäßig false) Dies schränkt die Zuweisung von mehr als einem Replikat desselben Shards auf demselben physischen Knoten ein.
indices.recovery.concurrent _streams Numerischer Wert (standardmäßig 3) Dies steuert die Anzahl offener Netzwerkströme pro Knoten zum Zeitpunkt der Shard-Wiederherstellung von Peer-Shards.
indices.recovery.concurrent _small_file_streams Numerischer Wert (standardmäßig 2) Dies steuert die Anzahl offener Streams pro Knoten für kleine Dateien mit einer Größe von weniger als 5 MB zum Zeitpunkt der Shard-Wiederherstellung.
cluster.routing.rebalance.enable
alle Dieser Standardwert ermöglicht das Ausgleichen für alle Arten von Shards.
Vorwahlen Dies ermöglicht das Ausgleichen von Shards nur für primäre Shards.
Repliken Dies ermöglicht das Ausgleichen von Shards nur für Replikatshards.
keiner Dies erlaubt keine Art von Shard-Balancing.
cluster.routing.allocation .allow_rebalance
immer Dieser Standardwert ermöglicht immer eine Neuausrichtung.
indices_primaries _active Dies ermöglicht einen Neuausgleich, wenn alle primären Shards im Cluster zugewiesen sind.
Indices_all_active Dies ermöglicht einen Neuausgleich, wenn alle primären und Replikat-Shards zugewiesen sind.
cluster.routing.allocation.cluster _concurrent_rebalance Numerischer Wert (standardmäßig 2) Dies schränkt die Anzahl des gleichzeitigen Shard-Ausgleichs im Cluster ein.
cluster.routing.allocation .balance.shard Float-Wert (standardmäßig 0,45f) Dies definiert den Gewichtsfaktor für Shards, die jedem Knoten zugewiesen sind.
cluster.routing.allocation .balance.index Float-Wert (standardmäßig 0,55f) Dies definiert das Verhältnis der Anzahl der Shards pro Index, die einem bestimmten Knoten zugewiesen sind.
cluster.routing.allocation .balance.threshold Nicht negativer Float-Wert (standardmäßig 1.0f) Dies ist der minimale Optimierungswert der Operationen, die ausgeführt werden sollen.

Festplattenbasierte Shard-Zuordnung

Rahmen Möglicher Wert Beschreibung
cluster.routing.allocation.disk.threshold_enabled Boolescher Wert (standardmäßig true) Dies aktiviert und deaktiviert den Festplattenzuweisungsentscheider.
cluster.routing.allocation.disk.watermark.low Zeichenfolgenwert (standardmäßig 85%) Dies bedeutet die maximale Nutzung der Festplatte. Nach diesem Zeitpunkt kann dieser Festplatte kein anderer Shard mehr zugewiesen werden.
cluster.routing.allocation.disk.watermark.high Zeichenfolgenwert (standardmäßig 90%) Dies gibt die maximale Nutzung zum Zeitpunkt der Zuweisung an. Wenn dieser Punkt zum Zeitpunkt der Zuweisung erreicht ist, weist Elasticsearch diesen Shard einer anderen Festplatte zu.
cluster.info.update.interval Zeichenfolgenwert (standardmäßig 30s) Dies ist das Intervall zwischen den Überprüfungen der Festplattennutzung.
cluster.routing.allocation.disk.include_relocations Boolescher Wert (standardmäßig true) Hiermit wird entschieden, ob die aktuell zugewiesenen Shards bei der Berechnung der Festplattennutzung berücksichtigt werden sollen.

Entdeckung

Dieses Modul hilft einem Cluster, den Status aller darin enthaltenen Knoten zu ermitteln und aufrechtzuerhalten. Der Status des Clusters ändert sich, wenn ein Knoten hinzugefügt oder daraus gelöscht wird. Die Einstellung für den Clusternamen wird verwendet, um einen logischen Unterschied zwischen verschiedenen Clustern zu erzeugen. Es gibt einige Module, mit denen Sie die von Cloud-Anbietern bereitgestellten APIs verwenden können.

  • Azure-Erkennung
  • EC2-Entdeckung
  • Google Compute Engine Discovery
  • Zen-Entdeckung

Tor

Dieses Modul behält den Clusterstatus und die Shard-Daten bei einem vollständigen Neustart des Clusters bei. Im Folgenden sind die statischen Einstellungen dieses Moduls aufgeführt:

Rahmen Möglicher Wert Beschreibung
gateway.expected_nodes numerischer Wert (standardmäßig 0) Die Anzahl der Knoten, die sich voraussichtlich im Cluster befinden, um lokale Shards wiederherzustellen.
gateway.expected_master_nodes numerischer Wert (standardmäßig 0) Die Anzahl der Masterknoten, die sich voraussichtlich vor Beginn der Wiederherstellung im Cluster befinden.
gateway.expected_data_nodes numerischer Wert (standardmäßig 0) Die Anzahl der Datenknoten, die im Cluster vor dem Start der Wiederherstellung erwartet werden.
gateway.recover_after_time Zeichenfolgenwert (standardmäßig 5 m) Dies ist das Intervall zwischen den Überprüfungen der Festplattennutzung.
cluster.routing.allocation. disk.include_relocations Boolescher Wert (standardmäßig true)

Dies gibt die Zeit an, für die der Wiederherstellungsprozess auf den Start wartet, unabhängig von der Anzahl der im Cluster verbundenen Knoten.

gateway.recover_ after_nodes
gateway.recover_after_master_nodes
gateway.recover_after_data_nodes

HTTP

Dieses Modul verwaltet die Kommunikation zwischen dem HTTP-Client und den Elasticsearch-APIs. Dieses Modul kann deaktiviert werden, indem der Wert von http.enabled in false geändert wird.

Im Folgenden sind die Einstellungen (in elasticsearch.yml konfiguriert) zur Steuerung dieses Moduls aufgeführt:

S.No. Einstellung & Beschreibung
1

http.port

Dies ist ein Port für den Zugriff auf Elasticsearch und reicht von 9200 bis 9300.

2

http.publish_port

Dieser Port ist für http-Clients und auch im Falle einer Firewall nützlich.

3

http.bind_host

Dies ist eine Hostadresse für den http-Dienst.

4

http.publish_host

Dies ist eine Hostadresse für den http-Client.

5

http.max_content_length

Dies ist die maximale Größe des Inhalts in einer http-Anforderung. Der Standardwert ist 100 MB.

6

http.max_initial_line_length

Dies ist die maximale Größe der URL und ihr Standardwert ist 4 KB.

7

http.max_header_size

Dies ist die maximale Größe des http-Headers und der Standardwert ist 8 KB.

8

http.compression

Dies aktiviert oder deaktiviert die Unterstützung für die Komprimierung und der Standardwert ist false.

9

http.pipelinig

Dies aktiviert oder deaktiviert das HTTP-Pipelining.

10

http.pipelining.max_events

Dies beschränkt die Anzahl der Ereignisse, die vor dem Schließen einer HTTP-Anforderung in die Warteschlange gestellt werden sollen.

Indizes

Dieses Modul verwaltet die Einstellungen, die global für jeden Index festgelegt werden. Die folgenden Einstellungen beziehen sich hauptsächlich auf die Speichernutzung -

Leistungsschalter

Dies wird verwendet, um zu verhindern, dass der Betrieb einen OutOfMemroyError verursacht. Die Einstellung beschränkt hauptsächlich die Größe des JVM-Heapspeichers. Beispiel: Die Einstellung indices.breaker.total.limit, die standardmäßig 70% des JVM-Heaps beträgt.

Felddaten-Cache

Dies wird hauptsächlich beim Aggregieren in einem Feld verwendet. Es wird empfohlen, über genügend Speicher zu verfügen, um ihn zuzuweisen. Die für den Felddaten-Cache verwendete Speichermenge kann mithilfe der Einstellung indices.fielddata.cache.size gesteuert werden.

Knotenabfrage-Cache

Dieser Speicher wird zum Zwischenspeichern der Abfrageergebnisse verwendet. Dieser Cache verwendet die LRU-Räumungsrichtlinie (Least Recent Used). Die Einstellung Indices.queries.cahce.size steuert die Speichergröße dieses Caches.

Indizierungspuffer

Dieser Puffer speichert die neu erstellten Dokumente im Index und löscht sie, wenn der Puffer voll ist. Einstellungen wie indices.memory.index_buffer_size steuern die Menge des für diesen Puffer zugewiesenen Heaps.

Shard-Anforderungs-Cache

In diesem Cache werden die lokalen Suchdaten für jeden Shard gespeichert. Der Cache kann während der Erstellung des Index aktiviert oder durch Senden eines URL-Parameters deaktiviert werden.

Disable cache - ?request_cache = true
Enable cache "index.requests.cache.enable": true

Wiederherstellung der Indizes

Es steuert die Ressourcen während des Wiederherstellungsprozesses. Das Folgende sind die Einstellungen -

Rahmen Standardwert
indices.recovery.concurrent_streams 3
indices.recovery.concurrent_small_file_streams 2
indices.recovery.file_chunk_size 512 kb
indices.recovery.translog_ops 1000
indices.recovery.translog_size 512 kb
indices.recovery.compress wahr
indices.recovery.max_bytes_per_sec 40mb

TTL-Intervall

Das TTL-Intervall (Time to Live) definiert die Zeit eines Dokuments, nach der das Dokument gelöscht wird. Im Folgenden sind die dynamischen Einstellungen zur Steuerung dieses Prozesses aufgeführt:

Rahmen Standardwert
indices.ttl.interval 60er Jahre
indices.ttl.bulk_size 1000

Knoten

Jeder Knoten hat die Option, Datenknoten zu sein oder nicht. Sie können diese Eigenschaft ändern, indem Sie sie ändernnode.dataRahmen. Einstellen des Wertes alsfalse definiert, dass der Knoten kein Datenknoten ist.

Dies sind die Module, die für jeden Index erstellt werden und die Einstellungen und das Verhalten der Indizes steuern. Zum Beispiel, wie viele Shards ein Index verwenden kann oder wie viele Replikate ein primärer Shard für diesen Index haben kann usw. Es gibt zwei Arten von Indexeinstellungen:

  • Static - Diese können nur zur Indexerstellungszeit oder für einen geschlossenen Index festgelegt werden.
  • Dynamic - Diese können in einem Live-Index geändert werden.

Statische Indexeinstellungen

Die folgende Tabelle zeigt die Liste der statischen Indexeinstellungen -

Rahmen Möglicher Wert Beschreibung
index.number_of_shards Der Standardwert ist 5, maximal 1024 Die Anzahl der primären Shards, die ein Index haben sollte.
index.shard.check_on_startup Der Standardwert ist false. Kann wahr sein Gibt an, ob Shards vor dem Öffnen auf Beschädigung überprüft werden sollen.
index.codec LZ4-Komprimierung. Art der Komprimierung zum Speichern von Daten.
index.routing_partition_size 1 Die Anzahl der Shards, zu denen ein benutzerdefinierter Routing-Wert gehen kann.
index.load_fixed_bitset_filters_eagerly falsch Gibt an, ob zwischengespeicherte Filter für verschachtelte Abfragen vorinstalliert sind

Dynamische Indexeinstellungen

Die folgende Tabelle zeigt die Liste der dynamischen Indexeinstellungen -

Rahmen Möglicher Wert Beschreibung
index.number_of_replicas Der Standardwert ist 1 Die Anzahl der Replikate, die jeder primäre Shard hat.
index.auto_expand_replicas Ein Strich begrenzt die untere und obere Grenze (0-5) Erweitern Sie die Anzahl der Replikate automatisch basierend auf der Anzahl der Datenknoten im Cluster.
index.search.idle.after 30 Sekunden Wie lange kann ein Shard keine Suche empfangen oder eine Anfrage erhalten, bis er als nicht aktiv angesehen wird?
index.refresh_interval 1 Sekunde Wie oft muss ein Aktualisierungsvorgang ausgeführt werden, der die letzten Änderungen am Index für die Suche sichtbar macht.
index.blocks.read_only 1 wahr / falsch Auf true setzen, um den Index und die Indexmetadaten schreibgeschützt zu machen, false, um Schreib- und Metadatenänderungen zuzulassen.

Manchmal müssen wir ein Dokument transformieren, bevor wir es indizieren. Zum Beispiel möchten wir ein Feld aus dem Dokument entfernen oder ein Feld umbenennen und es dann indizieren. Dies wird vom Ingest-Knoten erledigt.

Jeder Knoten im Cluster kann aufgenommen werden, er kann jedoch auch so angepasst werden, dass er nur von bestimmten Knoten verarbeitet wird.

Beteiligte Schritte

Das Arbeiten des Aufnahmeknotens umfasst zwei Schritte:

  • Erstellen einer Pipeline
  • Dokument erstellen

Erstellen Sie eine Pipeline

Erstellen Sie zuerst eine Pipeline, die die Prozessoren enthält, und führen Sie dann die Pipeline aus, wie unten gezeigt -

PUT _ingest/pipeline/int-converter
{
   "description": "converts the content of the seq field to an integer",
   "processors" : [
      {
         "convert" : {
            "field" : "seq",
            "type": "integer"
         }
      }
   ]
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "acknowledged" : true
}

Erstellen Sie ein Dokument

Als nächstes erstellen wir ein Dokument mit dem Pipeline-Konverter.

PUT /logs/_doc/1?pipeline=int-converter
{
   "seq":"21",
   "name":"Tutorialspoint",
   "Addrs":"Hyderabad"
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "_index" : "logs",
   "_type" : "_doc",
   "_id" : "1",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 0,
   "_primary_term" : 1
}

Als nächstes suchen wir mit dem Befehl GET nach dem oben erstellten Dokument, wie unten gezeigt -

GET /logs/_doc/1

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "logs",
   "_type" : "_doc",
   "_id" : "1",
   "_version" : 1,
   "_seq_no" : 0,
   "_primary_term" : 1,
   "found" : true,
   "_source" : {
      "Addrs" : "Hyderabad",
      "name" : "Tutorialspoint",
      "seq" : 21
   }
}

Sie können oben sehen, dass 21 eine ganze Zahl geworden ist.

Ohne Pipeline

Jetzt erstellen wir ein Dokument ohne Verwendung der Pipeline.

PUT /logs/_doc/2
{
   "seq":"11",
   "name":"Tutorix",
   "Addrs":"Secunderabad"
}
GET /logs/_doc/2

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "logs",
   "_type" : "_doc",
   "_id" : "2",
   "_version" : 1,
   "_seq_no" : 1,
   "_primary_term" : 1,
   "found" : true,
   "_source" : {
      "seq" : "11",
      "name" : "Tutorix",
      "Addrs" : "Secunderabad"
   }
}

Sie können oben sehen, dass 11 eine Zeichenfolge ist, ohne dass die Pipeline verwendet wird.

Das Verwalten des Indexlebenszyklus umfasst das Ausführen von Verwaltungsaktionen, die auf Faktoren wie Shard-Größe und Leistungsanforderungen basieren. Mit den ILM-APIs (Index Lifecycle Management) können Sie automatisieren, wie Sie Ihre Indizes im Laufe der Zeit verwalten möchten.

Dieses Kapitel enthält eine Liste der ILM-APIs und ihrer Verwendung.

Richtlinienverwaltungs-APIs

API-Name Zweck Beispiel
Erstellen Sie eine Lebenszyklusrichtlinie. Erstellt eine Lebenszyklusrichtlinie. Wenn die angegebene Richtlinie vorhanden ist, wird die Richtlinie ersetzt und die Richtlinienversion erhöht. PUT_ilm / policy / policy_id
Lebenszyklusrichtlinie abrufen. Gibt die angegebene Richtliniendefinition zurück. Enthält die Richtlinienversion und das Datum der letzten Änderung. Wenn keine Richtlinie angegeben ist, werden alle definierten Richtlinien zurückgegeben. GET_ilm / policy / policy_id
Lebenszyklusrichtlinie löschen Löscht die angegebene Definition der Lebenszyklusrichtlinie. Sie können derzeit keine Richtlinien löschen. Wenn die Richtlinie zum Verwalten von Indizes verwendet wird, schlägt die Anforderung fehl und gibt einen Fehler zurück. DELETE_ilm / policy / policy_id

Indexverwaltungs-APIs

API-Name Zweck Beispiel
Wechseln Sie zur Lifecycle-Step-API. Verschiebt einen Index manuell in den angegebenen Schritt und führt diesen Schritt aus. POST_ilm / move / index
Wiederholen Sie die Richtlinie. Setzt die Richtlinie auf den Schritt zurück, in dem der Fehler aufgetreten ist, und führt den Schritt aus. POST-Index / _ilm / retry
Entfernen Sie die Richtlinie aus der Index-API-Bearbeitung. Entfernt die zugewiesene Lebenszyklusrichtlinie und beendet die Verwaltung des angegebenen Index. Wenn ein Indexmuster angegeben wird, werden die zugewiesenen Richtlinien aus allen übereinstimmenden Indizes entfernt. POST-Index / _ilm / remove

Operation Management APIs

API-Name Zweck Beispiel
Rufen Sie die Index-Lifecycle-Management-Status-API ab. Gibt den Status des ILM-Plugins zurück. Das Feld operation_mode in der Antwort zeigt einen von drei Zuständen: STARTED, STOPPING oder STOPPED. GET / _ilm / status
Starten Sie die Index Lifecycle Management API. Startet das ILM-Plugin, wenn es gerade gestoppt ist. ILM wird automatisch gestartet, wenn der Cluster gebildet wird. POST / _ilm / start
Beenden Sie die Index-Lifecycle-Management-API. Hält alle Lifecycle-Management-Vorgänge an und stoppt das ILM-Plugin. Dies ist nützlich, wenn Sie Wartungsarbeiten am Cluster durchführen und ILM daran hindern müssen, Aktionen für Ihre Indizes auszuführen. POST / _ilm / stop
Erläutern Sie die Lebenszyklus-API. Ruft Informationen zum aktuellen Lebenszyklusstatus des Index ab, z. B. die aktuell ausgeführte Phase, Aktion und den Schritt. Zeigt an, wann der Index jeweils eingegeben wurde, die Definition der laufenden Phase und Informationen zu Fehlern. GET index / _ilm / EXPLAIN

Es ist eine Komponente, mit der SQL-ähnliche Abfragen in Echtzeit für Elasticsearch ausgeführt werden können. Sie können sich Elasticsearch SQL als einen Übersetzer vorstellen, der sowohl SQL als auch Elasticsearch versteht und das Lesen und Verarbeiten von Daten in Echtzeit in großem Maßstab erleichtert, indem er die Elasticsearch-Funktionen nutzt.

Vorteile von Elasticsearch SQL

  • It has native integration - Jede Abfrage wird entsprechend dem zugrunde liegenden Speicher effizient für die relevanten Knoten ausgeführt.

  • No external parts - Keine zusätzliche Hardware, Prozesse, Laufzeiten oder Bibliotheken erforderlich, um Elasticsearch abzufragen.

  • Lightweight and efficient - Es umfasst und macht SQL verfügbar, um eine ordnungsgemäße Volltextsuche in Echtzeit zu ermöglichen.

Beispiel

PUT /schoollist/_bulk?refresh
   {"index":{"_id": "CBSE"}}
   {"name": "GleanDale", "Address": "JR. Court Lane", "start_date": "2011-06-02",
   "student_count": 561}
   {"index":{"_id": "ICSE"}}
   {"name": "Top-Notch", "Address": "Gachibowli Main Road", "start_date": "1989-
   05-26", "student_count": 482}
   {"index":{"_id": "State Board"}}
   {"name": "Sunshine", "Address": "Main Street", "start_date": "1965-06-01",
   "student_count": 604}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

{
   "took" : 277,
   "errors" : false,
   "items" : [
      {
         "index" : {
            "_index" : "schoollist",
            "_type" : "_doc",
            "_id" : "CBSE",
            "_version" : 1,
            "result" : "created",
            "forced_refresh" : true,
            "_shards" : {
               "total" : 2,
               "successful" : 1,
               "failed" : 0
            },
            "_seq_no" : 0,
            "_primary_term" : 1,
            "status" : 201
         }
      },
      {
         "index" : {
            "_index" : "schoollist",
            "_type" : "_doc",
            "_id" : "ICSE",
            "_version" : 1,
            "result" : "created",
            "forced_refresh" : true,
            "_shards" : {
               "total" : 2,
               "successful" : 1,
               "failed" : 0
            },
            "_seq_no" : 1,
            "_primary_term" : 1,
            "status" : 201
         }
      },
      {
         "index" : {
            "_index" : "schoollist",
            "_type" : "_doc",
            "_id" : "State Board",
            "_version" : 1,
            "result" : "created",
            "forced_refresh" : true,
            "_shards" : {
               "total" : 2,
               "successful" : 1,
               "failed" : 0
            },
            "_seq_no" : 2,
            "_primary_term" : 1,
            "status" : 201
         }
      }
   ]
}

SQL-Abfrage

Das folgende Beispiel zeigt, wie wir die SQL-Abfrage einrahmen -

POST /_sql?format=txt
{
   "query": "SELECT * FROM schoollist WHERE start_date < '2000-01-01'"
}

Beim Ausführen des obigen Codes erhalten wir die Antwort wie unten gezeigt -

Address             | name          | start_date             | student_count
--------------------+---------------+------------------------+---------------
Gachibowli Main Road|Top-Notch      |1989-05-26T00:00:00.000Z|482
Main Street         |Sunshine       |1965-06-01T00:00:00.000Z|604

Note - Durch Ändern der obigen SQL-Abfrage können Sie verschiedene Ergebnismengen erhalten.

Um den Zustand des Clusters zu überwachen, sammelt die Überwachungsfunktion Metriken von jedem Knoten und speichert sie in Elasticsearch-Indizes. Alle mit der Überwachung in Elasticsearch verbundenen Einstellungen müssen entweder in der Datei elasticsearch.yml für jeden Knoten oder, soweit möglich, in den Einstellungen für dynamische Cluster festgelegt werden.

Um mit der Überwachung zu beginnen, müssen wir die Clustereinstellungen überprüfen. Dies kann folgendermaßen erfolgen:

GET _cluster/settings
{
   "persistent" : { },
   "transient" : { }
}

Jede Komponente im Stapel ist dafür verantwortlich, sich selbst zu überwachen und diese Dokumente dann zum Weiterleiten und Indizieren (Speichern) an den Elasticsearch-Produktionscluster weiterzuleiten. Die Routing- und Indizierungsprozesse in Elasticsearch werden von sogenannten Sammlern und Exporteuren durchgeführt.

Sammler

Collector wird einmal pro Erfassungsintervall ausgeführt, um Daten von den öffentlichen APIs in Elasticsearch abzurufen, die überwacht werden sollen. Wenn die Datenerfassung abgeschlossen ist, werden die Daten in großen Mengen an die Exporteure übergeben, um an den Überwachungscluster gesendet zu werden.

Pro erfasstem Datentyp gibt es nur einen Kollektor. Jeder Kollektor kann null oder mehr Überwachungsdokumente erstellen.

Exporteure

Exporteure nehmen Daten, die von einer Elastic Stack-Quelle gesammelt wurden, und leiten sie an den Überwachungscluster weiter. Es ist möglich, mehr als einen Exporter zu konfigurieren, aber das allgemeine und standardmäßige Setup besteht darin, einen einzelnen Exporter zu verwenden. Exporteure können sowohl auf Knoten- als auch auf Clusterebene konfiguriert werden.

In Elasticsearch gibt es zwei Arten von Exporteuren:

  • local - Dieser Exporter leitet Daten zurück in denselben Cluster

  • http - Der bevorzugte Exporter, mit dem Sie Daten in jeden unterstützten Elasticsearch-Cluster weiterleiten können, auf den über HTTP zugegriffen werden kann.

Bevor Exporteure Überwachungsdaten weiterleiten können, müssen sie bestimmte Elasticsearch-Ressourcen einrichten. Diese Ressourcen umfassen Vorlagen und Ingest-Pipelines

Ein Rollup-Job ist eine periodische Aufgabe, bei der Daten aus Indizes, die durch ein Indexmuster angegeben werden, zusammengefasst und in einen neuen Index gerollt werden. Im folgenden Beispiel erstellen wir einen Index mit dem Namen Sensor mit verschiedenen Datums- und Zeitstempeln. Anschließend erstellen wir einen Rollup-Job, um die Daten aus diesen Indizes regelmäßig mit einem Cron-Job aufzurollen.

PUT /sensor/_doc/1
{
   "timestamp": 1516729294000,
   "temperature": 200,
   "voltage": 5.2,
   "node": "a"
}

Beim Ausführen des obigen Codes erhalten wir das folgende Ergebnis:

{
   "_index" : "sensor",
   "_type" : "_doc",
   "_id" : "1",
   "_version" : 1,
   "result" : "created",
   "_shards" : {
      "total" : 2,
      "successful" : 1,
      "failed" : 0
   },
   "_seq_no" : 0,
   "_primary_term" : 1
}

Fügen Sie nun ein zweites Dokument usw. für andere Dokumente hinzu.

PUT /sensor-2018-01-01/_doc/2
{
   "timestamp": 1413729294000,
   "temperature": 201,
   "voltage": 5.9,
   "node": "a"
}

Erstellen Sie einen Rollup-Job

PUT _rollup/job/sensor
{
   "index_pattern": "sensor-*",
   "rollup_index": "sensor_rollup",
   "cron": "*/30 * * * * ?",
   "page_size" :1000,
   "groups" : {
      "date_histogram": {
         "field": "timestamp",
         "interval": "60m"
      },
      "terms": {
         "fields": ["node"]
      }
   },
   "metrics": [
      {
         "field": "temperature",
         "metrics": ["min", "max", "sum"]
      },
      {
         "field": "voltage",
         "metrics": ["avg"]
      }
   ]
}

Der cron-Parameter steuert, wann und wie oft der Job aktiviert wird. Wenn der Cron-Zeitplan eines Rollup-Jobs ausgelöst wird, wird er an der Stelle aufgerollt, an der er nach der letzten Aktivierung aufgehört hat

Nachdem der Job ausgeführt und einige Daten verarbeitet wurden, können wir die DSL-Abfrage verwenden, um eine Suche durchzuführen.

GET /sensor_rollup/_rollup_search
{
   "size": 0,
   "aggregations": {
      "max_temperature": {
         "max": {
            "field": "temperature"
         }
      }
   }
}

Die Indizes, die häufig durchsucht werden, werden gespeichert, da es einige Zeit dauert, sie neu zu erstellen und bei einer effizienten Suche zu helfen. Andererseits kann es Indizes geben, auf die wir selten zugreifen. Diese Indizes müssen nicht den Speicher belegen und können bei Bedarf neu erstellt werden. Solche Indizes werden als gefrorene Indizes bezeichnet.

Elasticsearch erstellt bei jeder Suche nach dem Shard die transienten Datenstrukturen jedes Shards eines eingefrorenen Index und verwirft diese Datenstrukturen, sobald die Suche abgeschlossen ist. Da Elasticsearch diese transienten Datenstrukturen nicht im Speicher verwaltet, verbrauchen eingefrorene Indizes viel weniger Heap als die normalen Indizes. Dies ermöglicht ein viel höheres Verhältnis von Festplatte zu Heap als dies sonst möglich wäre.

Beispiel zum Einfrieren und Auftauen

Im folgenden Beispiel wird ein Index eingefroren und wieder eingefroren.

POST /index_name/_freeze
POST /index_name/_unfreeze

Die Suche nach eingefrorenen Indizes wird voraussichtlich langsam ausgeführt. Gefrorene Indizes sind nicht für eine hohe Suchlast vorgesehen. Es ist möglich, dass die Suche nach einem eingefrorenen Index Sekunden oder Minuten dauert, selbst wenn dieselben Suchvorgänge in Millisekunden abgeschlossen wurden, als die Indizes nicht eingefroren wurden.

Suchen eines eingefrorenen Index

Die Anzahl der gleichzeitig geladenen eingefrorenen Indizes pro Knoten wird durch die Anzahl der Threads im Threadpool search_throttled begrenzt, die standardmäßig 1 beträgt. Um eingefrorene Indizes einzuschließen, muss eine Suchanforderung mit dem Abfrageparameter " ignore_throttled = false" ausgeführt werden.

GET /index_name/_search?q=user:tpoint&ignore_throttled=false

Überwachung eingefrorener Indizes

Gefrorene Indizes sind gewöhnliche Indizes, die Suchdrosselung und eine speichereffiziente Shard-Implementierung verwenden.

GET /_cat/indices/index_name?v&h=i,sth

Elasticsearch bietet eine JAR-Datei, die zu jeder Java-IDE hinzugefügt werden kann und zum Testen des Codes verwendet werden kann, der sich auf Elasticsearch bezieht. Mit dem von Elasticsearch bereitgestellten Framework können verschiedene Tests durchgeführt werden. In diesem Kapitel werden wir diese Tests im Detail diskutieren -

  • Unit Testing
  • Integrationstests
  • Randomisierte Tests

Voraussetzungen

Um mit dem Testen zu beginnen, müssen Sie Ihrem Programm die Elasticsearch-Testabhängigkeit hinzufügen. Sie können maven für diesen Zweck verwenden und Folgendes in pom.xml hinzufügen.

<dependency>
   <groupId>org.elasticsearch</groupId>
   <artifactId>elasticsearch</artifactId>
   <version>2.1.0</version>
</dependency>

EsSetup wurde initialisiert, um den Elasticsearch-Knoten zu starten und zu stoppen sowie Indizes zu erstellen.

EsSetup esSetup = new EsSetup();

Die Funktion esSetup.execute () mit createIndex erstellt die Indizes. Sie müssen die Einstellungen, den Typ und die Daten angeben.

Unit Testing

Der Unit-Test wird mit dem Testframework von JUnit und Elasticsearch durchgeführt. Knoten und Indizes können mithilfe von Elasticsearch-Klassen erstellt und in der Testmethode zum Durchführen des Tests verwendet werden. Für diese Tests werden die Klassen ESTestCase und ESTokenStreamTestCase verwendet.

Integrationstests

Beim Integrationstest werden mehrere Knoten in einem Cluster verwendet. Für diesen Test wird die ESIntegTestCase-Klasse verwendet. Es gibt verschiedene Methoden, die die Vorbereitung eines Testfalls erleichtern.

S.No. Methode & Beschreibung
1

refresh()

Alle Indizes in einem Cluster werden aktualisiert

2

ensureGreen()

Gewährleistet einen grünen Status des Gesundheitsclusters

3

ensureYellow()

Gewährleistet einen gelben Status des Integritätsclusters

4

createIndex(name)

Erstellen Sie einen Index mit dem Namen, der an diese Methode übergeben wird

5

flush()

Alle Indizes im Cluster werden gelöscht

6

flushAndRefresh()

Flush () und Refresh ()

7

indexExists(name)

Überprüft das Vorhandensein des angegebenen Index

8

clusterService()

Gibt die Java-Klasse des Clusterdienstes zurück

9

cluster()

Gibt die Testclusterklasse zurück

Testen Sie Cluster-Methoden

S.No. Methode & Beschreibung
1

ensureAtLeastNumNodes(n)

Stellt sicher, dass die Mindestanzahl von Knoten in einem Cluster größer oder gleich der angegebenen Anzahl ist.

2

ensureAtMostNumNodes(n)

Stellt sicher, dass die maximale Anzahl von Knoten in einem Cluster kleiner oder gleich der angegebenen Anzahl ist.

3

stopRandomNode()

So stoppen Sie einen zufälligen Knoten in einem Cluster

4

stopCurrentMasterNode()

So stoppen Sie den Masterknoten

5

stopRandomNonMaster()

So stoppen Sie einen zufälligen Knoten in einem Cluster, der kein Masterknoten ist.

6

buildNode()

Erstellen Sie einen neuen Knoten

7

startNode(settings)

Starten Sie einen neuen Knoten

8

nodeSettings()

Überschreiben Sie diese Methode zum Ändern der Knoteneinstellungen.

Zugriff auf Clients

Ein Client wird verwendet, um auf verschiedene Knoten in einem Cluster zuzugreifen und eine Aktion auszuführen. Die Methode ESIntegTestCase.client () wird zum Abrufen eines zufälligen Clients verwendet. Elasticsearch bietet auch andere Methoden für den Zugriff auf den Client. Auf diese Methoden kann mit der ESIntegTestCase.internalCluster () -Methode zugegriffen werden.

S.No. Methode & Beschreibung
1

iterator()

Auf diese Weise können Sie auf alle verfügbaren Clients zugreifen.

2

masterClient()

Dies gibt einen Client zurück, der mit dem Masterknoten kommuniziert.

3

nonMasterClient()

Dies gibt einen Client zurück, der nicht mit dem Masterknoten kommuniziert.

4

clientNodeClient()

Dies gibt einen Client zurück, der sich derzeit auf dem Clientknoten befindet.

Randomisierte Tests

Dieser Test wird verwendet, um den Code des Benutzers mit allen möglichen Daten zu testen, so dass in Zukunft bei keinem Datentyp ein Fehler auftritt. Zufällige Daten sind die beste Option, um diese Tests durchzuführen.

Zufällige Daten generieren

Bei diesem Test wird die Random-Klasse durch die von RandomizedTest bereitgestellte Instanz instanziiert und bietet viele Methoden zum Abrufen verschiedener Datentypen.

Methode Rückgabewert
getRandom () Instanz einer zufälligen Klasse
randomBoolean () Zufälliger Boolescher Wert
randomByte () Zufälliges Byte
randomShort () Zufällige kurze
randomInt () Zufällige Ganzzahl
randomLong () Zufällig lang
randomFloat () Zufälliger Float
randomDouble () Zufälliges Doppel
randomLocale () Zufälliges Gebietsschema
randomTimeZone () Zufällige Zeitzone
randomFrom () Zufälliges Element aus dem Array

Behauptungen

Die Klassen ElasticsearchAssertions und ElasticsearchGeoAssertions enthalten Zusicherungen, mit denen zum Zeitpunkt des Tests einige allgemeine Überprüfungen durchgeführt werden. Beachten Sie zum Beispiel den hier angegebenen Code -

SearchResponse seearchResponse = client().prepareSearch();
assertHitCount(searchResponse, 6);
assertFirstHit(searchResponse, hasId("6"));
assertSearchHits(searchResponse, "1", "2", "3", "4",”5”,”6”);

Ein Kibana-Dashboard ist eine Sammlung von Visualisierungen und Suchen. Sie können den Dashboard-Inhalt anordnen, seine Größe ändern und bearbeiten und dann das Dashboard speichern, damit Sie es freigeben können. In diesem Kapitel erfahren Sie, wie Sie ein Dashboard erstellen und bearbeiten.

Dashboard-Erstellung

Wählen Sie auf der Kibana-Homepage die Dashboard-Option in den linken Steuerleisten aus (siehe Abbildung unten). Dadurch werden Sie aufgefordert, ein neues Dashboard zu erstellen.

Um dem Dashboard Visualisierungen hinzuzufügen, wählen wir das Menü Hinzufügen und die Auswahl aus den vorgefertigten verfügbaren Visualisierungen. Wir haben die folgenden Visualisierungsoptionen aus der Liste ausgewählt.

Bei Auswahl der obigen Visualisierungen erhalten wir das hier gezeigte Dashboard. Wir können später das Dashboard hinzufügen und bearbeiten, um die Elemente zu ändern und die neuen Elemente hinzuzufügen.

Elemente überprüfen

Wir können die Dashboard-Elemente überprüfen, indem wir das Menü des Visualisierungsfensters auswählen und auswählen Inspect. Dadurch werden die Daten hinter dem Element angezeigt, die auch heruntergeladen werden können.

Dashboard freigeben

Wir können das Dashboard freigeben, indem wir das Freigabemenü auswählen und die Option auswählen, um einen Hyperlink zu erhalten, wie unten gezeigt -

Die auf der Kibana-Homepage verfügbare Erkennungsfunktion ermöglicht es uns, die Datensätze aus verschiedenen Blickwinkeln zu untersuchen. Sie können Daten nach den ausgewählten Indexmustern suchen und filtern. Die Daten sind in der Regel in Form einer Werteverteilung über einen bestimmten Zeitraum verfügbar.

Um das E-Commerce-Datenbeispiel zu erkunden, klicken wir auf DiscoverSymbol wie im Bild unten gezeigt. Dadurch werden die Daten zusammen mit dem Diagramm angezeigt.

Filtern nach Zeit

Um Daten nach einem bestimmten Zeitintervall herauszufiltern, verwenden wir die unten gezeigte Zeitfilteroption. Standardmäßig ist der Filter auf 15 Minuten eingestellt.

Filtern nach Feldern

Der Datensatz kann auch mit dem Feld nach Feldern gefiltert werden Add FilterOption wie unten gezeigt. Hier fügen wir ein oder mehrere Felder hinzu und erhalten das entsprechende Ergebnis, nachdem die Filter angewendet wurden. In unserem Beispiel wählen wir das Feldday_of_week und dann der Operator für dieses Feld als is und Wert als Sunday.

Als nächstes klicken wir auf Speichern mit den obigen Filterbedingungen. Die Ergebnismenge mit den angewendeten Filterbedingungen ist unten dargestellt.

Die Datentabelle ist eine Art Visualisierung, mit der die Rohdaten einer zusammengesetzten Aggregation angezeigt werden. Es gibt verschiedene Arten von Aggregationen, die mithilfe von Datentabellen dargestellt werden. Um eine Datentabelle zu erstellen, sollten wir die Schritte ausführen, die hier ausführlich erläutert werden.

Visualisieren

Auf dem Kibana-Startbildschirm finden wir den Optionsnamen Visualize, mit dem wir Visualisierungen und Aggregationen aus den in Elasticsearch gespeicherten Indizes erstellen können. Das folgende Bild zeigt die Option.

Wählen Sie Datentabelle

Als Nächstes wählen wir die Option Datentabelle aus den verschiedenen verfügbaren Visualisierungsoptionen aus. Die Option wird im folgenden Bild gezeigt & miuns;

Wählen Sie Metriken

Anschließend wählen wir die Metriken aus, die zum Erstellen der Datentabellenvisualisierung erforderlich sind. Diese Auswahl entscheidet über die Art der Aggregation, die wir verwenden möchten. Dazu wählen wir die unten gezeigten Felder aus dem E-Commerce-Datensatz aus.

Wenn Sie die obige Konfiguration für die Datentabelle ausführen, erhalten Sie das Ergebnis wie in der Abbildung hier gezeigt.

Regionskarten zeigen Metriken auf einer geografischen Karte. Dies ist nützlich, um die Daten zu betrachten, die in verschiedenen geografischen Regionen mit unterschiedlicher Intensität verankert sind. Die dunkleren Schattierungen zeigen normalerweise höhere Werte an und die helleren Schattierungen zeigen niedrigere Werte an.

Die Schritte zum Erstellen dieser Visualisierung werden wie folgt ausführlich erläutert:

Visualisieren

In diesem Schritt gehen wir zur Visualisierungsschaltfläche in der linken Leiste des Kibana-Startbildschirms und wählen dann die Option zum Hinzufügen einer neuen Visualisierung.

Der folgende Bildschirm zeigt, wie wir die Option Regionskarte auswählen.

Wählen Sie die Metriken

Der nächste Bildschirm fordert uns auf, die Metriken auszuwählen, die beim Erstellen der Regionskarte verwendet werden sollen. Hier wählen wir den Durchschnittspreis als Metrik und country_iso_code als Feld im Bucket, das für die Erstellung der Visualisierung verwendet wird.

Das Endergebnis unten zeigt die Regionskarte, sobald wir die Auswahl angewendet haben. Bitte beachten Sie die Farbschattierungen und deren Werte auf dem Etikett.

Kreisdiagramme sind eines der einfachsten und bekanntesten Visualisierungswerkzeuge. Es stellt die Daten als Scheiben eines Kreises dar, die jeweils unterschiedlich gefärbt sind. Die Beschriftungen zusammen mit den prozentualen Datenwerten können zusammen mit dem Kreis dargestellt werden. Der Kreis kann auch die Form eines Donuts annehmen.

Visualisieren

Auf dem Kibana-Startbildschirm finden wir den Optionsnamen Visualize, mit dem wir Visualisierungen und Aggregationen aus den in Elasticsearch gespeicherten Indizes erstellen können. Wir fügen eine neue Visualisierung hinzu und wählen Kreisdiagramm als die unten gezeigte Option.

Wählen Sie die Metriken

Der nächste Bildschirm fordert uns auf, die Metriken auszuwählen, die beim Erstellen des Kreisdiagramms verwendet werden. Hier wählen wir die Anzahl der Basiseinheiten als Metrik und die Bucket-Aggregation als Histogramm. Außerdem wird das Mindestintervall als 20 gewählt. Daher werden die Preise als Werteblöcke mit 20 als Bereich angezeigt.

Das folgende Ergebnis zeigt das Kreisdiagramm, nachdem wir die Auswahl angewendet haben. Bitte beachten Sie die Farbschattierungen und deren Werte auf dem Etikett.

Kreisdiagrammoptionen

Wenn Sie zur Registerkarte Optionen unter Kreisdiagramm wechseln, sehen Sie verschiedene Konfigurationsoptionen, um das Aussehen sowie die Anordnung der Datenanzeige im Kreisdiagramm zu ändern. Im folgenden Beispiel wird das Kreisdiagramm als Donut und die Beschriftungen oben angezeigt.

Ein Flächendiagramm ist eine Erweiterung des Liniendiagramms, bei der der Bereich zwischen dem Liniendiagramm und den Achsen mit einigen Farben hervorgehoben wird. Ein Balkendiagramm stellt Daten dar, die in einem Wertebereich organisiert und dann gegen die Achsen aufgetragen sind. Es kann entweder aus horizontalen oder vertikalen Balken bestehen.

In diesem Kapitel sehen wir alle drei Arten von Diagrammen, die mit Kibana erstellt wurden. Wie in früheren Kapiteln erläutert, werden wir die Daten im E-Commerce-Index weiterhin verwenden.

Flächendiagramm

Auf dem Kibana-Startbildschirm finden wir den Optionsnamen Visualize, mit dem wir Visualisierungen und Aggregationen aus den in Elasticsearch gespeicherten Indizes erstellen können. Wir fügen eine neue Visualisierung hinzu und wählen Flächendiagramm als Option aus (siehe Abbildung unten).

Wählen Sie die Metriken

Der nächste Bildschirm fordert uns auf, die Metriken auszuwählen, die beim Erstellen des Flächendiagramms verwendet werden. Hier wählen wir die Summe als Typ der Aggregationsmetrik. Dann wählen wir das Feld total_quantity als Feld, das als Metrik verwendet werden soll. Auf der X-Achse haben wir das Feld order_date ausgewählt und die Reihe mit der angegebenen Metrik in einer Größe von 5 aufgeteilt.

Beim Ausführen der obigen Konfiguration erhalten wir das folgende Flächendiagramm als Ausgabe:

Horizontales Balkendiagramm

In ähnlicher Weise wählen wir für das horizontale Balkendiagramm eine neue Visualisierung auf dem Kibana-Startbildschirm und wählen die Option für den horizontalen Balken. Dann wählen wir die Metriken wie in der Abbildung unten gezeigt. Hier wählen wir Summe als Aggregation für die eingereichte benannte Produktmenge. Dann wählen wir Eimer mit Datumshistogramm für das Feldbestelldatum.

Beim Ausführen der obigen Konfiguration sehen wir ein horizontales Balkendiagramm wie unten gezeigt -

Vertikales Balkendiagramm

Für das vertikale Balkendiagramm wählen wir eine neue Visualisierung auf dem Kibana-Startbildschirm und wählen die Option für den vertikalen Balken. Dann wählen wir die Metriken wie in der Abbildung unten gezeigt.

Hier wählen wir Summe als Aggregation für das Feld Produktmenge. Dann wählen wir Eimer mit Datumshistogramm für das Feldbestelldatum mit einem wöchentlichen Intervall.

Beim Ausführen der obigen Konfiguration wird ein Diagramm wie unten gezeigt generiert -

Zeitreihen sind eine Darstellung der Datenfolge in einer bestimmten Zeitfolge. Zum Beispiel die Daten für jeden Tag vom ersten Tag des Monats bis zum letzten Tag. Das Intervall zwischen den Datenpunkten bleibt konstant. Jeder Datensatz, der eine Zeitkomponente enthält, kann als Zeitreihe dargestellt werden.

In diesem Kapitel verwenden wir den Beispiel-E-Commerce-Datensatz und zeichnen die Anzahl der Bestellungen für jeden Tag auf, um eine Zeitreihe zu erstellen.

Wählen Sie Metriken

Zuerst wählen wir das Indexmuster, das Datenfeld und das Intervall aus, die zum Erstellen der Zeitreihen verwendet werden. Aus dem Beispiel-E-Commerce-Datensatz wählen wir order_date als Feld und 1d als Intervall. Wir nehmen dasPanel OptionsRegisterkarte, um diese Auswahl zu treffen. Außerdem belassen wir die anderen Werte auf dieser Registerkarte als Standard, um eine Standardfarbe und ein Standardformat für die Zeitreihen zu erhalten.

In dem Data Auf der Registerkarte wählen wir Anzahl als Aggregationsoption, Gruppierung nach Option als alles und setzen eine Beschriftung für das Zeitreihendiagramm.

Ergebnis

Das Endergebnis dieser Konfiguration sieht wie folgt aus. Bitte beachten Sie, dass wir einen Zeitraum von verwendenMonth to Datefür dieses Diagramm. Unterschiedliche Zeiträume führen zu unterschiedlichen Ergebnissen.

Eine Tag-Cloud repräsentiert Text, bei dem es sich hauptsächlich um Schlüsselwörter und Metadaten handelt, in einer optisch ansprechenden Form. Sie sind in verschiedenen Winkeln ausgerichtet und in verschiedenen Farben und Schriftgrößen dargestellt. Es hilft dabei, die wichtigsten Begriffe in den Daten herauszufinden. Die Bekanntheit kann durch einen oder mehrere Faktoren wie die Häufigkeit des Begriffs, die Eindeutigkeit des Tags oder basierend auf einer Gewichtung bestimmt werden, die bestimmten Begriffen usw. zugeordnet ist. Nachfolgend sehen Sie die Schritte zum Erstellen einer Tag-Cloud.

Visualisieren

Auf dem Kibana-Startbildschirm finden wir den Optionsnamen Visualize, mit dem wir Visualisierungen und Aggregationen aus den in Elasticsearch gespeicherten Indizes erstellen können. Wir fügen eine neue Visualisierung hinzu und wählen Tag Cloud als die unten gezeigte Option aus -

Wählen Sie die Metriken

Der nächste Bildschirm fordert uns auf, die Metriken auszuwählen, die beim Erstellen der Tag Cloud verwendet werden. Hier wählen wir die Anzahl als Typ der Aggregationsmetrik. Dann wählen wir das Feld Produktname als Schlüsselwort, das als Tags verwendet werden soll.

Das hier gezeigte Ergebnis zeigt das Kreisdiagramm, nachdem wir die Auswahl angewendet haben. Bitte beachten Sie die Farbschattierungen und deren Werte auf dem Etikett.

Tag Cloud-Optionen

Beim Umzug in die optionsAuf der Registerkarte unter Tag Cloud werden verschiedene Konfigurationsoptionen angezeigt, um das Erscheinungsbild sowie die Anordnung der Datenanzeige in der Tag Cloud zu ändern. Im folgenden Beispiel wird die Tag Cloud mit Tags angezeigt, die sowohl in horizontaler als auch in vertikaler Richtung verteilt sind.

Heatmap ist eine Art der Visualisierung, bei der unterschiedliche Farbtöne unterschiedliche Bereiche im Diagramm darstellen. Die Werte können kontinuierlich variieren und daher variieren die Farbtöne einer Farbe zusammen mit den Werten. Sie sind sehr nützlich, um sowohl die sich ständig ändernden Daten als auch diskrete Daten darzustellen.

In diesem Kapitel verwenden wir den Datensatz sample_data_flights, um ein Heatmap-Diagramm zu erstellen. Darin betrachten wir die Variablen Herkunftsland und Zielland der Flüge und zählen.

Auf dem Kibana-Startbildschirm finden wir den Optionsnamen Visualize, mit dem wir Visualisierungen und Aggregationen aus den in Elasticsearch gespeicherten Indizes erstellen können. Wir fügen eine neue Visualisierung hinzu und wählen Heat Map als die unten gezeigte Option & mimus;

Wählen Sie die Metriken

Der nächste Bildschirm fordert uns auf, die Metriken auszuwählen, die beim Erstellen des Heat Map-Diagramms verwendet werden. Hier wählen wir die Anzahl als Typ der Aggregationsmetrik. Dann wählen wir für die Buckets in Y-Axis Begriffe als Aggregation für das Feld OriginCountry. Für die X-Achse wählen wir dieselbe Aggregation, aber DestCountry als das zu verwendende Feld. In beiden Fällen wählen wir die Größe des Eimers als 5.

Beim Ausführen der oben gezeigten Konfiguration wird das Heatmap-Diagramm wie folgt generiert.

Note - Sie müssen den Datumsbereich als Dieses Jahr zulassen, damit in der Grafik Daten für ein Jahr erfasst werden, um ein effektives Wärmekartendiagramm zu erstellen.

Die Canvas-Anwendung ist Teil von Kibana, mit dem wir dynamische, mehrseitige und pixelgenaue Datenanzeigen erstellen können. Die Fähigkeit, Infografiken und nicht nur Diagramme und Metriken zu erstellen, macht es einzigartig und ansprechend. In diesem Kapitel werden verschiedene Funktionen von Canvas und die Verwendung der Canvas-Arbeitsblöcke beschrieben.

Eine Leinwand öffnen

Gehen Sie zur Kibana-Homepage und wählen Sie die Option wie in der folgenden Abbildung gezeigt. Es öffnet sich die Liste der Arbeitsblöcke, die Sie haben. Wir wählen das E-Commerce Revenue Tracking für unsere Studie.

Klonen eines Workpads

Wir klonen die [eCommerce] Revenue TrackingWorkpad für unsere Studie. Um es zu klonen, markieren wir die Zeile mit dem Namen dieses Workpads und verwenden dann die Klontaste, wie in der folgenden Abbildung gezeigt -

Als Ergebnis des obigen Klons erhalten wir ein neues Arbeitsfeld mit dem Namen [eCommerce] Revenue Tracking – Copy Beim Öffnen werden die folgenden Infografiken angezeigt.

Es beschreibt den Gesamtumsatz und den Umsatz nach Kategorien sowie schöne Bilder und Diagramme.

Ändern des Workpads

Wir können den Stil und die Figuren im Workpad ändern, indem wir die Optionen auf der rechten Registerkarte verwenden. Hier möchten wir die Hintergrundfarbe des Workpads ändern, indem wir eine andere Farbe auswählen, wie in der folgenden Abbildung gezeigt. Die Farbauswahl wird sofort wirksam und wir erhalten das Ergebnis wie unten gezeigt -

Kibana kann auch bei der Visualisierung von Protokolldaten aus verschiedenen Quellen helfen. Protokolle sind wichtige Analysequellen für den Zustand der Infrastruktur, die Leistungsanforderungen und die Analyse von Sicherheitsverletzungen usw. Kibana kann eine Verbindung zu verschiedenen Protokollen wie Webserverprotokollen, Elasticsearch-Protokollen und Cloudwatch-Protokollen usw. herstellen.

Logstash-Protokolle

In Kibana können wir zur Visualisierung eine Verbindung zu Logstash-Protokollen herstellen. Zuerst wählen wir die Schaltfläche Protokolle auf dem Kibana-Startbildschirm, wie unten gezeigt -

Dann wählen wir die Option Quellkonfiguration ändern, wodurch wir die Option haben, Logstash als Quelle zu wählen. Der folgende Bildschirm zeigt auch andere Arten von Optionen, die wir als Protokollquelle haben.

Sie können Daten für das Live-Protokoll-Tailing streamen oder das Streaming anhalten, um sich auf historische Protokolldaten zu konzentrieren. Wenn Sie Protokolle streamen, wird das aktuellste Protokoll unten in der Konsole angezeigt.

Weitere Informationen finden Sie in unserem Logstash- Tutorial.