DocumentDB - Indizierung von Datensätzen

Standardmäßig indiziert DocumentDB automatisch jede Eigenschaft in einem Dokument, sobald das Dokument zur Datenbank hinzugefügt wird. Sie können jedoch die Kontrolle übernehmen und Ihre eigene Indizierungsrichtlinie optimieren, wodurch der Speicher- und Verarbeitungsaufwand verringert wird, wenn bestimmte Dokumente und / oder Eigenschaften vorhanden sind, die niemals indiziert werden müssen.

Die Standardindizierungsrichtlinie, die DocumentDB anweist, jede Eigenschaft automatisch zu indizieren, ist für viele gängige Szenarien geeignet. Sie können aber auch eine benutzerdefinierte Richtlinie implementieren, die genau kontrolliert, was indiziert wird und was nicht, und andere Funktionen in Bezug auf die Indizierung.

DocumentDB unterstützt die folgenden Indizierungsarten:

  • Hash
  • Range

Hash

Der Hash-Index ermöglicht eine effiziente Abfrage nach Gleichheit, dh während der Suche nach Dokumenten, bei denen eine bestimmte Eigenschaft einem exakten Wert entspricht, anstatt mit einem Wertebereich wie kleiner als, größer als oder zwischen übereinzustimmen.

Sie können Bereichsabfragen mit einem Hash-Index ausführen, DocumentDB kann den Hash-Index jedoch nicht zum Auffinden übereinstimmender Dokumente verwenden und muss stattdessen jedes Dokument nacheinander scannen, um festzustellen, ob es von der Bereichsabfrage ausgewählt werden soll.

Sie können Ihre Dokumente nicht mit einer ORDER BY-Klausel für eine Eigenschaft sortieren, die nur einen Hash-Index enthält.

Angebot

Der für die Eigenschaft definierte Bereichsindex DocumentDB ermöglicht die effiziente Abfrage von Dokumenten anhand eines Wertebereichs. Außerdem können Sie die Abfrageergebnisse für diese Eigenschaft mithilfe von ORDER BY sortieren.

Mit DocumentDB können Sie sowohl einen Hash- als auch einen Bereichsindex für eine oder alle Eigenschaften definieren. Dies ermöglicht effiziente Gleichheits- und Bereichsabfragen sowie ORDER BY.

Indizierungsrichtlinie

Jede Sammlung verfügt über eine Indizierungsrichtlinie, die vorschreibt, welche Indextypen für Zahlen und Zeichenfolgen in jeder Eigenschaft jedes Dokuments verwendet werden.

  • Sie können auch steuern, ob Dokumente automatisch indiziert werden, wenn sie der Sammlung hinzugefügt werden.

  • Die automatische Indizierung ist standardmäßig aktiviert. Sie können dieses Verhalten jedoch beim Hinzufügen eines Dokuments überschreiben und DocumentDB anweisen, dieses bestimmte Dokument nicht zu indizieren.

  • Sie können die automatische Indizierung deaktivieren, sodass Dokumente standardmäßig nicht indiziert werden, wenn sie zur Sammlung hinzugefügt werden. Ebenso können Sie dies auf Dokumentebene überschreiben und DocumentDB anweisen, ein bestimmtes Dokument zu indizieren, wenn Sie es der Sammlung hinzufügen. Dies wird als manuelle Indizierung bezeichnet.

Indizierung einschließen / ausschließen

Eine Indizierungsrichtlinie kann auch definieren, welcher Pfad oder welche Pfade in den Index aufgenommen oder aus diesem ausgeschlossen werden sollen. Dies ist nützlich, wenn Sie wissen, dass es bestimmte Teile eines Dokuments gibt, die Sie nie abfragen, und bestimmte Teile, die Sie ausführen.

In diesen Fällen können Sie den Indizierungsaufwand reduzieren, indem Sie DocumentDB anweisen, nur die bestimmten Teile jedes Dokuments zu indizieren, die der Sammlung hinzugefügt wurden.

Automatische Indizierung

Schauen wir uns ein einfaches Beispiel für die automatische Indizierung an.

Step 1 - Zuerst erstellen wir eine Sammlung mit dem Namen Autoindexing. Ohne explizite Angabe einer Richtlinie verwendet diese Sammlung die Standardindexierungsrichtlinie. Dies bedeutet, dass die automatische Indizierung für diese Sammlung aktiviert ist.

Hier verwenden wir ID-basiertes Routing für die Datenbank-Selbstverknüpfung, sodass wir die Ressourcen-ID nicht kennen oder abfragen müssen, bevor wir die Sammlung erstellen. Wir können einfach die Datenbank-ID verwenden, die mydb ist.

Step 2 - Jetzt erstellen wir zwei Dokumente, beide mit dem Nachnamen Upston.

private async static Task AutomaticIndexing(DocumentClient client) {
   Console.WriteLine();
   Console.WriteLine("**** Override Automatic Indexing ****");

   // Create collection with automatic indexing

   var collectionDefinition = new DocumentCollection {
      Id = "autoindexing"
   };
	
   var collection = await client.CreateDocumentCollectionAsync("dbs/mydb",
      collectionDefinition);

   // Add a document (indexed)
   dynamic indexedDocumentDefinition = new {
      id = "MARK",
      firstName = "Mark",
      lastName = "Upston",
      addressLine = "123 Main Street",
      city = "Brooklyn",
      state = "New York",
      zip = "11229",
   };
	
   Document indexedDocument = await client
      .CreateDocumentAsync("dbs/mydb/colls/autoindexing", indexedDocumentDefinition);
		
   // Add another document (request no indexing)
   dynamic unindexedDocumentDefinition = new {
      id = "JANE",
      firstName = "Jane",
      lastName = "Upston",
      addressLine = "123 Main Street",
      city = "Brooklyn",
      state = "New York",
      zip = "11229",
   };
	
   Document unindexedDocument = await client
      .CreateDocumentAsync("dbs/mydb/colls/autoindexing", unindexedDocumentDefinition,
      new RequestOptions { IndexingDirective = IndexingDirective.Exclude });

   //Unindexed document won't get returned when querying on non-ID (or selflink) property

   var doeDocs = client.CreateDocumentQuery("dbs/mydb/colls/autoindexing", "SELECT *
      FROM c WHERE c.lastName = 'Doe'").ToList();
		
   Console.WriteLine("Documents WHERE lastName = 'Doe': {0}", doeDocs.Count);

   // Unindexed document will get returned when using no WHERE clause

   var allDocs = client.CreateDocumentQuery("dbs/mydb/colls/autoindexing",
      "SELECT * FROM c").ToList();
   Console.WriteLine("All documents: {0}", allDocs.Count);
	
   // Unindexed document will get returned when querying by ID (or self-link) property
	
   Document janeDoc = client.CreateDocumentQuery("dbs/mydb/colls/autoindexing",
      "SELECT * FROM c WHERE c.id = 'JANE'").AsEnumerable().FirstOrDefault();
   Console.WriteLine("Unindexed document self-link: {0}", janeDoc.SelfLink);
	
   // Delete the collection
	
   await client.DeleteDocumentCollectionAsync("dbs/mydb/colls/autoindexing");
}

Diese erste für Mark Upston wird der Sammlung hinzugefügt und sofort basierend auf der Standardindizierungsrichtlinie automatisch indiziert.

Wenn jedoch das zweite Dokument für Mark Upston hinzugefügt wird, haben wir die Anforderungsoptionen mit IndexingDirective.Exclude übergeben, wodurch DocumentDB ausdrücklich angewiesen wird, dieses Dokument trotz der Indexierungsrichtlinie der Sammlung nicht zu indizieren.

Wir haben am Ende verschiedene Arten von Abfragen für beide Dokumente.

Step 3 - Rufen Sie die Aufgabe AutomaticIndexing von CreateDocumentClient aus auf.

private static async Task CreateDocumentClient() {
   // Create a new instance of the DocumentClient 
   using (var client = new DocumentClient(new Uri(EndpointUrl), AuthorizationKey)) { 
      await AutomaticIndexing(client); 
   } 
}

Wenn der obige Code kompiliert und ausgeführt wird, erhalten Sie die folgende Ausgabe.

**** Override Automatic Indexing **** 
Documents WHERE lastName = 'Upston': 1 
All documents: 2 
Unindexed document self-link: dbs/kV5oAA==/colls/kV5oAOEkfQA=/docs/kV5oAOEkfQACA 
AAAAAAAAA==/

Wie Sie sehen, haben wir zwei solcher Dokumente, aber die Abfrage gibt nur das für Mark zurück, da das für Mark nicht indiziert ist. Wenn wir erneut abfragen, ohne eine WHERE-Klausel, um alle Dokumente in der Sammlung abzurufen, erhalten wir eine Ergebnismenge mit beiden Dokumenten. Dies liegt daran, dass nicht indizierte Dokumente immer von Abfragen zurückgegeben werden, die keine WHERE-Klausel enthalten.

Wir können nicht indizierte Dokumente auch anhand ihrer ID oder ihres Selbstlinks abrufen. Wenn wir also Marks Dokument anhand seiner ID MARK abfragen, sehen wir, dass DocumentDB das Dokument zurückgibt, obwohl es nicht in der Sammlung indiziert ist.

Manuelle Indizierung

Schauen wir uns ein einfaches Beispiel für die manuelle Indizierung an, indem Sie die automatische Indizierung überschreiben.

Step 1- Zuerst erstellen wir eine Sammlung mit dem Namen manuelle Indizierung und überschreiben die Standardrichtlinie, indem wir die automatische Indizierung explizit deaktivieren. Dies bedeutet, dass neue Dokumente, die dieser Sammlung hinzugefügt wurden, nicht indiziert werden, sofern wir nichts anderes anfordern.

private async static Task ManualIndexing(DocumentClient client) {
   Console.WriteLine();
   Console.WriteLine("**** Manual Indexing ****");
   // Create collection with manual indexing

   var collectionDefinition = new DocumentCollection {
      Id = "manualindexing",
      IndexingPolicy = new IndexingPolicy {
         Automatic = false,
      },
   };
	
   var collection = await client.CreateDocumentCollectionAsync("dbs/mydb",
      collectionDefinition);
		
   // Add a document (unindexed)
   dynamic unindexedDocumentDefinition = new {
      id = "MARK",
      firstName = "Mark",
      lastName = "Doe",
      addressLine = "123 Main Street",
      city = "Brooklyn",
      state = "New York",
      zip = "11229",
   }; 
	
   Document unindexedDocument = await client
      .CreateDocumentAsync("dbs/mydb/colls/manualindexing", unindexedDocumentDefinition);
  
   // Add another document (request indexing)
   dynamic indexedDocumentDefinition = new {
      id = "JANE",
      firstName = "Jane",
      lastName = "Doe",
      addressLine = "123 Main Street",
      city = "Brooklyn",
      state = "New York",
      zip = "11229",
   };
	
   Document indexedDocument = await client.CreateDocumentAsync
      ("dbs/mydb/colls/manualindexing", indexedDocumentDefinition, new RequestOptions {
      IndexingDirective = IndexingDirective.Include });

   //Unindexed document won't get returned when querying on non-ID (or selflink) property

   var doeDocs = client.CreateDocumentQuery("dbs/mydb/colls/manualindexing",
      "SELECT * FROM c WHERE c.lastName = 'Doe'").ToList();
   Console.WriteLine("Documents WHERE lastName = 'Doe': {0}", doeDocs.Count);
	
   // Unindexed document will get returned when using no WHERE clause
	
   var allDocs = client.CreateDocumentQuery("dbs/mydb/colls/manualindexing",
      "SELECT * FROM c").ToList();
   Console.WriteLine("All documents: {0}", allDocs.Count);
	
   // Unindexed document will get returned when querying by ID (or self-link) property
	
   Document markDoc = client
      .CreateDocumentQuery("dbs/mydb/colls/manualindexing",
      "SELECT * FROM c WHERE c.id = 'MARK'")
      .AsEnumerable().FirstOrDefault();
   Console.WriteLine("Unindexed document self-link: {0}", markDoc.SelfLink);
   await client.DeleteDocumentCollectionAsync("dbs/mydb/colls/manualindexing");
}

Step 2- Jetzt erstellen wir wieder die gleichen zwei Dokumente wie zuvor. Wir werden diesmal keine speziellen Anforderungsoptionen für Marks Dokument bereitstellen. Aufgrund der Indexierungsrichtlinie der Sammlung wird dieses Dokument nicht indiziert.

Step 3 - Wenn wir nun das zweite Dokument für Mark hinzufügen, verwenden wir RequestOptions mit IndexingDirective.Include, um DocumentDB mitzuteilen, dass dieses Dokument indiziert werden soll, wodurch die Indexierungsrichtlinie der Sammlung überschrieben wird, die besagt, dass dies nicht der Fall sein soll.

Wir haben am Ende verschiedene Arten von Abfragen für beide Dokumente.

Step 4 - Rufen Sie die ManualIndexing-Aufgabe von CreateDocumentClient aus auf.

private static async Task CreateDocumentClient() {
   // Create a new instance of the DocumentClient 
   using (var client = new DocumentClient(new Uri(EndpointUrl), AuthorizationKey)) {
      await ManualIndexing(client); 
   } 
}

Wenn der obige Code kompiliert und ausgeführt wird, erhalten Sie die folgende Ausgabe.

**** Manual Indexing **** 
Documents WHERE lastName = 'Upston': 1 
All documents: 2 
Unindexed document self-link: dbs/kV5oAA==/colls/kV5oANHJPgE=/docs/kV5oANHJPgEBA 
AAAAAAAAA==/

Auch hier gibt die Abfrage nur eines der beiden Dokumente zurück, diesmal jedoch Jane Doe, die wir ausdrücklich indiziert haben. Bei der Abfrage ohne WHERE-Klausel werden jedoch nach wie vor alle Dokumente in der Sammlung abgerufen, einschließlich des nicht indizierten Dokuments für Mark. Wir können das nicht indizierte Dokument auch anhand seiner ID abfragen, die DocumentDB zurückgibt, obwohl es nicht indiziert ist.