DynamoDB - skanowanie
Operacje skanowania odczytują wszystkie elementy tabeli lub indeksy dodatkowe. Jego domyślna funkcja powoduje zwrócenie wszystkich atrybutów danych wszystkich elementów w indeksie lub tabeli. ZatrudnijProjectionExpression parametr w filtrowaniu atrybutów.
Każde skanowanie zwraca zestaw wyników, nawet w przypadku braku dopasowań, co skutkuje pustym zestawem. Skany pobierają nie więcej niż 1 MB, z opcją filtrowania danych.
Note - Parametry i filtrowanie skanów mają również zastosowanie do zapytań.
Rodzaje operacji skanowania
Filtering- Operacje skanowania oferują dokładne filtrowanie przez wyrażenia filtrujące, które modyfikują dane po skanowaniu lub zapytaniach; przed zwróceniem wyników. Wyrażenia używają operatorów porównania. Ich składnia przypomina wyrażenia warunkowe z wyjątkiem atrybutów kluczowych, na które wyrażenia filtru nie pozwalają. W wyrażeniu filtru nie można użyć klucza partycji ani klucza sortowania.
Note - Limit 1 MB ma zastosowanie przed jakimkolwiek zastosowaniem filtrowania.
Throughput Specifications- Skany zużywają przepustowość, jednak zużycie koncentruje się na rozmiarze elementu, a nie na zwracanych danych. Zużycie pozostaje takie samo niezależnie od tego, czy żądasz każdego atrybutu, czy tylko kilku, a użycie wyrażenia filtru lub jego nie ma również wpływu na zużycie.
Pagination- DynamoDB dzieli wyniki na strony, powodując podział wyników na określone strony. Limit 1 MB dotyczy zwracanych wyników, a gdy go przekroczysz, konieczne będzie ponowne skanowanie w celu zebrania pozostałych danych. PlikLastEvaluatedKeywartość umożliwia wykonanie tego kolejnego skanowania. Po prostu zastosuj wartość doExclusiveStartkey. KiedyLastEvaluatedKeyvalue staje się null, operacja zakończyła wszystkie strony danych. Jednak wartość różna od null nie oznacza automatycznie, że pozostaje więcej danych. Tylko wartość pusta wskazuje stan.
The Limit Parameter- Parametr limit zarządza wielkością wyniku. DynamoDB używa go do ustalenia liczby elementów do przetworzenia przed zwróceniem danych i nie działa poza zakresem. Jeśli ustawisz wartość x, DynamoDB zwróci pierwsze x pasujących elementów.
Wartość LastEvaluatedKey ma również zastosowanie w przypadkach, gdy parametry graniczne dają wyniki częściowe. Użyj go, aby ukończyć skanowanie.
Result Count - Odpowiedzi na zapytania i skany obejmują również informacje związane z ScannedCounti Count, które określają ilościowo zeskanowane / wyszukiwane elementy i ilościowo zwracane elementy. Jeśli nie filtrujesz, ich wartości są identyczne. Gdy przekroczysz 1 MB, liczby przedstawiają tylko przetworzoną część.
Consistency- Wyniki zapytania i wyniki skanowania są ostatecznie spójnymi odczytami, jednak można również ustawić bardzo spójne odczyty. UżyjConsistentRead aby zmienić to ustawienie.
Note - Konsekwentne ustawienia odczytu wpływają na zużycie dzięki zastosowaniu podwójnej wydajności jednostek, gdy są ustawione na bardzo spójne.
Performance- Zapytania oferują lepszą wydajność niż skanowanie ze względu na skanowanie indeksujące pełną tabelę lub indeks pomocniczy, co skutkuje powolną odpowiedzią i dużym zużyciem przepustowości. Skanowanie działa najlepiej w przypadku małych tabel i wyszukiwań z mniejszą liczbą filtrów, jednak można zaprojektować skanowanie odchudzone, przestrzegając kilku najlepszych praktyk, takich jak unikanie nagłych, przyspieszonych operacji odczytu i wykorzystywanie skanów równoległych.
Zapytanie znajduje pewien zakres kluczy spełniających dany warunek, a wydajność zależy od ilości pobieranych danych, a nie od liczby kluczy. Parametry operacji i liczba dopasowań mają szczególny wpływ na wydajność.
Skanowanie równoległe
Operacje skanowania domyślnie wykonują przetwarzanie sekwencyjne. Następnie zwracają dane w porcjach 1MB, co powoduje, że aplikacja pobiera kolejną porcję. Powoduje to długie skanowanie dużych tabel i indeksów.
Ta cecha oznacza również, że skanowanie może nie zawsze w pełni wykorzystywać dostępną przepustowość. DynamoDB rozdziela dane tabeli na wiele partycji; a przepustowość skanowania pozostaje ograniczona do jednej partycji ze względu na jej działanie na jednej partycji.
Rozwiązaniem tego problemu jest logiczne podzielenie tabel lub indeksów na segmenty. Następnie „pracownicy” równolegle (jednocześnie) skanują segmenty. Wykorzystuje parametry Segment iTotalSegments aby określić segmenty skanowane przez niektórych pracowników i określić całkowitą liczbę przetworzonych segmentów.
Numer pracownika
Aby uzyskać najlepszą wydajność aplikacji, należy eksperymentować z wartościami procesu roboczego (parametr Segment).
Note- Równoległe skanowanie z dużymi zestawami pracowników wpływa na przepustowość, prawdopodobnie pochłaniając całą przepustowość. Zarządzaj tym problemem za pomocą parametru Limit, którego można użyć, aby powstrzymać pojedynczego pracownika przed zużywaniem całej przepływności.
Poniżej znajduje się przykład głębokiego skanowania.
Note- Poniższy program może zakładać wcześniej utworzone źródło danych. Przed przystąpieniem do wykonania należy nabyć biblioteki pomocnicze i utworzyć niezbędne źródła danych (tabele z wymaganymi cechami lub inne źródła, do których istnieją odniesienia).
W tym przykładzie użyto również Eclipse IDE, pliku referencji AWS oraz zestawu narzędzi AWS w ramach projektu Eclipse AWS Java.
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import com.amazonaws.auth.profile.ProfileCredentialsProvider;
import com.amazonaws.services.dynamodbv2.AmazonDynamoDBClient;
import com.amazonaws.services.dynamodbv2.document.DynamoDB;
import com.amazonaws.services.dynamodbv2.document.Item;
import com.amazonaws.services.dynamodbv2.document.ItemCollection;
import com.amazonaws.services.dynamodbv2.document.ScanOutcome;
import com.amazonaws.services.dynamodbv2.document.Table;
public class ScanOpSample {
static DynamoDB dynamoDB = new DynamoDB(
new AmazonDynamoDBClient(new ProfileCredentialsProvider()));
static String tableName = "ProductList";
public static void main(String[] args) throws Exception {
findProductsUnderOneHun(); //finds products under 100 dollars
}
private static void findProductsUnderOneHun() {
Table table = dynamoDB.getTable(tableName);
Map<String, Object> expressionAttributeValues = new HashMap<String, Object>();
expressionAttributeValues.put(":pr", 100);
ItemCollection<ScanOutcome> items = table.scan (
"Price < :pr", //FilterExpression
"ID, Nomenclature, ProductCategory, Price", //ProjectionExpression
null, //No ExpressionAttributeNames
expressionAttributeValues);
System.out.println("Scanned " + tableName + " to find items under $100.");
Iterator<Item> iterator = items.iterator();
while (iterator.hasNext()) {
System.out.println(iterator.next().toJSONPretty());
}
}
}