Una guida per principianti al filtro Bloom

Nov 26 2022

Come verificare in modo efficiente se un nome utente è registrato?

Dato un nome utente su una pagina di registrazione utente, come facciamo a sapere se è già stato registrato? Mentre l'interrogazione di un database indicizzato aiuta, è lenta e comporta chiamate di rete. Per velocizzare le cose, possiamo memorizzare nella cache l'elenco dei nomi utente registrati in un archivio di valori-chiave come Redis.

Foto di Rahul Pandit su Pexels

Dato un nome utente su una pagina di registrazione utente, come facciamo a sapere se è già stato registrato?

Mentre l'interrogazione di un database indicizzato aiuta, è lenta e comporta chiamate di rete.

Per velocizzare le cose, possiamo memorizzare nella cache l'elenco dei nomi utente registrati in un archivio di valori-chiave come Redis.

Tuttavia, ciò implica la memorizzazione nella cache di milioni di record e il raddoppio della nostra impronta di memoria.

Come possiamo fare meglio in questo problema apparentemente banale?

Il filtro bloom potrebbe essere la risposta, diamo un'occhiata!

Che cos'è un filtro Bloom?

Un filtro bloom controlla se un articolo è in un set

Un filtro bloom risponde a una semplice domanda,

Esiste un elemento in un dato insieme?

Un filtro bloom è una struttura dati probabilistica. Data la domanda precedente, restituisce una delle seguenti risposte

Probabilmente sì
100% no

E il suo più grande vantaggio è che lo fa in COSTANTE tempo e spazio.

Come funziona?

Un filtro bloom è costituito da due componenti

Un array di bit di dimensione N
Diverse funzioni di hashing

Un filtro bloom è un array di bit di dimensione N

Viene inizialmente inizializzato come un array di bit di dimensioni N con tutti i suoi bit impostati su zero. Supponiamo che la lunghezza dell'array sia 10 per ora.

Aggiunta di un elemento

Un elemento viene sottoposto ad hashing e mod per ottenere un indice limitato

L'aggiunta di un elemento è banale

L'elemento detto "tigre" viene sottoposto a hashing utilizzando una funzione di hashing
L'hash generato è modificato dalla lunghezza dell'array per ottenere un indice limitato
L'indice dell'array di bit viene quindi impostato su 1

Se l'indice è impostato su 1, l'elemento è PROBABILMENTE nel set. Altrimenti, NON è CERTO nel set.

Analogamente all'aggiunta di un elemento, eseguiamo l'hashing dell'elemento utilizzando una funzione di hashing e lo modifichiamo per ottenere un indice limitato.

L'output viene valutato come segue,

Se il valore dell'indice dell'array di bit è 0, l'elemento NON è nell'insieme.
Altrimenti, l'articolo è PROBABILMENTE nel set

Conservazione di un filtro bloom

Invece di memorizzare il filtro bloom come un array, possiamo convertire la sua rappresentazione in bit in un numero decimale.

Ad esempio, possiamo convertire un array contenente 10011in 19 e memorizzarlo in una cache.

Se l'elenco non cambia molto spesso, il server può inviare il numero decimale al client, consentendo la convalida da parte del client.

Possiamo fare di meglio?

Se la funzione di hashing restituisce l'indice 1 sia per "tigre" che per "mucca", controllando se "mucca" è nell'insieme si ottiene la risposta Sì anche se non lo è .