ブルームフィルターの初心者向けガイド

Nov 26 2022

ユーザー名が登録されているかどうかを効率的に確認する方法は?

ユーザーサインアップページでユーザー名が指定された場合、それが既に登録されているかどうかをどのように判断しますか? インデックス付きデータベースへのクエリは役に立ちますが、速度が遅く、ネットワーク呼び出しが発生します。スピードアップするために、登録されたユーザー名のリストを Redis のようなキーと値のストアにキャッシュできます。

PexelsのRahul Panditによる写真

ユーザーサインアップページでユーザー名が指定された場合、それが既に登録されているかどうかをどのように判断しますか?

インデックス付きデータベースへのクエリは役に立ちますが、速度が遅く、ネットワーク呼び出しが発生します。

スピードアップするために、登録されたユーザー名のリストを Redis のようなキーと値のストアにキャッシュできます。

ただし、これは何百万ものレコードをキャッシュし、メモリフットプリントを 2 倍にすることを意味します。

この一見些細な問題で、どうすればもっとうまくやれるでしょうか?

ブルームフィルターが答えかもしれません。チェックしてみましょう。

ブルームフィルターとは？

アイテムがセット内にあるかどうかをチェックするブルームフィルター

ブルームフィルターは、次の 1 つの簡単な質問に答えます。

特定のセットに要素が存在するか?

ブルームフィルターは、確率的なデータ構造です。上記の質問を考えると、次のいずれかの回答が出力されます

おそらくはい
100%いいえ

その最大の利点は、一定の時間と空間でこれを行うことです。

それはどのように機能しますか？

ブルームフィルターは 2 つのコンポーネントで構成されます

N サイズのビット配列
いくつかのハッシュ関数

ブルームフィルターは N サイズのビット配列です

最初に、すべてのビットがゼロに設定された N サイズのビット配列として初期化されます。今のところ、配列の長さを 10 と仮定しましょう。

アイテムの追加

アイテムはハッシュされ、バインドされたインデックスを取得するために変更されます

アイテムの追加は簡単です

「虎」というアイテムは、ハッシュ関数を使用してハッシュされます
生成されたハッシュは、境界付きインデックスを取得するために配列の長さによって変更されます
次に、ビット配列のインデックスが 1 に設定されます。

インデックスが 1 に設定されている場合、アイテムはおそらくセット内にあります。そうでなければ、それはセットに含まれていません。

アイテムの追加と同様に、ハッシュ関数を使用して要素をハッシュし、それを変更して境界付きインデックスを取得します。

出力は次のように評価されます。

ビット配列のインデックス値が 0 の場合、アイテムはセットにありません。
それ以外の場合、アイテムはおそらくセットに含まれています

ブルームフィルターの保管

ブルームフィルターを配列として格納する代わりに、そのビット表現を 10 進数に変換できます。

たとえば、1001119 を含む配列を変換してキャッシュに格納できます。

リストがあまり頻繁に変更されない場合、サーバーは 10 進数をクライアントに送信して、クライアント側で検証を行うことができます。

もっとうまくやれるでしょうか？

ハッシュ関数が "tiger" と "cow" の両方のインデックス 1 を出力する場合、"cow" がセットに含まれているかどうかを確認すると、そうでなくてもYes という答えが得られます。

次の解決策により、誤検知の可能性を減らすことができます。

配列の長さを増やす
ハッシュ関数の数を増やす

複数のハッシュを使用して複数のインデックスを取得する

1 つのインデックスの代わりに、複数のハッシュを使用して複数のインデックスを取得できます。

アイテムを追加すると、取得したすべてのインデックスが 1 に設定されます。

すべてのインデックスが 1 に設定されている場合にのみ、アイテムはおそらくセット内にあると主張されます。

これらの方法を活用することで、誤検知の可能性を大幅に下げることができました。

アプリケーション

実際の例をいくつか見てみましょう。

ユーザーサインアップフローにユーザー名が存在するかどうかを確認する

ユーザー名が作成されると、キー値ストアに格納されているブルームフィルターにユーザー名が追加されます。
ユーザーがユーザーサインアップページでユーザー名をキー入力すると、サーバーはまずブルームフィルターにクエリを実行します。
ユーザー名がブルームフィルターに含まれていない場合、サーバーは即座にエラーをクライアントに返します。
それ以外の場合、サーバーはデータベースでクエリとクロスチェックを行います。

Medium は、ユーザーごとにブルームフィルターを維持します。
記事を推奨する前に、Medium は記事 ID がユーザーのブルームフィルターに存在するかどうかを確認します。
ブルームフィルターに確実に含まれていない記事は、ユーザーに推奨されます。

URL にアクセスすると、Chrome はまずその URL が悪意のあるリストに含まれているかどうかを検証します。
毎回 Google サーバーにクエリを実行する代わりに、Google は事前に定義された悪意のあるリストを使用してブルームフィルターを構築し、それをブラウザーに送信します。
ブラウザーは、Web サイトにアクセスする前に URL をハッシュし、ブルームフィルターと照合します。

誤検知が発生する可能性がありますが、ブルームフィルターは、項目が確実にリストに含まれていないかどうかを確認したい場合に便利です。