블룸 필터 초보자 가이드

Nov 26 2022

사용자 이름이 등록되었는지 효율적으로 확인하는 방법은 무엇입니까?

사용자 가입 페이지에서 사용자 이름이 주어지면 이미 등록되었는지 어떻게 알 수 있습니까? 인덱싱된 데이터베이스를 쿼리하면 도움이 되지만 속도가 느리고 네트워크 호출이 발생합니다. 작업 속도를 높이기 위해 Redis와 같은 키-값 저장소에 등록된 사용자 이름 목록을 캐시할 수 있습니다.

Pexels의 Rahul Pandit 님의 사진

사용자 가입 페이지에서 사용자 이름이 주어지면 이미 등록되었는지 어떻게 알 수 있습니까?

인덱싱된 데이터베이스를 쿼리하면 도움이 되지만 속도가 느리고 네트워크 호출이 발생합니다.

작업 속도를 높이기 위해 Redis와 같은 키-값 저장소에 등록된 사용자 이름 목록을 캐시할 수 있습니다.

그러나 이는 수백만 개의 레코드를 캐싱하고 메모리 공간을 두 배로 늘리는 것을 의미합니다.

사소해 보이는 이 문제에서 우리는 어떻게 더 잘할 수 있습니까?

블룸 필터가 답일 수 있습니다. 확인해 봅시다!

블룸 필터란 무엇입니까?

블룸 필터는 항목이 세트에 있는지 확인합니다.

블룸 필터는 하나의 간단한 질문에 답합니다.

주어진 세트에 요소가 존재합니까?

블룸 필터는 확률적 데이터 구조입니다. 위의 질문이 주어지면 다음 답변 중 하나를 출력합니다.

아마 예
100% 아니요

그리고 가장 큰 장점은 일정한 시간과 공간에서 이를 수행한다는 것 입니다 .

어떻게 작동합니까?

블룸 필터는 두 가지 구성 요소로 구성됩니다.

N 크기 비트 배열
여러 해싱 함수

블룸 필터는 N 크기의 비트 배열입니다.

먼저 모든 비트가 0으로 설정된 N 크기 비트 배열로 초기화됩니다. 지금은 배열의 길이가 10이라고 가정해 봅시다.

항목 추가

항목이 해시되고 한정된 인덱스를 얻기 위해 수정됩니다.

항목 추가는 간단합니다.

"호랑이"라는 항목은 해싱 함수를 사용하여 해싱됩니다.
생성된 해시는 제한된 인덱스를 얻기 위해 배열 길이로 변경됩니다.
그러면 비트 배열의 인덱스가 1로 설정됩니다.

인덱스가 1로 설정되면 항목이 세트에 있을 가능성이 높습니다. 그렇지 않으면 확실히 세트에 없습니다.

항목을 추가하는 것과 유사하게 해싱 함수를 사용하여 요소를 해시하고 제한된 인덱스를 얻기 위해 수정합니다.

출력은 다음과 같이 평가됩니다.

비트 배열의 인덱스 값이 0이면 항목이 집합에 없습니다 .
그렇지 않으면 항목이 아마도 세트에 있을 것입니다.

블룸 필터 저장

블룸 필터를 배열로 저장하는 대신 비트 표현을 십진수로 변환할 수 있습니다.

예를 들어, 1001119를 포함하는 배열을 변환하여 캐시에 저장할 수 있습니다.

목록이 자주 변경되지 않는 경우 서버는 클라이언트 측에서 유효성 검사를 수행할 수 있도록 클라이언트에 10진수를 보낼 수 있습니다.

더 잘할 수 있을까요?

해싱 함수가 "tiger"와 "cow" 모두에 대해 인덱스 1을 출력하는 경우 집합에 "cow"가 있는지 확인하면 그렇지 않은 경우에도 Yes가 반환됩니다 .