DBMS-해싱

거대한 데이터베이스 구조의 경우 모든 수준에서 모든 인덱스 값을 검색 한 다음 원하는 데이터를 검색하기 위해 대상 데이터 블록에 도달하는 것은 거의 불가능에 가깝습니다. 해싱은 인덱스 구조를 사용하지 않고 디스크에서 데이터 레코드의 직접 위치를 계산하는 효과적인 기술입니다.

해싱은 검색 키와 함께 해시 함수를 매개 변수로 사용하여 데이터 레코드의 주소를 생성합니다.

해시 조직

  • Bucket− 해시 파일은 데이터를 버킷 형식으로 저장합니다. 버킷은 저장 단위로 간주됩니다. 버킷은 일반적으로 하나 이상의 레코드를 저장할 수있는 하나의 완전한 디스크 블록을 저장합니다.

  • Hash Function − 해시 함수, h, 모든 검색 키 세트를 매핑하는 매핑 기능입니다. K실제 기록이있는 주소로. 검색 키에서 버킷 주소까지의 기능입니다.

정적 해싱

정적 해싱에서 검색 키 값이 제공되면 해시 함수는 항상 동일한 주소를 계산합니다. 예를 들어 mod-4 해시 함수를 사용하면 5 개의 값만 생성합니다. 출력 주소는 해당 기능에 대해 항상 동일해야합니다. 제공된 버킷 수는 항상 변경되지 않습니다.

조작

  • Insertion − 정적 해시를 사용하여 레코드를 입력해야하는 경우 해시 기능 h 검색 키의 버킷 주소를 계산합니다. K, 레코드가 저장됩니다.

    버킷 주소 = h (K)

  • Search − 레코드를 검색해야하는 경우 동일한 해시 함수를 사용하여 데이터가 저장된 버킷의 주소를 검색 할 수 있습니다.

  • Delete − 이것은 단순히 검색 후 삭제 작업입니다.

버킷 오버플로

버킷 오버플로의 상태는 다음과 같이 알려져 있습니다. collision. 이것은 정적 해시 함수에 대한 치명적인 상태입니다. 이 경우 오버플로 체인을 사용할 수 있습니다.

  • Overflow Chaining− 버킷이 가득 차면 동일한 해시 결과에 대해 새 버킷이 할당되고 이전 버킷 이후에 연결됩니다. 이 메커니즘을Closed Hashing.

  • Linear Probing− 해시 함수가 데이터가 이미 저장되어있는 주소를 생성하면 다음 빈 버킷이 할당됩니다. 이 메커니즘을Open Hashing.

동적 해싱

정적 해싱의 문제는 데이터베이스 크기가 커지거나 작아 지더라도 동적으로 확장되거나 축소되지 않는다는 것입니다. 동적 해싱은 데이터 버킷이 필요에 따라 동적으로 추가 및 제거되는 메커니즘을 제공합니다. 동적 해싱은 다음과 같이 알려져 있습니다.extended hashing.

동적 해싱에서 해시 함수는 많은 수의 값을 생성하도록 만들어졌으며 초기에는 소수만 사용됩니다.

조직

전체 해시 값의 접두사는 해시 인덱스로 간주됩니다. 해시 값의 일부만 버킷 주소 계산에 사용됩니다. 모든 해시 인덱스에는 해시 함수 계산에 사용되는 비트 수를 나타내는 깊이 값이 있습니다. 이 비트는 2n 버킷을 처리 할 수 ​​있습니다. 이 모든 비트가 소비되면, 즉 모든 버킷이 가득 차면 깊이 값이 선형으로 증가하고 버킷이 두 배로 할당됩니다.

조작

  • Querying − 해시 인덱스의 깊이 값을보고 해당 비트를 사용하여 버킷 주소를 계산합니다.

  • Update − 위와 같이 쿼리를 수행하고 데이터를 업데이트합니다.

  • Deletion − 원하는 데이터를 찾기위한 쿼리를 수행하고 동일한 데이터를 삭제합니다.

  • Insertion − 버킷 주소 계산

    • 버킷이 이미 가득 찬 경우.
      • 버킷을 더 추가하십시오.
      • 해시 값에 추가 비트를 추가합니다.
      • 해시 함수를 다시 계산하십시오.
    • 그밖에
      • 버킷에 데이터를 추가하고,
    • 모든 버킷이 가득 차면 정적 해싱의 해결 방법을 수행하십시오.

데이터가 일부 순서로 구성되고 쿼리에 다양한 데이터가 필요한 경우 해싱은 바람직하지 않습니다. 데이터가 불연속적이고 임의적 인 경우 해시가 가장 잘 수행됩니다.

해싱 알고리즘은 인덱싱보다 복잡도가 높습니다. 모든 해시 작업은 일정한 시간에 수행됩니다.