쿼리 최적화를위한 관계형 대수
쿼리가 배치되면 처음에 검색, 구문 분석 및 유효성 검사가 수행됩니다. 그런 다음 쿼리 트리 또는 쿼리 그래프와 같은 쿼리의 내부 표현이 생성됩니다. 그런 다음 데이터베이스 테이블에서 결과를 검색하기위한 대체 실행 전략이 고 안됩니다. 쿼리 처리에 가장 적합한 실행 전략을 선택하는 프로세스를 쿼리 최적화라고합니다.
DDBMS의 쿼리 최적화 문제
DDBMS에서 쿼리 최적화는 중요한 작업입니다. 다음 요인으로 인해 대체 전략의 수가 기하 급수적으로 증가 할 수 있으므로 복잡성이 높습니다.
- 여러 조각이 있습니다.
- 다양한 사이트에 조각 또는 테이블 배포.
- 통신 링크의 속도.
- 로컬 처리 능력의 차이.
따라서 분산 시스템에서 대상은 쿼리 처리를위한 최상의 실행 전략을 찾는 것입니다. 쿼리를 실행하는 시간은 다음의 합계입니다.
- 데이터베이스에 쿼리를 전달할 시간입니다.
- 로컬 쿼리 조각을 실행할 시간입니다.
- 다른 사이트에서 데이터를 수집 할 시간입니다.
- 애플리케이션에 결과를 표시 할 시간입니다.
쿼리 처리
쿼리 처리는 쿼리 배치부터 쿼리 결과 표시까지 모든 활동의 집합입니다. 단계는 다음 다이어그램과 같습니다.
관계형 대수
관계형 대수는 관계형 데이터베이스 모델의 기본 연산 집합을 정의합니다. 일련의 관계형 대수 연산은 관계형 대수 표현식을 형성합니다. 이 식의 결과는 데이터베이스 쿼리의 결과를 나타냅니다.
기본 작업은-
- Projection
- Selection
- Union
- Intersection
- Minus
- Join
투사
프로젝션 작업은 테이블 필드의 하위 집합을 표시합니다. 이것은 테이블의 수직 분할을 제공합니다.
Syntax in Relational Algebra
$$ \ pi _ {<{AttributeList}>} {(<{테이블 이름}>)} $$
예를 들어, 다음 Student 데이터베이스를 고려해 보겠습니다.
Roll_No | Name | Course | Semester | Gender |
2 | 아밋 프라 사드 | BCA | 1 | 남성 |
4 | 바르샤 티 와리 | BCA | 1 | 여자 |
5 | 아시프 알리 | MCA | 2 | 남성 |
6 | 조 월리스 | MCA | 1 | 남성 |
8 | Shivani Iyengar | BCA | 1 | 여자 |
모든 학생의 이름과 코스를 표시하려면 다음 관계형 대수 표현식을 사용합니다.
$$ \ pi_ {이름, 과정} {(학생)} $$
선택
선택 작업은 특정 조건을 충족하는 테이블의 튜플 하위 집합을 표시합니다. 이것은 테이블의 수평 분할을 제공합니다.
Syntax in Relational Algebra
$$ \ sigma _ {<{조건}>} {(<{테이블 이름}>)} $$
예를 들어, Student 테이블에서 MCA 과정을 선택한 모든 학생의 세부 정보를 표시하려면 다음 관계형 대수 표현식을 사용합니다.
$$ \ sigma_ {코스} = {\ small "BCA"} ^ {(학생)} $$
프로젝션 및 선택 작업의 조합
대부분의 쿼리에는 프로젝션 및 선택 작업의 조합이 필요합니다. 이 표현을 쓰는 데는 두 가지 방법이 있습니다.
- 투영 및 선택 작업 순서 사용.
- 이름 바꾸기 작업을 사용하여 중간 결과를 생성합니다.
예를 들어, BCA 과정의 모든 여학생의 이름을 표시하려면-
- 일련의 투영 및 선택 연산을 사용한 관계형 대수 표현
$$ \ pi_ {이름} (\ sigma_ {성별 = \ small "여성"AND \ : 과정 = \ small "BCA"} {(학생)}) $$
- 이름 변경 작업을 사용하여 중간 결과를 생성하는 관계형 대수 표현식
$$ FemaleBCAStudent \ leftarrow \ sigma_ {Gender = \ small "Female"AND \ : Course = \ small "BCA"} {(STUDENT)} $$
$$ Result \ leftarrow \ pi_ {Name} {(FemaleBCAStudent)} $$
노동 조합
P가 연산의 결과이고 Q가 다른 연산의 결과 인 경우 P와 Q의 합집합 ($ p \ cup Q $)은 P 또는 Q에 있거나 둘 다에있는 모든 튜플의 집합입니다. .
예를 들어, 1 학기 또는 BCA 과정에있는 모든 학생을 표시하려면-
$$ Sem1 학생 \ leftarrow \ sigma_ {학기 = 1} {(학생)} $$
$$ BC 학생 \ leftarrow \ sigma_ {코스 = \ small "BCA"} {(학생)} $$
$$ Result \ leftarrow Sem1Student \ cup BCAStudent $$
교차로
P가 연산의 결과이고 Q가 다른 연산의 결과이면 P와 Q의 교차점 ($ p \ cap Q $)은 P와 Q 모두에있는 모든 튜플의 집합입니다.
예를 들어, 다음 두 스키마가 주어지면-
EMPLOYEE
EmpID | 이름 | 시티 | 학과 | 봉급 |
PROJECT
PId | 시티 | 학과 | 상태 |
프로젝트가 있고 직원이 거주하는 모든 도시의 이름을 표시하려면-
$$ CityEmp \ leftarrow \ pi_ {City} {(직원)} $$
$$ CityProject \ leftarrow \ pi_ {City} {(PROJECT)} $$
$$ Result \ leftarrow CityEmp \ cap CityProject $$
마이너스
P가 연산의 결과이고 Q가 다른 연산의 결과이면 P-Q는 Q가 아닌 P에있는 모든 튜플의 집합입니다.
예를 들어 진행중인 프로젝트가없는 모든 부서를 나열하려면 (상태 = 진행중인 프로젝트)-
$$ AllDept \ leftarrow \ pi_ {Department} {(EMPLOYEE)} $$
$$ ProjectDept \ leftarrow \ pi_ {Department} (\ sigma_ {Status = \ small "ongoing"} {(PROJECT)}) $$
$$ 결과 \ leftarrow AllDept-ProjectDept $$
어울리다
조인 작업은 서로 다른 두 테이블의 관련 튜플 (쿼리 결과)을 단일 테이블로 결합합니다.
예를 들어, 다음과 같이 은행 데이터베이스에서 고객 및 지점의 두 스키마를 고려하십시오.
CUSTOMER
CustID | AccNo | TypeOfAc | BranchID | 개장 일자 |
BRANCH
BranchID | 지점명 | IFSCcode | 주소 |
지점 세부 정보와 함께 직원 세부 정보를 나열하려면-
$$ Result \ leftarrow CUSTOMER \ bowtie_ {Customer.BranchID = Branch.BranchID} {BRANCH} $$
SQL 쿼리를 관계형 대수로 변환
SQL 쿼리는 최적화 전에 동등한 관계형 대수 표현식으로 변환됩니다. 쿼리는 처음에 더 작은 쿼리 블록으로 분해됩니다. 이러한 블록은 동등한 관계형 대수 표현식으로 변환됩니다. 최적화에는 각 블록의 최적화와 쿼리 전체의 최적화가 포함됩니다.
예
다음 스키마를 고려해 보겠습니다.
종업원
EmpID | 이름 | 시티 | 학과 | 봉급 |
계획
PId | 시티 | 학과 | 상태 |
공장
EmpID | PID | 시간 |
예 1
평균 급여보다 적은 급여를받는 모든 직원의 세부 정보를 표시하기 위해 SQL 쿼리를 작성합니다.
SELECT * FROM EMPLOYEE
WHERE SALARY < ( SELECT AVERAGE(SALARY) FROM EMPLOYEE ) ;
이 쿼리에는 하나의 중첩 된 하위 쿼리가 포함됩니다. 따라서 이것은 두 블록으로 나눌 수 있습니다.
내부 블록은-
SELECT AVERAGE(SALARY)FROM EMPLOYEE ;
이 쿼리의 결과가 AvgSal이면 외부 블록은-
SELECT * FROM EMPLOYEE WHERE SALARY < AvgSal;
내부 블록에 대한 관계형 대수 표현 −
$$ AvgSal \ leftarrow \ Im_ {AVERAGE (급여)} {EMPLOYEE} $$
외부 블록에 대한 관계형 대수 표현식-
$$ \ sigma_ {급여 <{AvgSal}>} {EMPLOYEE} $$
예 2
직원 'Arun Kumar'의 모든 프로젝트의 프로젝트 ID와 상태를 표시하기 위해 SQL 쿼리를 작성합니다.
SELECT PID, STATUS FROM PROJECT
WHERE PID = ( SELECT FROM WORKS WHERE EMPID = ( SELECT EMPID FROM EMPLOYEE
WHERE NAME = 'ARUN KUMAR'));
이 쿼리에는 두 개의 중첩 된 하위 쿼리가 포함됩니다. 따라서 다음과 같이 세 블록으로 나눌 수 있습니다.
SELECT EMPID FROM EMPLOYEE WHERE NAME = 'ARUN KUMAR';
SELECT PID FROM WORKS WHERE EMPID = ArunEmpID;
SELECT PID, STATUS FROM PROJECT WHERE PID = ArunPID;
(여기서 ArunEmpID 및 ArunPID는 내부 쿼리의 결과입니다.)
세 블록에 대한 관계형 대수식은 다음과 같습니다.
$$ ArunEmpID \ leftarrow \ pi_ {EmpID} (\ sigma_ {Name = \ small "Arun Kumar"} {(EMPLOYEE)}) $$
$$ ArunPID \ leftarrow \ pi_ {PID} (\ sigma_ {EmpID = \ small "ArunEmpID"} {(WORKS)}) $$
$$ Result \ leftarrow \ pi_ {PID, Status} (\ sigma_ {PID = \ small "ArunPID"} {(PROJECT)}) $$
관계형 대수 연산자의 계산
관계형 대수 연산자의 계산은 다양한 방법으로 수행 할 수 있으며 각 대안을 access path.
계산 대안은 세 가지 주요 요인에 따라 달라집니다.
- 연산자 유형
- 사용 가능한 메모리
- 디스크 구조
관계형 대수 연산을 실행하는 데 걸리는 시간은 다음의 합계입니다.
- 튜플을 처리 할 시간입니다.
- 디스크에서 메모리로 테이블의 튜플을 가져 오는 시간입니다.
튜플을 처리하는 시간은 스토리지, 특히 분산 시스템에서 튜플을 가져 오는 시간보다 훨씬 짧기 때문에 디스크 액세스는 관계식 비용을 계산하는 척도로 간주되는 경우가 많습니다.
선택 계산
선택 연산의 계산은 선택 조건의 복잡성과 테이블 속성의 인덱스 가용성에 따라 달라집니다.
다음은 인덱스에 따른 계산 대안입니다.
No Index− 테이블이 정렬되지 않고 인덱스가없는 경우 선택 프로세스에는 테이블의 모든 디스크 블록을 스캔하는 작업이 포함됩니다. 각 블록을 메모리로 가져오고 블록의 각 튜플을 검사하여 선택 조건을 충족하는지 확인합니다. 조건이 만족되면 출력으로 표시됩니다. 이것은 각 튜플이 메모리로 가져오고 각 튜플이 처리되기 때문에 가장 비용이 많이 드는 접근 방식입니다.
B+ Tree Index− 대부분의 데이터베이스 시스템은 B + 트리 인덱스를 기반으로합니다. 선택 조건이이 B + 트리 인덱스의 키인 필드를 기반으로하는 경우이 인덱스는 결과 검색에 사용됩니다. 그러나 복잡한 조건이있는 선택 문을 처리하려면 더 많은 디스크 블록 액세스가 필요하고 경우에 따라 테이블을 완전히 검색해야합니다.
Hash Index− 해시 인덱스를 사용하고 해당 키 필드를 선택 조건에서 사용하는 경우 해시 인덱스를 사용하여 튜플을 검색하는 것은 간단한 프로세스가됩니다. 해시 인덱스는 해시 함수를 사용하여 해시 값에 해당하는 키 값이 저장된 버킷의 주소를 찾습니다. 인덱스에서 키 값을 찾기 위해 해시 함수를 실행하고 버킷 주소를 찾습니다. 버킷의 키 값이 검색됩니다. 일치하는 것이 발견되면 실제 튜플을 디스크 블록에서 메모리로 가져옵니다.
조인 계산
두 테이블 (예 : P와 Q)을 조인하려면 P의 각 튜플을 Q의 각 튜플과 비교하여 조인 조건이 충족되는지 테스트해야합니다. 조건이 충족되면 해당 튜플이 연결되어 중복 필드를 제거하고 결과 관계에 추가됩니다. 결과적으로 이것은 가장 비용이 많이 드는 작업입니다.
조인을 계산하는 일반적인 접근 방식은 다음과 같습니다.
중첩 루프 접근법
이것이 일반적인 조인 접근 방식입니다. 다음 의사 코드 (테이블 P와 Q, tuple_p 및 tuple_q와 결합 속성 a)를 통해 설명 할 수 있습니다.
For each tuple_p in P
For each tuple_q in Q
If tuple_p.a = tuple_q.a Then
Concatenate tuple_p and tuple_q and append to Result
End If
Next tuple_q
Next tuple-p
정렬-병합 접근법
이 접근 방식에서 두 테이블은 조인 속성에 따라 개별적으로 정렬 된 다음 정렬 된 테이블이 병합됩니다. 레코드 수가 매우 많고 메모리에 수용 할 수 없기 때문에 외부 정렬 기술이 채택됩니다. 개별 테이블이 정렬되면 정렬 된 각 테이블이 메모리로 가져와 결합 속성을 기반으로 병합되고 결합 된 튜플이 기록됩니다.
해시 조인 방식
이 접근 방식은 분할 단계와 프로빙 단계의 두 단계로 구성됩니다. 분할 단계에서 테이블 P와 Q는 두 세트의 분리 된 분할로 나뉩니다. 공통 해시 함수가 결정됩니다. 이 해시 함수는 파티션에 튜플을 할당하는 데 사용됩니다. 프로빙 단계에서 P의 파티션에있는 튜플은 Q의 해당 파티션에있는 튜플과 비교됩니다. 일치하면 기록됩니다.