Teradata-질문 및 답변
독자 여러분,이 Teradata Interview Questions 주제에 대한 인터뷰 중에 접할 수있는 질문의 성격을 알 수 있도록 특별히 고안되었습니다. Teradata. 내 경험에 따르면 좋은 면접관은 면접 중에 특정 질문을 할 계획이 거의 없습니다. 일반적으로 질문은 주제에 대한 기본 개념으로 시작하고 나중에 추가 토론과 답변에 따라 계속됩니다.
Teradata 아키텍처는 세 가지 구성 요소로 구성됩니다.
Parsing Engine − Parsing Engine은 사용자로부터 쿼리를 받아 구문 분석하고 실행 계획을 준비합니다.
BYNET − BYNET은 Parsing Engine에서 실행 계획을 수신하고 적절한 AMP로 발송합니다.
AMP− AMP는 행 저장 및 검색을 담당합니다. 연결된 가상 디스크에 데이터를 저장합니다. 이 외에도 AMP는 잠금 관리, 공간 관리, 정렬 및 집계를 담당합니다.
FastLoad | 멀티로드 |
---|---|
대상 테이블은 비어 있어야합니다. | 대상 테이블은 비워 둘 필요가 없습니다. |
단일 스크립트를 사용하여 하나의 테이블 만로드 할 수 있습니다. | 최대 5 개의 테이블로드 / 업데이트 가능 |
CREATE / INSERT 문만 지원합니다. | 단일 스크립트에서 최대 20 개의 DML 문 지원 |
RI, SI 및 트리거가있는 테이블을 지원하지 않습니다. | NUSI로 테이블 지원 |
FastLoad는 체크 포인트를 통해 재시작 기능을 제공합니다. 스크립트가 마지막 체크 포인트에서 다시 시작되면 동일한 행이 AMP로 다시 전송 될 수 있습니다. 이것이 FastLoad가 중복을 지원하지 않는 이유입니다.
SET 테이블은 중복 레코드를 허용하지 않지만 MULTISET은 중복 레코드를 허용합니다.
삽입 된 각 행에 대해 시스템은 동일한 행 해시를 가진 레코드가 있는지 확인합니다. 테이블에 UPI가 정의되어 있으면 레코드가 중복으로 거부됩니다. 그렇지 않으면 전체 레코드가 중복되었는지 비교합니다. 이것은 시스템 성능에 심각한 영향을 미칩니다.
중복 행 검사를 방지하기 위해 고유 기본 인덱스 또는 고유 보조 인덱스를 정의 할 수 있습니다.
테이블은 CREATE TABLE 문을 사용하여 생성됩니다. 테이블은 다음을 사용하여 만들 수 있습니다.
컬럼 정의가있는 CREATE TABLE 문.
기존 테이블에서 CREATE TABLE.
SELECT 문이있는 CREATE TABLE 문.
중복 레코드는 DISTINCT 문 또는 GROUP BY 문을 사용하여 식별 할 수 있습니다.
SELECT DISTINCT column 1, column 2…
FROM tablename;
OR
SELECT column 1, column 2,…
FROM tablename
GROUP BY column 1, column 2….;
Teradata에서는 기본 키가 필수가 아니지만 기본 인덱스는 필수입니다.
데이터 분포는 기본 인덱스 값을 기반으로합니다.
기본 키는 NULL을 허용하지 않는 반면 기본 인덱스는 NULL 값을 허용합니다.
기본 키는 고유 한 반면 기본 인덱스는 고유하거나 (UPI) 고유하지 않을 수 있습니다 (NUPI).
기본 키는 변경되지 않지만 기본 인덱스는 변경됩니다.
데이터는 3 가지 방법으로 액세스 할 수 있습니다.
- 기본 인덱스를 통해
- 보조 인덱스를 통해
- 전체 테이블 스캔
쿼리 SELECT HASHAMP () + 1을 사용하여 식별 할 수 있습니다.
이를 위해 다음 쿼리를 사용할 수 있습니다.
SELECT HASHMAP(HASHBUCKET(HASHROW(primaryindexvalue))), COUNT(*)
FROM tablename GROUP BY 1;
Teradata는 두 가지 트랜잭션 모드를 지원합니다.
- Teradata
- ANSI
Teradata 모드는 SET SESSION TRANSACTION BTET을 사용하여 설정됩니다. ANSI 모드는 SET SESSION TRANSACTION ANSI를 사용하여 설정됩니다.
트랜잭션은 BT 및 ET 문을 사용하여 실행할 수 있습니다.
조인 인덱스는 사용자가 직접 액세스 할 수 없습니다. 최적화 프로그램 만 액세스 할 수 있습니다.
중복 레코드는 대상 테이블로드에서 거부되고 UV 테이블에 삽입됩니다.
FALLBACK은 Teradata에서 AMP 오류를 처리하는 데 사용하는 보호 메커니즘입니다. 각 데이터 행에 대해 행의 다른 사본이 클러스터 내의 다른 AMP에 저장됩니다. AMP가 실패하면 FALLBACK AMP를 사용하여 해당 행에 액세스합니다.
FALLBACK은 CREATE TABLE 문을 사용하여 테이블을 생성하는 동안 또는 ALTER TABLE 문을 사용하여 테이블을 생성 한 후에 언급 할 수 있습니다.
쿼리의 중간 결과가 쿼리를 제출 한 사용자에 대해 설정된 AMP 스풀 공간 제한을 초과하면 스풀 공간 오류가 발생합니다.
SLEEP 명령은 Teradata가 연결 설정을 시도하기 전에 대기 시간을 지정합니다.
TENACITY 명령은 Teradata가 새 연결을 설정하기위한 총 대기 시간을 지정합니다.
BEGIN LOADING 및 END LOADING 문을 유지하고 FASTLOAD 스크립트를 제출하면됩니다. 다른 옵션은 테이블을 삭제하고 테이블을 다시 만드는 것입니다.
Teradata의 캐싱은 소스와 함께 작동하며 동일한 순서로 유지됩니다. 즉, 자주 변경되지 않습니다. 캐시는 일반적으로 응용 프로그램간에 공유됩니다. Teradata를 사용하는 추가 이점입니다.
RAID는 디스크 오류를 처리하기위한 보호 메커니즘입니다. Redundant Array of Independent Disks를 나타냅니다. RAID 1은 일반적으로 Teradata에서 사용됩니다.
보조 인덱스는 데이터에 액세스 할 수있는 대체 경로를 제공합니다. 전체 테이블 스캔을 방지하는 데 사용됩니다. 그러나 보조 인덱스에는 하위 테이블을 유지 관리하기위한 추가 물리적 구조가 필요하며 각 행에 대해 하위 테이블을 업데이트해야하므로 추가 I / O도 필요합니다.
Teradata에는 독점, 쓰기, 읽기 및 액세스의 네 가지 잠금이 있습니다.
잠금은 데이터베이스, 테이블 및 행의 세 가지 수준에서 적용 할 수 있습니다.
MVC (Multi Value Compression)를 사용하면 NULL을 포함하여 최대 255 개의 값을 압축 할 수 있습니다.
FastLoad는 64K 블록의 데이터를로드합니다. FastLoad에는 2 단계가 있습니다.
1 단계에서는 데이터를 64K 블록으로 가져와 대상 AMP로 보냅니다. 그런 다음 각 AMP는 행을 대상 AMP에 해시 재배포합니다.
2 단계에서 행은 행 해시 순서에 따라 정렬되고 대상 테이블에 기록됩니다.
MultiLoad 가져 오기에는 5 단계가 있습니다.
Phase 1 − 예비 단계 – 기본 설정 작업을 수행합니다.
Phase 2 − DML 트랜잭션 단계 – DML 문의 구문을 확인하고 Teradata 시스템으로 가져옵니다.
Phase 3 − 획득 단계 – 입력 데이터를 작업 테이블로 가져오고 테이블을 잠급니다.
Phase 4 − 적용 단계 – 모든 DML 작업을 적용합니다.
Phase 5 − 정리 단계 – 테이블 잠금을 해제합니다.
MULTILOAD DELETE는 블록의 레코드를 삭제하므로 더 빠릅니다. DELETE FROM은 행별로 삭제합니다.
저장 프로시 저는 하나 이상의 값을 반환하는 반면 매크로는 하나 이상의 행을 반환 할 수 있습니다. SQL 외에도 저장 프로 시저에는 SPL 문이 포함될 수 있습니다.
FastLoad와 MultiLoad는 모두 64K 블록의 데이터를로드하는 반면 BTEQ는 한 번에 한 행을 처리합니다.
FastExport는 데이터를 64K 블록으로 내보내는 반면 BTEQ는 한 번에 한 행을 내 보냅니다.
Teradata Parallel Transporter (TPT)는 데이터를로드 / 내보내기위한 유틸리티입니다. FastLoad, MultiLoad, BTEQ, TPUMP 및 FastExport의 모든 기능을 결합합니다.
영구 저널은 변경 사항을 적용하기 전이나 후에 데이터를 추적합니다. 이는 테이블을 특정 상태로 롤백하거나 롤 포워드하는 데 도움이됩니다. 영구 저널은 테이블 수준 또는 데이터베이스 수준에서 활성화 할 수 있습니다.
Teradata에서 각 AMP는 가상 디스크와 연결됩니다. 가상 디스크를 소유 한 AMP 만 해당 가상 디스크 내의 데이터에 액세스 할 수 있습니다. 이를 Shared Nothing Architecture라고합니다.
쿼리가 파티션 된 열을 사용하는 경우 파티션이 제거되어 성능이 크게 향상됩니다.
파티션은 다른 파티션을 제거하고 데이터를 포함하는 파티션에만 액세스합니다.
이전 파티션을 쉽게 삭제하고 새 파티션을 만들 수 있습니다.
예. 보조 인덱스에는 영구 공간이 필요한 하위 테이블이 필요합니다.
예. 파티션 된 기본 인덱스가 추가 될 때마다 각 행은 파티션 번호로 2 바이트 또는 8 바이트를 추가로 차지합니다.
Qualify = 2 조건으로 내림차순으로 지정된 열에 RANK 함수를 사용할 수 있습니다.
쿼리의 EXPLAIN 계획을 확인하여 더 많은 스풀 공간을 소비하는 단계를 식별하고 쿼리를 최적화 할 수 있습니다. 필터를 적용하여 처리중인 레코드 수를 줄이거 나 큰 쿼리를 여러 개의 작은 쿼리로 분할 할 수 있습니다.
EXPLAIN 명령이 쿼리에 대해 사용될 때 레코드를 검색하기위한 최적화 프로그램의 신뢰도를 지정합니다.
Teradata에는 높은 신뢰도, 중간 신뢰도 및 낮은 신뢰도의 세 가지 신뢰 수준이 있습니다.
NUSI와 FTS (Full Table Scan) 모두 모든 AMP에 액세스하지만 FTS는 AMP 내의 모든 블록에 액세스하는 반면 NUSI는 하위 테이블에 적격 행이 포함 된 경우에만 블록에 액세스합니다.
BTEQ 모드에서 SKIP 명령을 사용하여 레코드를 건너 뛸 수 있습니다.
BYTEINT. 1 바이트 만 차지하며 최대 +127까지 값을 저장할 수 있습니다.
- Unique Primary Index – 1 AMP를 통해
- 고유하지 않은 기본 인덱스를 통해 – 1 AMP
- Unique Secondary Index를 통해 – 2 개 AMP
- 고유하지 않은 보조 인덱스를 통해 – 모든 AMP
Clique는 노드 장애를 처리하기위한 보호 메커니즘입니다. 노드 그룹입니다. clique 내의 노드가 실패하면 vprocs (Parsing Engine 및 AMP)는 다른 노드로 마이그레이션하고 가상 디스크에서 읽기 / 쓰기 작업을 계속 수행합니다.
Teradata는 다양한 수준의 보호 메커니즘을 제공합니다.
Transient Journal − 트랜잭션 실패를 처리합니다.
Fallback − AMP 오류 처리.
Cliques − 노드 실패를 처리합니다.
RAID − 디스크 오류를 처리합니다.
Hot standby Node − 성능에 영향을주지 않고 노드 장애를 처리하고 다시 시작합니다.
ACTIVITYCOUNT는 BTEQ에서 이전 SQL 쿼리의 영향을받는 행 수를 제공합니다. ACTIVITYCOUNT 문이 삽입 문 뒤에 오는 경우 삽입 된 행 수를 반환합니다. ACTIVITYCOUNT 문이 select 문 뒤에 오는 경우 선택한 행 수를 반환합니다.
다음은 무엇입니까?
더 나아가 주제에 대해 수행 한 과거 과제를 살펴보고 자신있게 말할 수 있는지 확인할 수 있습니다. 당신이 더 신선하다면 면접관은 당신이 매우 복잡한 질문에 답할 것이라고 기대하지 않고 오히려 당신의 기본 개념을 매우 강하게 만들어야합니다.
둘째, 몇 가지 질문에 답할 수 없다면 그다지 중요하지 않지만 어떤 답을하든 자신있게 대답 했어야합니다. 그러니 인터뷰 중에 자신감을 느끼십시오. 우리는 tutorialspoint에서 좋은 면접관과 미래의 노력을 위해 최선을 다할 수 있기를 바랍니다. 건배 :-)