컴파일러-중간 코드 생성

소스 코드를 대상 기계 코드로 직접 변환 할 수 있습니다. 그렇다면 소스 코드를 중간 코드로 변환 한 다음 대상 코드로 변환해야하는 이유는 무엇입니까? 중간 코드가 필요한 이유를 살펴 보겠습니다.

  • 컴파일러가 중간 코드를 생성하는 옵션없이 소스 언어를 대상 기계 언어로 변환하는 경우, 각각의 새 기계에 대해 완전한 원시 컴파일러가 필요합니다.

  • 중간 코드는 모든 컴파일러에 대해 분석 부분을 동일하게 유지함으로써 모든 고유 한 기계에 대해 새로운 완전한 컴파일러의 필요성을 제거합니다.

  • 컴파일러의 두 번째 부분 인 합성은 대상 머신에 따라 변경됩니다.

  • 중간 코드에 코드 최적화 기술을 적용하여 코드 성능을 향상시키기 위해 소스 코드 수정 사항을 적용하는 것이 더 쉬워졌습니다.

중급 표현

중간 코드는 다양한 방식으로 표현 될 수 있으며 고유 한 이점이 있습니다.

  • High Level IR-고급 중간 코드 표현은 소스 언어 자체에 매우 가깝습니다. 소스 코드에서 쉽게 생성 할 수 있으며 코드 수정을 쉽게 적용하여 성능을 향상시킬 수 있습니다. 그러나 대상 기계 최적화의 경우 덜 선호됩니다.

  • Low Level IR -이것은 타겟 머신에 가까워서 레지스터와 메모리 할당, 명령어 세트 선택 등에 적합합니다. 머신 의존적 최적화에 좋습니다.

중간 코드는 특정 언어 (예 : Java 용 바이트 코드) 또는 언어 독립적 (3 주소 코드) 일 수 있습니다.

세 주소 코드

중간 코드 생성기는 주석이 달린 구문 트리의 형태로 이전 단계 인 의미 분석기로부터 입력을받습니다. 그 구문 트리는 예를 들어 접미사 표기법과 같은 선형 표현으로 변환 될 수 있습니다. 중간 코드는 기계 독립 코드 인 경향이 있습니다. 따라서 코드 생성기는 코드를 생성하기 위해 무제한의 메모리 저장소 (레지스터)를 가지고 있다고 가정합니다.

예를 들면 :

a = b + c * d;

중간 코드 생성기는이 표현식을 하위 표현식으로 분할 한 다음 해당 코드를 생성합니다.

r1 = c * d;
r2 = b + r1;
a = r2

r 대상 프로그램에서 레지스터로 사용됩니다.

3 개 주소 코드에는 표현식을 계산할 주소 위치가 최대 3 개 있습니다. 3 개 주소 코드는 쿼드 러플과 트리플의 두 가지 형태로 표현 될 수 있습니다.

쿼드 러플

쿼드 러플 프레젠테이션의 각 명령어는 연산자, arg1, arg2 및 결과의 4 개 필드로 나뉩니다. 위의 예는 아래에 4 중 형식으로 표시됩니다.

Op 인수 1 인수 2 결과
* r1
+ r1 r2
+ r2 r1 r3
= r3

트리플

트리플 프리젠 테이션의 각 명령어에는 op, arg1 및 arg2의 세 필드가 있습니다. 각 하위 표현식의 결과는 표현식의 위치로 표시됩니다. 트리플은 DAG 및 구문 트리와의 유사성을 나타냅니다. 식을 나타내는 동안 DAG와 동일합니다.

Op 인수 1 인수 2
*
+ (0)
+ (1) (0)
= (2)

결과는 위치에 따라 다르고 표현식의 순서 나 위치를 변경하면 문제가 발생할 수 있으므로 트리플은 최적화하는 동안 코드 이동성 문제에 직면합니다.

간접 트리플

이 표현은 트리플 표현보다 향상되었습니다. 위치 대신 포인터를 사용하여 결과를 저장합니다. 이를 통해 최적화 프로그램은 하위 표현식을 자유롭게 재배치하여 최적화 된 코드를 생성 할 수 있습니다.

선언

변수 또는 프로 시저를 사용하려면 먼저 선언해야합니다. 선언에는 메모리의 공간 할당과 기호 테이블의 유형 및 이름 입력이 포함됩니다. 프로그램은 대상 기계 구조를 염두에두고 코딩 및 설계 될 수 있지만 소스 코드를 대상 언어로 정확하게 변환하는 것이 항상 가능하지는 않습니다.

전체 프로그램을 프로 시저 및 하위 프로 시저의 모음으로 취하면 모든 이름을 프로 시저에 로컬로 선언 할 수 있습니다. 메모리 할당은 연속적인 방식으로 이루어지며 이름은 프로그램에서 선언 된 순서대로 메모리에 할당됩니다. 오프셋 변수를 사용하고 기본 주소를 나타내는 0 {offset = 0}으로 설정합니다.

소스 프로그래밍 언어와 대상 시스템 아키텍처는 이름이 저장되는 방식이 다를 수 있으므로 상대 주소 지정이 사용됩니다. 첫 번째 이름은 메모리 위치 0 {offset = 0}에서 시작하는 메모리가 할당되지만 나중에 선언되는 다음 이름은 첫 번째 이름 옆에 메모리가 할당되어야합니다.

Example:

정수 변수에는 2 바이트의 메모리가 할당되고 부동 변수에는 4 바이트의 메모리가 할당되는 C 프로그래밍 언어의 예가 있습니다.

int a;
float b;

Allocation process:
{offset = 0}

   int a;
   id.type = int
   id.width = 2

offset = offset + id.width 
{offset = 2}

   float b;
   id.type = float
   id.width = 4
   
offset = offset + id.width 
{offset = 6}

이 세부 사항을 기호 테이블에 입력하기 위해 프로 시저 입력을 사용할 수 있습니다. 이 방법은 다음과 같은 구조를 가질 수 있습니다.

enter(name, type, offset)

이 절차는 데이터 영역에서 유형 및 상대 주소 오프셋 으로 설정된 유형을 갖는 변수 name 에 대한 기호 테이블에 항목을 만들어야합니다 .