자연어 처리-시작
이 장에서는 자연어 처리의 자연어 시작에 대해 설명합니다. 먼저 자연어 문법이 무엇인지 먼저 이해합시다.
자연어 문법
언어학에서 언어는 임의의 음성 기호 그룹입니다. 우리는 언어가 창의적이며 규칙에 의해 지배되며 타고난 동시에 보편적이라고 말할 수 있습니다. 반면에 그것은 인간적이기도합니다. 언어의 본질은 사람마다 다릅니다. 언어의 본질에 대해 많은 오해가 있습니다. 그래서 모호한 용어의 의미를 이해하는 것이 매우 중요합니다.‘grammar’. 언어학에서 문법이라는 용어는 언어가 작동하는 도움을 받아 규칙 또는 원칙으로 정의 될 수 있습니다. 넓은 의미에서 문법을 두 가지 범주로 나눌 수 있습니다.
설명 문법
언어학과 문법 학자가 화자의 문법을 공식화하는 일련의 규칙을 서술 문법이라고합니다.
관점 문법
그것은 언어의 정확성 표준을 유지하려는 매우 다른 문법 감각입니다. 이 범주는 언어의 실제 작동과는 거의 관련이 없습니다.
언어의 구성 요소
연구 언어는 언어 조사의 임의의 부분뿐만 아니라 관습적인 상호 관련된 구성 요소로 나뉩니다. 이러한 구성 요소에 대한 설명은 다음과 같습니다.
음운론
언어의 첫 번째 구성 요소는 음운론입니다. 특정 언어의 음성을 연구하는 것입니다. 단어의 기원은 '전화'가 소리 또는 음성을 의미하는 그리스어로 추적 될 수 있습니다. 음운학의 하위 부문 인 음성학은 생산, 지각 또는 물리적 특성의 관점에서 인간 언어의 음성 소리를 연구하는 것입니다. IPA (International Phonetic Alphabet)는 음운학을 공부하면서 사람의 소리를 규칙적으로 표현하는 도구입니다. IPA에서 모든 서면 기호는 단 하나의 음성을 나타내며 그 반대의 경우도 마찬가지입니다.
음소
언어에서 한 단어를 다른 단어와 구별하는 소리 단위 중 하나로 정의 될 수 있습니다. 언어학에서 음소는 슬래시 사이에 기록됩니다. 예 : 음소/k/ 키트, 촌극과 같은 단어에서 발생합니다.
형태
그것은 언어의 두 번째 구성 요소입니다. 특정 언어에서 단어의 구조와 분류에 대한 연구입니다. 이 단어의 기원은 그리스어로 '모프'라는 단어가 '형태'를 의미합니다. 형태론은 언어의 단어 형성 원리를 고려합니다. 즉, 소리가 접두사, 접미사 및 어근과 같은 의미있는 단위로 결합되는 방식입니다. 또한 단어를 품사로 그룹화하는 방법도 고려합니다.
Lexeme
언어학에서 한 단어가 취하는 일련의 형태에 해당하는 형태 학적 분석의 추상 단위를 lexeme이라고합니다. 어휘가 문장에서 사용되는 방식은 문법 범주에 따라 결정됩니다. Lexeme은 개별 단어 또는 여러 단어 일 수 있습니다. 예를 들어 talk라는 단어는 talks, talked 및 talk와 같은 많은 문법적 변형이있을 수있는 개별 단어 lexeme의 예입니다. 다중 단어 어휘는 하나 이상의 직교 단어로 구성 될 수 있습니다. 예를 들어, 말하기, 풀 스루 등이 여러 단어로 된 어휘의 예입니다.
통사론
그것은 언어의 세 번째 구성 요소입니다. 단어의 순서와 배열을 더 큰 단위로 연구하는 것입니다. 이 단어는 그리스어로 추적 될 수 있는데, 여기서 suntassein이라는 단어는 '정돈하다'를 의미합니다. 문장의 유형과 구조, 절, 구절을 연구합니다.
의미론
그것은 언어의 네 번째 구성 요소입니다. 의미가 전달되는 방식에 대한 연구입니다. 의미는 외부 세계와 관련이 있거나 문장의 문법과 관련 될 수 있습니다. 이 단어는 그리스어로 추적 될 수 있으며, 여기서 semainein이라는 단어는 '의미하다', '보여준다', '신호'를 의미합니다.
실용 학
언어의 다섯 번째 구성 요소입니다. 언어의 기능과 문맥에서의 사용에 대한 연구입니다. 단어의 기원은 'pragma'라는 단어가 '행동', 'affair'를 의미하는 그리스어로 추적 될 수 있습니다.
문법 범주
문법 범주는 언어 문법 내의 단위 또는 기능 클래스로 정의 될 수 있습니다. 이러한 단위는 언어의 구성 요소이며 공통된 특성 집합을 공유합니다. 문법 범주는 문법 기능이라고도합니다.
문법 범주 목록은 다음과 같습니다.
번호
가장 간단한 문법 범주입니다. 이 범주와 관련된 단수 및 복수의 두 가지 용어가 있습니다. 단수는 '하나'의 개념이고 복수는 '하나 이상'의 개념입니다. 예를 들어, 개 / 개, this / these.
성별
문법적 성별은 개인 대명사와 3 인칭의 변형으로 표현됩니다. 문법적 성별의 예는 단수입니다. he, she, it; 1 인칭과 2 인칭 형태-나, 우리와 당신; 3 인칭 복수형은 공통 성별 또는 중성 성별입니다.
사람
또 다른 간단한 문법 범주는 사람입니다. 이에 따라 다음 세 가지 용어가 인식됩니다.
1st person − 말하는 사람이 1 인칭으로 인식됩니다.
2nd person − 듣는 사람 또는 말한 사람은 두 번째 사람으로 인식됩니다.
3rd person − 우리가 말하는 사람 또는 사물이 3 인칭으로 인식됩니다.
케이스
가장 어려운 문법 범주 중 하나입니다. 이것은 명사구 (NP)의 기능 또는 명사구와 동사 또는 문장의 다른 명사구와의 관계에 대한 표시로 정의 될 수 있습니다. 개인 및 의문 대명사로 표현되는 다음 세 가지 경우가 있습니다.
Nominative case− 주제의 기능입니다. 예를 들어, 나, 우리, 당신, 그, 그녀, 그것, 그들과 누가 지명 적입니다.
Genitive case− 소유자의 기능입니다. 예를 들어, my / mine, our / ours, his, her / hers, its, their / theirs, which are genitive.
Objective case− 객체의 기능입니다. 예를 들어, 나, 우리, 당신, 그, 그녀, 객관적인 그들.
정도
이 문법 범주는 형용사 및 부사와 관련이 있습니다. 다음과 같은 세 가지 용어가 있습니다.
Positive degree− 품질을 표현합니다. 예를 들어 크고 빠르며 아름다운 것은 양의 정도입니다.
Comparative degree− 두 항목 중 하나에서 품질의 더 큰 정도 또는 강도를 표현합니다. 예를 들어, 더 크고 빠르며 더 아름다운 것은 비교 정도입니다.
Superlative degree− 3 개 이상의 항목 중 하나에서 품질의 가장 큰 정도 또는 강도를 표현합니다. 예를 들어, 가장 크고 가장 빠르고 가장 아름다운 것은 최상급입니다.
명확함과 무한함
이 두 개념은 매우 간단합니다. 우리가 알고있는 명확성은 말하는 사람이나 듣는 사람이 알고 있거나 친숙하거나 식별 할 수있는 지시 대상을 나타냅니다. 반면에 무기한은 알려지지 않았거나 익숙하지 않은 지시 대상을 나타냅니다. 개념은 명사와 기사의 동시 발생에서 이해할 수 있습니다.
definite article-
indefinite article− a / an
시제
이 문법 범주는 동사와 관련이 있으며 행동 시간의 언어 적 표시로 정의 할 수 있습니다. 시제는 말하는 순간에 대한 사건의 시간을 나타 내기 때문에 관계를 설정합니다. 일반적으로 다음 세 가지 유형이 있습니다.
Present tense− 현재 순간의 행동 발생을 나타냅니다. 예를 들어, Ram은 열심히 일합니다.
Past tense− 현재 순간 이전의 행동 발생을 나타냅니다. 예를 들어, 비가 내 렸습니다.
Future tense− 현재 순간 이후의 행동 발생을 나타냅니다. 예를 들어 비가 올 것입니다.
양상
이 문법 범주는 이벤트의 관점으로 정의 될 수 있습니다. 다음 유형이 될 수 있습니다-
Perfective aspect− 관점은 전체적으로 취해지고 측면에서 완전합니다. 예를 들어, 다음과 같은 단순 과거형yesterday I met my friend, 영어로 이벤트를 완전하고 전체적으로 보는 측면에서 완벽합니다.
Imperfective aspect− 관점은 측면에서 진행 중이고 불완전한 것으로 간주됩니다. 예를 들어, 현재 분사 시제는 다음과 같습니다.I am working on this problem, 영어에서는 이벤트를 불완전하고 진행중인 것으로 간주하므로 측면에서 불완전합니다.
기분
이 문법 범주는 정의하기가 조금 어렵지만, 말하는 사람이 말하는 내용에 대한 화자의 태도를 나타내는 것으로 간단히 표현할 수 있습니다. 동사의 문법적 특징이기도합니다. 그것은 문법적 시제 및 문법적 측면과 구별됩니다. 기분의 예는 지시적, 의문 적, 명령 적, 금지 적 명령, 가정적, 잠재력, 선택적, 동명사 및 분사입니다.
협정
콩코드라고도합니다. 관련된 다른 단어에 따라 단어가 변할 때 발생합니다. 즉, 다른 단어 또는 품사간에 일부 문법 범주의 값이 일치하도록 만드는 작업이 포함됩니다. 다음은 다른 문법 범주를 기반으로 한 계약입니다-
Agreement based on Person− 주어와 동사의 일치입니다. 예를 들어, 우리는 항상 "I am"및 "He is"를 사용하지만 "He am"및 "I is"는 사용하지 않습니다.
Agreement based on Number−이 합의는 주어와 동사 사이에 있습니다. 이 경우 1 인칭 단수, 2 인칭 복수 등에 대한 특정 동사 형태가 있습니다. 예를 들어, 1 인칭 단수 : I really am, 2nd person plural : We really are, 3rd person singular : The boy sings, 3rd person plural : The boys sing.
Agreement based on Gender− 영어에서는 대명사와 선행사간에 성별이 일치합니다. 예를 들어, 그는 목적지에 도달했습니다. 배는 목적지에 도착했습니다.
Agreement based on Case− 이러한 종류의 동의는 영어의 중요한 특징이 아닙니다. 예를 들어, 누가 먼저 왔습니까? 그 또는 그의 여동생?
음성 언어 구문
문어체 영어와 구어체 영문법에는 많은 공통적 인 특징이 있지만 그와 함께 여러 측면에서도 다릅니다. 다음 기능은 구어와 작문 영문법을 구별합니다-
불일치 및 수리
이 놀라운 기능은 말하기와 쓰기 영문법을 서로 다르게 만듭니다. 그것은 개별적으로 불일치 현상으로 알려져 있으며 총체적으로 수리 현상으로 알려져 있습니다. Disfluencies는 다음의 사용을 포함합니다-
Fillers words− 때때로 문장 사이에 필러 단어를 사용합니다. 필러 일시 중지 필러라고합니다. 그러한 단어의 예는 어와 음입니다.
Reparandum and repair− 문장 사이에 반복되는 단어 부분을 reparandum이라고합니다. 같은 세그먼트에서 변경된 단어를 수리라고합니다. 이것을 이해하기 위해 다음 예제를 고려하십시오-
Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?
위의 문장에서 편도 비행은 수리이며 편도 비행은 수리입니다.
재시작
필러가 일시 중지 된 후 다시 시작됩니다. 예를 들어, 위 문장에서 스피커가 편도 항공편에 대해 묻기 시작한 다음 중지하고 필러 일시 중지로 자신을 수정 한 다음 편도 요금에 대해 질문을 다시 시작할 때 재시작이 발생합니다.
단어 조각
때때로 우리는 더 작은 단어 조각으로 문장을 말합니다. 예를 들면wwha-what is the time? 여기에 단어 w-wha 단어 조각입니다.