NLP-정보 검색
정보 검색 (IR)은 문서 저장소, 특히 텍스트 정보에서 정보의 조직, 저장, 검색 및 평가를 처리하는 소프트웨어 프로그램으로 정의 될 수 있습니다. 이 시스템은 사용자가 필요한 정보를 찾는 데 도움을 주지만 질문에 대한 답변을 명시 적으로 반환하지는 않습니다. 필요한 정보로 구성 될 수있는 문서의 존재와 위치를 알려줍니다. 사용자의 요구 사항을 충족하는 문서를 관련 문서라고합니다. 완벽한 IR 시스템은 관련 문서 만 검색합니다.
다음 다이어그램의 도움으로 정보 검색 (IR) 과정을 이해할 수 있습니다.
위의 다이어그램에서 정보가 필요한 사용자는 자연어로 쿼리 형식으로 요청을 작성해야합니다. 그런 다음 IR 시스템은 필요한 정보에 대한 관련 출력을 문서 형식으로 검색하여 응답합니다.
정보 검색 (IR) 시스템의 고전적 문제
정보 검색 연구의 주요 목표는 문서 저장소에서 정보를 검색하기위한 모델을 개발하는 것입니다. 여기서 우리는 고전적인 문제를 논의 할 것입니다.ad-hoc retrieval problem, IR 시스템 관련.
임시 검색에서 사용자는 필요한 정보를 설명하는 자연어로 쿼리를 입력해야합니다. 그런 다음 IR 시스템은 원하는 정보와 관련된 필수 문서를 반환합니다. 예를 들어, 우리가 인터넷에서 무언가를 검색하고 있고 그것이 우리의 요구 사항에 따라 관련이있는 정확한 페이지를 제공하지만 관련이없는 페이지도있을 수 있다고 가정합니다. 이는 임시 검색 문제 때문입니다.
임시 검색의 측면
다음은 IR 연구에서 다룬 임시 검색의 몇 가지 측면입니다.
관련성 피드백의 도움을받은 사용자가 쿼리의 원래 공식을 어떻게 개선 할 수 있습니까?
데이터베이스 병합을 구현하는 방법, 즉 서로 다른 텍스트 데이터베이스의 결과를 하나의 결과 집합으로 병합하는 방법은 무엇입니까?
부분적으로 손상된 데이터를 처리하는 방법은 무엇입니까? 동일한 모델에 적합한 모델은 무엇입니까?
정보 검색 (IR) 모델
수학적으로 모델은 현실 세계의 일부 현상을 이해하려는 목적을 가지고 많은 과학 분야에서 사용됩니다. 정보 검색 모델은 사용자가 주어진 쿼리와 관련하여 무엇을 찾을 수 있는지 예측하고 설명합니다. 정보 검색 모델은 기본적으로 위에서 언급 한 검색 절차의 측면을 정의하는 패턴이며 다음과 같이 구성됩니다.
문서 모델.
쿼리 모델.
쿼리를 문서와 비교하는 일치 함수입니다.
수학적으로 검색 모델은 다음으로 구성됩니다.
D − 문서 표현.
R − 질의에 대한 표현.
F − D, Q에 대한 모델링 프레임 워크와 이들 간의 관계.
R (q,di)− 질의와 관련하여 문서를 정렬하는 유사성 기능. 순위라고도합니다.
정보 검색 (IR) 모델의 유형
정보 모델 (IR) 모델은 다음 세 가지 모델로 분류 할 수 있습니다.
클래식 IR 모델
가장 간단하고 구현하기 쉬운 IR 모델입니다. 이 모델은 쉽게 인식되고 이해되는 수학적 지식을 기반으로합니다. Boolean, Vector 및 Probabilistic은 세 가지 고전적 IR 모델입니다.
비 고전적 IR 모델
기존 IR 모델과는 완전히 반대입니다. 이러한 종류의 IR 모델은 유사성, 확률, 부울 연산 이외의 원칙을 기반으로합니다. 정보 논리 모델, 상황 이론 모델 및 상호 작용 모델은 비 고전적 정보 검색 모델의 예입니다.
대체 IR 모델
다른 분야의 특정 기술을 사용하여 고전적인 IR 모델을 강화한 것입니다. 클러스터 모델, 퍼지 모델 및 LSI (Latent Semantic Indexing) 모델은 대체 IR 모델의 예입니다.
정보 검색 (IR) 시스템의 설계 기능
이제 IR 시스템의 설계 기능에 대해 알아 보겠습니다.
반전 된 인덱스
대부분의 IR 시스템의 기본 데이터 구조는 역 인덱스 형식입니다. 역 인덱스를 모든 단어에 대해 포함 된 모든 문서와 문서에서 발생하는 빈도를 나열하는 데이터 구조로 정의 할 수 있습니다. 검색어의 '조회수'를 쉽게 검색 할 수 있습니다.
중지 단어 제거
불용어는 검색에 유용 할 것 같지 않은 빈도가 높은 단어입니다. 의미 론적 가중치가 적습니다. 이러한 모든 종류의 단어는 중지 목록이라는 목록에 있습니다. 예를 들어, 관사 "a", "an", "the"및 "in", "of", "for", "at"등과 같은 전치사가 불용어의 예입니다. 역 인덱스의 크기는 중지 목록을 통해 크게 줄일 수 있습니다. Zipf의 법칙에 따라 수십 단어를 포함하는 중지 목록은 역 색인의 크기를 거의 절반으로 줄입니다. 반면에 불용어를 제거하면 검색에 유용한 용어가 제거 될 수 있습니다. 예를 들어“Vitamin A”에서 알파벳“A”를 제거하면 의미가 없습니다.
어간
형태 학적 분석의 단순화 된 형태 인 형태소 분석은 단어의 끝을 잘라내어 기본 형태의 단어를 추출하는 휴리스틱 프로세스입니다. 예를 들어, 웃음, 웃음, 웃음이라는 단어는 어원 웃음이라는 어원에서 유래됩니다.
다음 섹션에서는 중요하고 유용한 IR 모델에 대해 설명합니다.
부울 모델
가장 오래된 정보 검색 (IR) 모델입니다. 이 모델은 문서가 용어 집합이고 쿼리가 용어에 대한 부울 표현식 인 집합 이론과 부울 대수를 기반으로합니다. 부울 모델은 다음과 같이 정의 할 수 있습니다.
D− 단어 집합, 즉 문서에있는 색인 용어. 여기서 각 용어는 존재 (1) 또는 부재 (0)입니다.
Q − 항은 인덱스 용어이고 연산자는 논리 곱 인 부울 식 − AND, 논리합 − OR 및 논리 차 − NOT
F − 용어 세트 및 문서 세트에 대한 부울 대수
관련성 피드백에 대해 이야기하면 부울 IR 모델에서 관련성 예측을 다음과 같이 정의 할 수 있습니다.
R − 문서가 다음과 같은 쿼리 표현식을 충족하는 경우에만 쿼리 표현식과 관련된 것으로 예측됩니다.
((˅) ˄ ˄ ˜ ℎ)
이 모델은 일련의 문서에 대한 명확한 정의로서 쿼리 용어로 설명 할 수 있습니다.
예를 들어 검색어 “economic” 용어로 인덱싱되는 문서 세트를 정의합니다. “economic”.
이제 부울 AND 연산자로 용어를 결합한 결과는 무엇입니까? 단일 용어의 문서 세트보다 작거나 같은 문서 세트를 정의합니다. 예를 들어, 검색어가 포함 된“social” 과 “economic”두 용어로 인덱싱 된 문서 세트를 생성합니다. 즉, 두 세트가 교차하는 문서 세트입니다.
이제 항을 부울 OR 연산자로 결합하면 어떤 결과가 나올까요? 단일 용어의 문서 세트보다 크거나 같은 문서 세트를 정의합니다. 예를 들어, 검색어가 포함 된“social” 또는 “economic” 두 용어 중 하나로 인덱싱 된 문서 세트를 생성합니다. “social” 또는 “economic”. 즉, 두 세트를 합친 문서 세트입니다.
부울 모드의 장점
부울 모델의 장점은 다음과 같습니다.
세트를 기반으로하는 가장 간단한 모델입니다.
이해하고 구현하기 쉽습니다.
정확히 일치하는 항목 만 검색합니다.
사용자에게 시스템에 대한 제어 감각을 제공합니다.
부울 모델의 단점
부울 모델의 단점은 다음과 같습니다.
모델의 유사성 함수는 부울입니다. 따라서 부분 일치는 없습니다. 이것은 사용자에게 성 가실 수 있습니다.
이 모델에서 부울 연산자 사용은 중요한 단어보다 훨씬 더 많은 영향을 미칩니다.
쿼리 언어는 표현력이 뛰어나지 만 복잡합니다.
검색된 문서에 대한 순위가 없습니다.
벡터 공간 모델
Boolean 모델의 위의 단점으로 인해 Gerard Salton과 그의 동료들은 Luhn의 유사성 기준에 기반한 모델을 제안했습니다. Luhn이 공식화 한 유사성 기준은“주어진 요소와 그 분포에서 두 가지 표현이 더 많이 동의할수록 유사한 정보를 나타낼 확률이 높아진다”고 말합니다.
벡터 공간 모델에 대해 더 많이 이해하려면 다음과 같은 중요한 사항을 고려하십시오.
인덱스 표현 (문서) 및 쿼리는 고차원 유클리드 공간에 포함 된 벡터로 간주됩니다.
문서 벡터와 쿼리 벡터의 유사성 측정 값은 일반적으로 이들 사이의 각도에 대한 코사인입니다.
코사인 유사성 측정 공식
코사인은 정규화 된 내적이며 다음 공식을 사용하여 계산할 수 있습니다.
$$Score \lgroup \vec{d} \vec{q} \rgroup= \frac{\sum_{k=1}^m d_{k}\:.q_{k}}{\sqrt{\sum_{k=1}^m\lgroup d_{k}\rgroup^2}\:.\sqrt{\sum_{k=1}^m}m\lgroup q_{k}\rgroup^2 }$$
$$Score \lgroup \vec{d} \vec{q}\rgroup =1\:when\:d =q $$
$$Score \lgroup \vec{d} \vec{q}\rgroup =0\:when\:d\:and\:q\:share\:no\:items$$
쿼리 및 문서를 사용한 벡터 공간 표현
쿼리와 문서는 2 차원 벡터 공간으로 표현됩니다. 용어는car 과 insurance. 벡터 공간에는 하나의 쿼리와 세 개의 문서가 있습니다.
자동차 및 보험이라는 용어에 대한 응답으로 최상위 문서가 문서가됩니다. d2 사이의 각도 때문에 q 과 d2가장 작습니다. 그 이유는 자동차와 보험 개념이 모두 d 2 에서 두드러 져서 가중치가 높기 때문입니다. 다른 쪽에서는d1 과 d3 또한 두 용어를 모두 언급하지만 각 경우에 둘 중 하나는 문서에서 중심적으로 중요한 용어가 아닙니다.
용어 가중치
용어 가중치는 벡터 공간에서 용어에 대한 가중치를 의미합니다. 항의 가중치가 높을수록 항이 코사인에 미치는 영향이 커집니다. 모델에서 더 중요한 용어에 더 많은 가중치를 할당해야합니다. 이제 여기서 제기되는 질문은 우리가 이것을 어떻게 모델링 할 수 있는가입니다.
이를 수행하는 한 가지 방법은 문서의 단어를 용어 가중치로 계산하는 것입니다. 그러나 효과적인 방법이라고 생각하십니까?
더 효과적인 또 다른 방법은 term frequency (tfij), document frequency (dfi) 과 collection frequency (cfi).
기간 빈도 (tf ij )
발생 횟수로 정의 할 수 있습니다. wi 에 dj. 용어 빈도로 캡처되는 정보는 주어진 문서 내에서 단어가 얼마나 두드러 지는지 또는 즉, 용어 빈도가 높을수록 해당 단어가 해당 문서의 내용에 대한 좋은 설명이라고 말할 수 있습니다.
문서 빈도 (df i )
w i 가 발생 하는 컬렉션의 총 문서 수로 정의 할 수 있습니다 . 정보 성의 지표입니다. 의미에 초점을 맞춘 단어는 의미에 초점이 맞지 않는 단어와 달리 문서에서 여러 번 나타납니다.
수집 빈도 ( i 참조 )
총 발생 횟수로 정의 할 수 있습니다. wi 컬렉션에서.
수학적으로 $df_{i}\leq cf_{i}\:and\:\sum_{j}tf_{ij} = cf_{i}$
문서 빈도 가중치 형식
이제 문서 빈도 가중치의 다양한 형태에 대해 알아 보겠습니다. 양식은 아래에 설명되어 있습니다-
용어 주파수 요인
이것은 또한 빈도 요인이라는 용어로 분류됩니다. 즉, 용어가 t 문서에 자주 나타나는 다음 t해당 문서를 검색해야합니다. 단어를 결합 할 수 있습니다.term frequency (tfij) 과 document frequency (dfi) 다음과 같이 단일 가중치로-
$$weight \left ( i,j \right ) =\begin{cases}(1+log(tf_{ij}))log\frac{N}{df_{i}}\:if\:tf_{i,j}\:\geq1\\0 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\: if\:tf_{i,j}\:=0\end{cases}$$
여기서 N은 총 문서 수입니다.
역 문서 빈도 (idf)
이것은 문서 빈도 가중치의 또 다른 형태이며 종종 idf 가중치 또는 역 문서 빈도 가중치라고합니다. idf 가중치의 중요한 점은 컬렉션 전체에서 용어의 희소성이 그 중요성의 척도이고 중요성이 발생 빈도에 반비례한다는 것입니다.
수학적으로
$$idf_{t} = log\left(1+\frac{N}{n_{t}}\right)$$
$$idf_{t} = log\left(\frac{N-n_{t}}{n_{t}}\right)$$
여기,
N = 컬렉션의 문서
n t = 용어 t를 포함하는 문서
사용자 쿼리 개선
정보 검색 시스템의 기본 목표는 정확성이어야합니다. 사용자의 요구 사항에 따라 관련 문서를 생성하는 것입니다. 그러나 여기서 제기되는 질문은 사용자의 쿼리 형성 스타일을 개선하여 출력을 개선 할 수있는 방법입니다. 확실히 모든 IR 시스템의 출력은 사용자의 쿼리에 따라 다르며 올바른 형식의 쿼리는 더 정확한 결과를 생성합니다. 사용자는 다음을 통해 쿼리를 개선 할 수 있습니다.relevance feedback, IR 모델의 중요한 측면입니다.
관련성 피드백
관련성 피드백은 주어진 쿼리에서 처음 반환 된 출력을 가져옵니다. 이 초기 출력을 사용하여 사용자 정보를 수집하고 해당 출력이 새 쿼리 수행과 관련이 있는지 여부를 알 수 있습니다. 피드백은 다음과 같이 분류 할 수 있습니다.
노골적인 피드백
관련성 평가자로부터 얻은 피드백으로 정의 할 수 있습니다. 이러한 평가자는 쿼리에서 검색된 문서의 관련성을 나타냅니다. 쿼리 검색 성능을 향상 시키려면 관련성 피드백 정보를 원래 쿼리와 보간해야합니다.
평가자 또는 시스템의 다른 사용자는 다음 관련성 시스템을 사용하여 관련성을 명시 적으로 나타낼 수 있습니다.
Binary relevance system −이 관련성 피드백 시스템은 문서가 주어진 쿼리와 관련이 있거나 (1) 관련이 없음 (0)임을 나타냅니다.
Graded relevance system− 등급별 관련성 피드백 시스템은 숫자, 문자 또는 설명을 사용하여 등급을 기준으로 주어진 쿼리에 대한 문서의 관련성을 나타냅니다. 설명은 "관련성 없음", "다소 관련성 있음", "매우 관련성 있음"또는 "관련성 있음"과 같을 수 있습니다.
암시 적 피드백
사용자 행동에서 유추 된 피드백입니다. 이 동작에는 사용자가 문서를 보는 데 소비 한 시간,보기 위해 선택한 문서와 그렇지 않은 문서, 페이지 탐색 및 스크롤 작업 등이 포함됩니다. 암시 적 피드백의 가장 좋은 예 중 하나는 다음과 같습니다.dwell time, 사용자가 검색 결과에 연결된 페이지를 보는 데 소비하는 시간을 측정합니다.
의사 피드백
블라인드 피드백이라고도합니다. 자동 로컬 분석 방법을 제공합니다. 관련성 피드백의 수동 부분은 의사 관련성 피드백의 도움으로 자동화되어 사용자가 확장 된 상호 작용없이 검색 성능을 향상시킬 수 있습니다. 이 피드백 시스템의 주요 장점은 명시 적 관련성 피드백 시스템과 같이 평가자가 필요하지 않다는 것입니다.
이 피드백을 구현하려면 다음 단계를 고려하십시오.
Step 1− 먼저 초기 질의에서 반환 된 결과를 관련 결과로 가져와야합니다. 관련 결과의 범위는 상위 10-50 개 결과 여야합니다.
Step 2 − 이제 용어 빈도 (tf)-역 문서 빈도 (idf) 가중치를 사용하여 문서에서 상위 20-30 개 용어를 선택합니다.
Step 3− 이러한 용어를 쿼리에 추가하고 반환 된 문서와 일치시킵니다. 그런 다음 가장 관련성이 높은 문서를 반환하십시오.