НЛП - поиск информации
Информационный поиск (IR) можно определить как программу, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, в частности текстовой информации. Система помогает пользователям найти нужную им информацию, но не дает явных ответов на вопросы. Он сообщает о существовании и местонахождении документов, которые могут содержать требуемую информацию. Документы, удовлетворяющие требованиям пользователя, называются соответствующими документами. Совершенная IR-система найдет только нужные документы.
С помощью следующей диаграммы мы можем понять процесс поиска информации (IR) -
Из приведенной выше диаграммы ясно, что пользователю, которому нужна информация, придется сформулировать запрос в форме запроса на естественном языке. Затем IR-система ответит, извлекая соответствующий вывод в форме документов о требуемой информации.
Классическая проблема в системе информационного поиска (ИИ)
Основная цель IR-исследования - разработать модель для извлечения информации из хранилищ документов. Здесь мы собираемся обсудить классическую проблему, названнуюad-hoc retrieval problem, относящиеся к ИК-системе.
При произвольном поиске пользователь должен ввести запрос на естественном языке, который описывает требуемую информацию. Затем IR-система вернет необходимые документы, связанные с желаемой информацией. Например, предположим, что мы ищем что-то в Интернете, и он дает несколько точных страниц, которые соответствуют нашему требованию, но могут быть и некоторые нерелевантные страницы. Это связано с проблемой специального поиска.
Аспекты специального поиска
Ниже приведены некоторые аспекты специального поиска, которые рассматриваются в исследовании IR.
Как пользователи с помощью обратной связи по релевантности могут улучшить исходную формулировку запроса?
Как реализовать объединение баз данных, т.е. как результаты из разных текстовых баз данных могут быть объединены в один набор результатов?
Как обращаться с частично поврежденными данными? Какие модели подходят для таких же?
Модель поиска информации (IR)
Математически модели используются во многих научных областях, имея целью понять некоторые явления в реальном мире. Модель поиска информации предсказывает и объясняет, что пользователь найдет в соответствии с заданным запросом. Модель IR - это в основном шаблон, который определяет вышеупомянутые аспекты процедуры поиска и состоит из следующего:
Макет для документов.
Модель для запросов.
Функция сопоставления, которая сравнивает запросы с документами.
Математически модель поиска состоит из -
D - Представительство для документов.
R - Представление для запросов.
F - Каркас моделирования для D, Q вместе с отношениями между ними.
R (q,di)- Функция подобия, которая упорядочивает документы по запросу. Его еще называют рейтингом.
Типы модели поиска информации (IR)
Модель информационной модели (IR) можно разделить на следующие три модели:
Классическая ИК-модель
Это самая простая и легкая в реализации модель IR. Эта модель основана на математических знаниях, которые также были легко распознаны и поняты. Boolean, Vector и Probabilistic - это три классические модели IR.
Неклассическая ИК-модель
Это полностью противоположно классической ИК-модели. Такие модели IR основаны на принципах, отличных от подобия, вероятности, булевых операций. Информационно-логическая модель, модель теории ситуаций и модели взаимодействия являются примерами неклассической IR-модели.
Альтернативная ИК-модель
Это усовершенствование классической ИК-модели с использованием некоторых специфических методов из других областей. Кластерная модель, нечеткая модель и модели скрытого семантического индексирования (LSI) являются примером альтернативной модели IR.
Конструктивные особенности информационно-поисковых (ИИ) систем
Давайте теперь узнаем об особенностях конструкции ИК-систем -
Инвертированный индекс
Первичная структура данных большинства IR-систем имеет форму инвертированного индекса. Мы можем определить инвертированный индекс как структуру данных, которая перечисляет для каждого слова все документы, которые его содержат, и частоту появления в документе. Это упрощает поиск «совпадений» слова запроса.
Остановить удаление слов
Стоп-слова - это часто используемые слова, которые вряд ли будут полезны для поиска. У них меньший смысловой вес. Все такие слова находятся в списке, называемом стоп-листом. Например, артикли «a», «an», «the» и такие предлоги, как «in», «of», «for», «at» и т. Д. Являются примерами стоп-слов. Размер инвертированного индекса можно значительно уменьшить с помощью стоп-листа. По закону Ципфа стоп-лист, состоящий из нескольких десятков слов, уменьшает размер инвертированного индекса почти вдвое. С другой стороны, иногда удаление стоп-слова может привести к удалению термина, который полезен для поиска. Например, если мы удалим букву «А» из «Витамин А», это не будет иметь никакого значения.
Стемминг
Стемминг, упрощенная форма морфологического анализа, представляет собой эвристический процесс извлечения базовой формы слов путем отсечения концов слов. Например, слова «смеяться», «смеется», «смеяться» будут связаны с корнем слова «смеяться».
В наших последующих разделах мы обсудим некоторые важные и полезные модели IR.
Булева модель
Это самая старая модель поиска информации (IR). Модель основана на теории множеств и булевой алгебре, где документы представляют собой наборы терминов, а запросы - это логические выражения для терминов. Булеву модель можно определить как -
D- Набор слов, т. Е. Терминов индексации, присутствующих в документе. Здесь каждый член либо присутствует (1), либо отсутствует (0).
Q - Логическое выражение, где термины - это термины индекса, а операторы - логические произведения - И, логическая сумма - ИЛИ и логическая разница - НЕ
F - Булева алгебра над наборами терминов, а также над наборами документов
Если мы говорим об обратной связи по релевантности, то в логической модели IR прогноз релевантности можно определить следующим образом:
R - Документ считается релевантным выражению запроса тогда и только тогда, когда он удовлетворяет выражению запроса как -
((˅) ˄ ˄ ˜ ℎ)
Мы можем объяснить эту модель термином запроса как недвусмысленное определение набора документов.
Например, термин запроса “economic” определяет набор документов, которые индексируются термином “economic”.
Итак, каков будет результат после объединения терминов с логическим оператором AND? Он будет определять набор документов, который меньше или равен наборам документов любого из отдельных терминов. Например, запрос с условиями“social” и “economic”создаст набор документов, проиндексированных с обоими условиями. Другими словами, документ установлен на пересечении обоих наборов.
Итак, каков будет результат после объединения терминов с помощью логического оператора ИЛИ? Он будет определять набор документов, который больше или равен наборам документов любого из отдельных терминов. Например, запрос с условиями“social” или же “economic” создаст набор документов, которые проиндексированы с помощью термина “social” или же “economic”. Другими словами, набор документов представляет собой объединение обоих наборов.
Преимущества булевого режима
Преимущества булевой модели заключаются в следующем:
Самая простая модель, в основе которой лежат наборы.
Легко понять и реализовать.
Он извлекает только точные совпадения
Это дает пользователю ощущение контроля над системой.
Недостатки булевой модели
Недостатки булевой модели следующие:
Функция подобия модели является логической. Следовательно, частичных совпадений не будет. Это может раздражать пользователей.
В этой модели использование логического оператора имеет гораздо большее влияние, чем критическое слово.
Язык запросов выразительный, но и сложный.
Нет ранжирования найденных документов.
Векторная модель пространства
В связи с указанными выше недостатками булевой модели Джерард Солтон и его коллеги предложили модель, основанную на критерии подобия Луна. Критерий сходства, сформулированный Луном, гласит: «Чем больше двух представлений согласовано в данных элементах и их распределении, тем выше будет вероятность того, что они представляют аналогичную информацию».
Чтобы лучше понять модель векторного пространства, обратите внимание на следующие важные моменты:
Индексные представления (документы) и запросы рассматриваются как векторы, встроенные в евклидово пространство большой размерности.
Мерой сходства вектора документа с вектором запроса обычно является косинус угла между ними.
Формула измерения косинусного сходства
Косинус - это нормализованное скалярное произведение, которое можно вычислить с помощью следующей формулы -
$$ Оценка \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \ :. q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2} $$
$$ Оценка \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: when \: d = q $$
$$ Оценка \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: when \: d \: and \: q \: share \: no \: items $$
Представление векторного пространства с запросом и документом
Запрос и документы представлены двумерным векторным пространством. Условияcar и insurance. В векторном пространстве есть один запрос и три документа.
Документом, получившим наивысший рейтинг в терминах «автомобиль» и «страхование», будет документ. d2 потому что угол между q и d2самый маленький. Причина этого в том, что и концепция автомобиля, и страховка являются заметными в d 2 и, следовательно, имеют большой вес. На другой стороне,d1 и d3 также упомяните оба термина, но в каждом случае один из них не является центральным термином в документе.
Взвешивание срока
Взвешивание терминов означает веса членов в векторном пространстве. Чем выше вес члена, тем сильнее влияние этого члена на косинус. Более важным элементам модели следует присвоить больший вес. Теперь возникает вопрос, как это смоделировать.
Один из способов сделать это - посчитать слова в документе как его вес термина. Однако, как вы думаете, будет ли это эффективным методом?
Другой метод, который более эффективен, - использовать term frequency (tfij), document frequency (dfi) и collection frequency (cfi).
Срок действия (tf ij )
Его можно определить как количество вхождений wi в dj. Информация, которая фиксируется частотой термина, - это то, насколько слово выделяется в данном документе или, другими словами, мы можем сказать, что чем выше частота термина, тем больше это слово является хорошим описанием содержания этого документа.
Документ Частота (df i )
Его можно определить как общее количество документов в коллекции, в которой встречается w i . Это показатель информативности. Семантически ориентированные слова будут встречаться в документе несколько раз, в отличие от семантически несфокусированных слов.
Частота сбора (см. I )
Его можно определить как общее количество вхождений wi в коллекции.
Математически $ df_ {i} \ leq cf_ {i} \: и \: \ sum_ {j} tf_ {ij} = cf_ {i} $
Формы взвешивания документов по частоте
Давайте теперь узнаем о различных формах частотного взвешивания документа. Формы описаны ниже -
Коэффициент частоты термина
Это также классифицируется как коэффициент частоты, что означает, что если термин t часто появляется в документе, тогда запрос, содержащий tдолжен получить этот документ. Мы можем комбинировать словаterm frequency (tfij) и document frequency (dfi) в один вес следующим образом -
$$ weight \ left (i, j \ right) = \ begin {cases} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {случаях } $$
Здесь N - общее количество документов.
Обратная частота документов (idf)
Это еще одна форма частотного взвешивания документа, часто называемая взвешиванием idf или обратным взвешиванием частоты документа. Важным моментом взвешивания idf является то, что редкость термина в коллекции является мерой его важности, а важность обратно пропорциональна частоте встречаемости.
Математически,
$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right) $$
$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$
Вот,
N = документы в коллекции
n t = документы, содержащие термин t
Улучшение пользовательских запросов
Основной целью любой системы поиска информации должна быть точность - создание соответствующих документов в соответствии с требованиями пользователя. Однако здесь возникает вопрос, как мы можем улучшить результат, улучшив стиль формирования запросов пользователя. Конечно, вывод любой IR-системы зависит от запроса пользователя, и хорошо отформатированный запрос даст более точные результаты. Пользователь может улучшить свой запрос с помощьюrelevance feedback, важный аспект любой ИК-модели.
Отзыв о релевантности
В качестве обратной связи по релевантности используются выходные данные, изначально возвращенные заданным запросом. Этот исходный вывод можно использовать для сбора информации о пользователе и определения того, подходит ли этот вывод для выполнения нового запроса. Отзывы можно классифицировать следующим образом -
Явная обратная связь
Его можно определить как обратную связь, полученную от значимых оценщиков. Эти оценщики также укажут релевантность документа, полученного в результате запроса. Чтобы повысить производительность поиска запроса, информацию обратной связи о релевантности необходимо интерполировать с исходным запросом.
Оценщики или другие пользователи системы могут явно указать релевантность, используя следующие системы релевантности:
Binary relevance system - Эта система обратной связи по релевантности указывает, что документ либо релевантен (1), либо нерелевантен (0) для данного запроса.
Graded relevance system- Система обратной связи с оцененной релевантностью указывает на релевантность документа для данного запроса на основе оценки с использованием цифр, букв или описаний. Описание может быть таким, как «нерелевантно», «в некоторой степени актуально», «очень актуально» или «актуально».
Неявная обратная связь
Это обратная связь, вытекающая из поведения пользователя. Поведение включает в себя время, в течение которого пользователь просматривает документ, какой документ выбран для просмотра, а какой нет, действия по просмотру и прокрутке страниц и т. Д. Одним из лучших примеров неявной обратной связи являетсяdwell time, который является мерой того, сколько времени пользователь тратит на просмотр страницы, на которую указывает ссылка в результатах поиска.
Псевдо-обратная связь
Это также называется слепой обратной связью. Это метод автоматического локального анализа. Ручная часть обратной связи по релевантности автоматизирована с помощью обратной связи по псевдорелевантности, так что пользователь получает улучшенную производительность поиска без расширенного взаимодействия. Основное преимущество этой системы обратной связи состоит в том, что она не требует оценщиков, как в системе обратной связи с явной релевантностью.
Рассмотрите следующие шаги для реализации этой обратной связи -
Step 1- Во-первых, результат, возвращаемый исходным запросом, должен восприниматься как релевантный результат. Диапазон релевантных результатов должен входить в топ 10-50 результатов.
Step 2 - Теперь выберите 20-30 лучших терминов из документов, используя, например, частоту термина (tf) - вес, обратную частоту документа (idf).
Step 3- Добавьте эти термины в запрос и сопоставьте возвращенные документы. Затем верните наиболее подходящие документы.