НЛП - Устранение неоднозначности слов

Мы понимаем, что слова имеют разные значения в зависимости от контекста их использования в предложении. Если мы говорим о человеческих языках, то они тоже неоднозначны, потому что многие слова можно интерпретировать по-разному, в зависимости от контекста их появления.

Устранение неоднозначности смысла слова при обработке естественного языка (NLP) может быть определено как способность определять, какое значение слова активируется при использовании слова в конкретном контексте. Лексическая двусмысленность, синтаксическая или семантическая, - одна из самых первых проблем, с которыми сталкивается любая система НЛП. Тегеры части речи (POS) с высоким уровнем точности могут решить синтаксическую неоднозначность Word. С другой стороны, проблема разрешения семантической неоднозначности называется WSD (устранение неоднозначности смысла слов). Устранение семантической неоднозначности сложнее, чем устранение синтаксической неоднозначности.

Например, рассмотрим два примера различных значений слова “bass” -

  • Я слышу басы.

  • Он любит есть жареного окуня.

Возникновение слова bassясно обозначает отчетливое значение. В первом предложении это означаетfrequency а во-вторых, это значит fish. Следовательно, если WSD устранит неоднозначность, то правильное значение приведенных выше предложений может быть присвоено следующим образом:

  • Я слышу басовый / частотный звук.

  • Он любит есть жареного окуня / рыбу.

Оценка WSD

Оценка WSD требует следующих двух входных данных -

Словарь

Самым первым входом для оценки WSD является словарь, который используется для определения смыслов, которые необходимо устранить.

Тестовый корпус

Еще один ввод, требуемый WSD, - это аннотированный тестовый корпус, который имеет целевые или правильные чувства. Тестовые корпуса могут быть двух типов & minsu;

  • Lexical sample - Этот вид корпусов используется в системе, где требуется устранить неоднозначность небольшого набора слов.

  • All-words - Этот вид корпусов используется в системе, где ожидается устранение неоднозначности всех слов в фрагменте текущего текста.

Подходы и методы устранения неоднозначности слов (WSD)

Подходы и методы WSD классифицируются в зависимости от источника знаний, используемых при устранении неоднозначности.

Давайте теперь посмотрим на четыре обычных метода WSD -

Методы на основе словаря или знаний

Как следует из названия, для устранения неоднозначности эти методы в первую очередь полагаются на словари, сокровища и базу лексических знаний. Они не используют вещественные доказательства для устранения неоднозначности. Метод Леска - это основанный на словарях метод, представленный Майклом Леском в 1986 году. Определение Леска, на котором основан алгоритм Леска, выглядит следующим образом:“measure overlap between sense definitions for all words in context”. Однако в 2000 году Килгаррифф и Розенсвейг дали упрощенное определение Леска как“measure overlap between sense definitions of word and current context”, что также означает определение правильного значения для одного слова за раз. Здесь текущий контекст - это набор слов в окружающем предложении или абзаце.

Контролируемые методы

Для устранения неоднозначности методы машинного обучения используют для обучения корпуса с смысловыми аннотациями. Эти методы предполагают, что контекст сам по себе может предоставить достаточно свидетельств, чтобы устранить неоднозначность смысла. В этих методах слова «знание» и «рассуждение» считаются ненужными. Контекст представлен как набор «характеристик» слов. Он также включает информацию об окружающих словах. Машинное обучение опорных векторов и обучение на основе памяти - наиболее успешные подходы к обучению с учителем в WSD. Эти методы основаны на значительном количестве корпусов, помеченных вручную смысловыми метками, создание которых очень дорого.

Полу-контролируемые методы

Из-за отсутствия учебного корпуса большинство алгоритмов устранения неоднозначности смысла слов используют полууправляемые методы обучения. Это связано с тем, что полу-контролируемые методы используют как помеченные, так и немаркированные данные. Эти методы требуют очень небольшого количества аннотированного текста и большого количества простого неаннотированного текста. Техника, которая используется полууправляемыми методами, - это загрузка из исходных данных.

Неконтролируемые методы

Эти методы предполагают, что похожие смыслы возникают в аналогичном контексте. Вот почему чувства могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста. Эта задача называется индукцией смысла слова или различением. Неконтролируемые методы имеют большой потенциал для преодоления узких мест в получении знаний из-за отсутствия зависимости от ручных усилий.

Приложения устранения неоднозначности слов (WSD)

Устранение неоднозначности слов (WSD) применяется почти во всех приложениях языковых технологий.

Давайте теперь посмотрим на масштабы WSD -

Машинный перевод

Машинный перевод или машинный перевод - наиболее очевидное применение WSD. В машинном переводе лексический выбор слов, которые имеют разные переводы для разных значений, выполняется WSD. Смыслы в машинном переводе представлены в виде слов на целевом языке. Большинство систем машинного перевода не используют явный модуль WSD.

Информационный поиск (IR)

Информационный поиск (IR) можно определить как программу, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, в частности текстовой информации. Система в основном помогает пользователям найти необходимую им информацию, но не дает явных ответов на вопросы. WSD используется для разрешения неоднозначности запросов, предоставляемых системе IR. Как и в случае с MT, текущие системы IR не используют модуль WSD явно и полагаются на концепцию, согласно которой пользователь вводит в запросе достаточно контекста, чтобы получать только соответствующие документы.

Текстовый анализ и извлечение информации (IE)

В большинстве приложений WSD необходим для точного анализа текста. Например, WSD помогает интеллектуальной системе сбора данных отмечать правильные слова. Например, интеллектуальная медицинская система может нуждаться в маркировке «незаконных наркотиков», а не «медицинских препаратов».

Лексикография

WSD и лексикография могут работать вместе, поскольку современная лексикография основана на корпусах. С помощью лексикографии WSD предоставляет грубые эмпирические смысловые группировки, а также статистически значимые контекстные индикаторы смысла.

Трудности в устранении неоднозначности слов (WSD)

Ниже приведены некоторые трудности, с которыми сталкивается устранение неоднозначности слов (WSD) -

Различия между словарями

Основная проблема WSD - определить смысл слова, потому что разные значения могут быть очень тесно связаны. Даже разные словари и тезаурусы могут по-разному делить слова на смыслы.

Разные алгоритмы для разных приложений

Еще одна проблема WSD в том, что для разных приложений может потребоваться совершенно другой алгоритм. Например, в машинном переводе это принимает форму выбора целевого слова; а при поиске информации не требуется смысловая инвентаризация.

Разница между судьями

Еще одна проблема WSD состоит в том, что системы WSD обычно тестируются путем сравнения результатов выполнения задачи с задачей человека. Это называется проблемой межсудьей дисперсии.

Словесная дискретность

Еще одна трудность WSD заключается в том, что слова не могут быть легко разделены на отдельные субсмыслы.