NLP - Kelime Anlamını Netleştirme
Kelimelerin cümle içindeki kullanımına bağlı olarak farklı anlamları olduğunu anlıyoruz. İnsan dilleri hakkında konuşursak, o zaman onlar da belirsizdir çünkü birçok kelime, bulundukları duruma bağlı olarak birden çok şekilde yorumlanabilir.
Doğal dil işlemede (NLP) kelime anlamındaki belirsizliği giderme, kelimenin belirli bir bağlamda kullanılmasıyla kelimenin hangi anlamının etkinleştirildiğini belirleme yeteneği olarak tanımlanabilir. Sözcüksel belirsizlik, sözdizimsel veya anlamsal, herhangi bir NLP sisteminin karşılaştığı ilk problemlerden biridir. Yüksek doğruluk düzeyine sahip konuşma parçası (POS) etiketleyicileri, Word'ün sözdizimsel belirsizliğini çözebilir. Öte yandan, anlamsal belirsizliği çözme sorununa WSD (kelime anlamındaki belirsizliği giderme) denir. Anlamsal belirsizliği çözmek, sözdizimsel belirsizliği çözmekten daha zordur.
Örneğin, kelime için var olan iki farklı anlam örneğini düşünün. “bass” -
Bas sesini duyabiliyorum.
Izgara levrek yemeyi sever.
Kelimenin oluşumu bassaçıkça farklı anlamı belirtir. İlk cümlede anlamıfrequency ve ikincisi, şu anlama geliyor fish. Bu nedenle, WSD tarafından belirsizliği giderilecekse, yukarıdaki cümlelerin doğru anlamı aşağıdaki gibi atanabilir -
Bas / frekans sesini duyabiliyorum.
Izgara levrek / balık yemeyi sever.
WSD'nin Değerlendirilmesi
WSD'nin değerlendirilmesi aşağıdaki iki girişi gerektirir -
Bir sözlük
WSD'nin değerlendirilmesi için ilk girdi, belirsizliği giderilecek duyuları belirtmek için kullanılan sözlüktür.
Test Kitaplığı
WSD'nin gerektirdiği diğer bir girdi, hedefe veya doğru duyulara sahip olan yüksek açıklamalı test külliyatıdır. Test topluluğu iki tipte olabilir & minsu;
Lexical sample - Bu tür bir külliyat, küçük bir kelime örneğinin belirsizliğini gidermenin gerekli olduğu sistemde kullanılır.
All-words - Bu tür bir külliyat, akan bir metindeki tüm kelimelerin belirsizliğini gidermesinin beklendiği sistemde kullanılır.
Kelime Anlamında Netleştirme Yaklaşımları ve Yöntemleri (WSD)
WSD'ye yaklaşımlar ve yöntemler, kelime belirsizliğini gidermede kullanılan bilgi kaynağına göre sınıflandırılır.
Şimdi WSD'ye giden dört geleneksel yöntemi görelim -
Sözlüğe Dayalı veya Bilgiye Dayalı Yöntemler
Adından da anlaşılacağı gibi, belirsizliği gidermek için, bu yöntemler öncelikle sözlüklere, hazinelere ve sözcük bilgisine dayanır. Netleştirmek için somut kanıtları kullanmazlar. Lesk yöntemi, Michael Lesk tarafından 1986 yılında ortaya atılan, ufuk açıcı sözlüğe dayalı bir yöntemdir. Lesk algoritmasının dayandığı Lesk tanımı,“measure overlap between sense definitions for all words in context”. Bununla birlikte, 2000 yılında Kilgarriff ve Rosensweig, basitleştirilmiş Lesk tanımını şöyle verdiler:“measure overlap between sense definitions of word and current context”, bu ayrıca her seferinde bir kelime için doğru anlamı tanımlamak anlamına gelir. Burada mevcut bağlam, çevreleyen cümle veya paragrafta yer alan kelimeler kümesidir.
Denetlenen Yöntemler
Netleştirme için, makine öğrenimi yöntemleri, eğitmek için anlam açıklamalı corpora kullanır. Bu yöntemler, bağlamın kendi başına anlamı netleştirmek için yeterli kanıt sağlayabileceğini varsayar. Bu yöntemlerde bilgi ve akıl yürütme kelimeleri gereksiz görülüyor. Bağlam, kelimelerin bir dizi "özellikleri" olarak temsil edilir. Aynı zamanda çevreleyen sözcüklerle ilgili bilgileri de içerir. Destek vektör makinesi ve bellek tabanlı öğrenme, WSD'ye yönelik en başarılı denetimli öğrenme yaklaşımlarıdır. Bu yöntemler, yaratılması çok pahalı olan önemli miktarda manüel olarak algılanan külliyatlara dayanır.
Yarı denetimli Yöntemler
Eğitim külliyatının eksikliğinden dolayı, kelime anlamında belirsizlik giderme algoritmalarının çoğu yarı denetimli öğrenme yöntemlerini kullanır. Bunun nedeni, yarı denetimli yöntemlerin hem etiketli hem de etiketlenmemiş verileri kullanmasıdır. Bu yöntemler, çok az miktarda açıklamalı metin ve büyük miktarda düz açıklamasız metin gerektirir. Yarı denetimli yöntemler tarafından kullanılan teknik, tohum verilerinden önyüklemedir.
Denetimsiz Yöntemler
Bu yöntemler, benzer bağlamda benzer duyuların oluştuğunu varsayar. Bu nedenle duyular, bağlamın bazı benzerlik ölçüleri kullanılarak sözcük oluşumlarını kümeleyerek metinden uyarılabilir. Bu göreve kelime duyusu indüksiyonu veya ayrımcılık denir. Denetimsiz yöntemler, manuel çabalara bağımlı olmama nedeniyle bilgi edinme darboğazının üstesinden gelmek için büyük bir potansiyele sahiptir.
Kelime Anlamında Netleştirme (WSD) Uygulamaları
Kelime anlamında belirsizlik giderme (WSD), dil teknolojisinin hemen hemen her uygulamasında uygulanır.
Şimdi WSD'nin kapsamını görelim -
Makine Çevirisi
Makine çevirisi veya MT, WSD'nin en belirgin uygulamasıdır. MT'de, farklı duyular için farklı tercümelere sahip kelimelerin Sözcüksel seçimi WSD tarafından yapılır. MT'deki duyular, hedef dilde kelimeler olarak temsil edilir. Makine çeviri sistemlerinin çoğu açık WSD modülü kullanmaz.
Bilgi Erişimi (IR)
Bilgi erişim (IR), özellikle metinsel bilgiler olmak üzere belge havuzlarından bilgilerin düzenlenmesi, depolanması, geri alınması ve değerlendirilmesi ile ilgilenen bir yazılım programı olarak tanımlanabilir. Sistem temelde kullanıcıların ihtiyaç duydukları bilgileri bulmalarına yardımcı olur, ancak soruların cevaplarını açık bir şekilde döndürmez. WSD, IR sistemine sağlanan sorguların belirsizliklerini çözmek için kullanılır. MT gibi, mevcut IR sistemleri de açıkça WSD modülünü kullanmaz ve kullanıcının sorguya yalnızca ilgili belgeleri almak için yeterli bağlamı yazacağı konseptine güvenirler.
Metin Madenciliği ve Bilgi Çıkarma (IE)
Uygulamaların çoğunda, WSD, metnin doğru analizini yapmak için gereklidir. Örneğin, WSD, akıllı toplama sisteminin doğru sözcükleri işaretlemesine yardımcı olur. Örneğin, tıbbi akıllı sistemin "tıbbi uyuşturucular" yerine "yasa dışı uyuşturucuların" işaretlenmesi gerekebilir
Sözlükbilim
WSD ve sözlükbilimi döngü içinde birlikte çalışabilir çünkü modern sözlükbilim külliyat temellidir. Sözlükbilimi ile WSD, kaba deneysel anlam gruplamalarının yanı sıra istatistiksel olarak anlamlı bağlamsal anlam göstergeleri sağlar.
Kelime Anlamında Netleştirme (WSD) Zorlukları
Aşağıdakiler, kelime anlamında belirsizliği giderme (WSD) ile karşılaşılan bazı zorluklardır -
Sözlükler arasındaki farklar
WSD'nin en büyük sorunu kelimenin anlamına karar vermektir çünkü farklı duyular çok yakından ilişkili olabilir. Farklı sözlükler ve eş anlamlılar bile kelimelerin farklı anlamlara bölünmesini sağlayabilir.
Farklı uygulamalar için farklı algoritmalar
WSD'nin bir başka sorunu, farklı uygulamalar için tamamen farklı bir algoritmanın gerekli olabilmesidir. Örneğin, makine çevirisinde hedef kelime seçimi biçimini alır; ve bilgi erişiminde bir duyu envanteri gerekli değildir.
Yargıçlar arası varyans
WSD'nin bir başka sorunu da, WSD sistemlerinin genellikle sonuçlarının bir görev üzerinde insanların görevleriyle karşılaştırılarak test edilmesidir. Buna yargı varyans sorunu denir.
Kelime anlamında belirsizlik
WSD'deki diğer bir zorluk, kelimelerin kolayca ayrı alt anlamlara bölünememesidir.