NLP - Bilgi Erişimi
Bilgi erişim (IR), özellikle metinsel bilgiler olmak üzere belge havuzlarından bilgilerin düzenlenmesi, depolanması, geri alınması ve değerlendirilmesi ile ilgilenen bir yazılım programı olarak tanımlanabilir. Sistem, kullanıcıların ihtiyaç duydukları bilgileri bulmalarına yardımcı olur ancak soruların yanıtlarını açık bir şekilde döndürmez. Gerekli bilgilerden oluşabilecek belgelerin varlığını ve yerini bildirir. Kullanıcının ihtiyacını karşılayan belgelere ilgili belgeler denir. Mükemmel bir IR sistemi yalnızca ilgili belgeleri alır.
Aşağıdaki diyagramın yardımıyla, bilgi alma (IR) sürecini anlayabiliriz -
Yukarıdaki diyagramdan, bilgiye ihtiyaç duyan bir kullanıcının doğal dilde sorgu şeklinde bir talep formüle etmesi gerekeceği açıktır. Daha sonra IR sistemi gerekli bilgiler hakkında ilgili çıktıyı belge şeklinde alarak cevap verecektir.
Bilgi Erişim (IR) Sisteminde Klasik Problem
IR araştırmasının temel amacı, belge havuzlarından bilgi almak için bir model geliştirmektir. Burada, adlı klasik bir problemi tartışacağız.ad-hoc retrieval problemIR sistemi ile ilgili.
Ad-hoc erişimde, kullanıcı gerekli bilgileri açıklayan doğal dilde bir sorgu girmelidir. Daha sonra IR sistemi istenen bilgilerle ilgili gerekli belgeleri iade edecektir. Örneğin, İnternette bir şey aradığımızı ve ihtiyacımıza göre alakalı olan bazı kesin sayfalar verdiğini, ancak bazı alakalı olmayan sayfalar da olabileceğini varsayalım. Bu, anlık erişim sorunundan kaynaklanmaktadır.
Ad-hoc Alımın Yönleri
Aşağıdakiler, IR araştırmasında ele alınan anlık geri alımın bazı yönleridir -
Alaka düzeyi geri bildirimi yardımıyla kullanıcılar bir sorgunun orijinal formülasyonunu nasıl iyileştirebilir?
Veritabanı birleştirme nasıl uygulanır, yani farklı metin veritabanlarından alınan sonuçlar tek bir sonuç kümesinde nasıl birleştirilebilir?
Kısmen bozuk veriler nasıl işlenir? Aynı için hangi modeller uygundur?
Bilgi Erişim (IR) Modeli
Matematiksel olarak modeller, gerçek dünyadaki bazı fenomenleri anlamayı amaçlayan birçok bilimsel alanda kullanılmaktadır. Bir bilgi alma modeli, bir kullanıcının verilen sorguya uygun olarak ne bulacağını tahmin eder ve açıklar. IR modeli, temel olarak, erişim prosedürünün yukarıda belirtilen yönlerini tanımlayan ve aşağıdakilerden oluşan bir modeldir:
Belgeler için bir model.
Sorgular için bir model.
Sorguları belgelerle karşılaştıran bir eşleştirme işlevi.
Matematiksel olarak, bir geri alma modeli şunlardan oluşur:
D - Belgeler için temsil.
R - Sorgular için temsil.
F - Aralarındaki ilişki ile birlikte D, Q için modelleme çerçevesi.
R (q,di)- Belgeleri sorguya göre sıralayan bir benzerlik işlevi. Sıralama da denir.
Bilgi Erişim (IR) Modeli Türleri
Bir bilgi modeli (IR) modeli aşağıdaki üç modele ayrılabilir:
Klasik IR Modeli
En basit ve uygulaması kolay IR modelidir. Bu model, aynı zamanda kolayca tanınan ve anlaşılan matematiksel bilgiye dayanmaktadır. Boolean, Vector ve Probabilistic üç klasik IR modelidir.
Klasik Olmayan IR Modeli
Klasik IR modeline tamamen zıttır. Bu tür IR modelleri benzerlik, olasılık, Boole işlemleri dışındaki ilkelere dayanmaktadır. Bilgi mantığı modeli, durum teorisi modeli ve etkileşim modelleri, klasik olmayan IR modelinin örnekleridir.
Alternatif IR Modeli
Klasik IR modelinin, diğer bazı alanlardan bazı özel tekniklerin kullanılmasıyla geliştirilmesidir. Küme modeli, bulanık model ve gizli anlamsal indeksleme (LSI) modelleri, alternatif IR modeline örnektir.
Bilgi alma (IR) sistemlerinin tasarım özellikleri
Şimdi IR sistemlerinin tasarım özelliklerini öğrenelim -
Ters İndeks
IR sistemlerinin çoğunun birincil veri yapısı, tersine çevrilmiş indeks biçimindedir. Tersine çevrilmiş bir indeksi, her kelime için, onu içeren tüm dokümanları ve belgedeki oluşumların sıklığını listeleyen bir veri yapısı olarak tanımlayabiliriz. Bir sorgu kelimesinin 'hitlerini' aramayı kolaylaştırır.
Kelime Yok Etmeyi Durdurun
Durdurma sözcükleri, arama için yararlı olma olasılığı düşük olan yüksek frekanslı sözcüklerdir. Daha az anlamsal ağırlıkları vardır. Bu tür tüm kelimeler durdurma listesi adı verilen bir listede yer alır. Örneğin “a”, “an”, “the” ve “içinde”, “of”, “for”, “at” gibi edatlar durdurma kelimelerine örnektir. Tersine çevrilmiş indeksin boyutu, durdurma listesi ile önemli ölçüde azaltılabilir. Zipf yasasına göre, birkaç düzine kelimeyi kapsayan bir durdurma listesi, ters çevrilmiş dizinin boyutunu neredeyse yarı yarıya azaltır. Öte yandan, bazen durdurma kelimesinin ortadan kaldırılması, arama için yararlı olan terimin ortadan kaldırılmasına neden olabilir. Örneğin, “A” harfini “Vitamin A” dan çıkarırsak, o zaman bir anlamı kalmaz.
Stemming
Morfolojik analizin basitleştirilmiş biçimi olan kök oluşturma, kelimelerin uçlarını keserek kelimelerin temel biçimini çıkarmanın sezgisel sürecidir. Örneğin, gülmek, gülmek, gülmek kelimelerinin kökleri gülmek anlamına gelir.
Sonraki bölümlerimizde, bazı önemli ve faydalı IR modelleri hakkında tartışacağız.
Boole Modeli
En eski bilgi alma (IR) modelidir. Model, küme teorisine ve belgelerin terim kümeleri olduğu ve sorguların terimler üzerindeki Boole ifadeler olduğu Boole cebirine dayanmaktadır. Boole modeli şu şekilde tanımlanabilir:
D- Bir dizi kelime, yani bir belgede bulunan indeksleme terimleri. Burada her terim ya mevcuttur (1) ya da yoktur (0).
Q - Terimlerin dizin terimleri ve operatörlerin mantıksal ürünler olduğu bir Boole ifadesi - VE, mantıksal toplam - VEYA ve mantıksal fark - DEĞİL
F - Boole cebri, terim grupları ve belge grupları üzerinden
Alaka düzeyi geri bildirimi hakkında konuşursak, Boolean IR modelinde Alaka tahmini aşağıdaki gibi tanımlanabilir -
R - Bir belge, ancak ve ancak sorgu ifadesini şu şekilde karşılarsa, sorgu ifadesiyle alakalı olarak tahmin edilir -
((˅) ˄ ˄ ˜ ℎ)
Bu modeli, bir dizi belgenin kesin bir tanımı olarak bir sorgu terimiyle açıklayabiliriz.
Örneğin, sorgu terimi “economic” terimle indekslenen belge kümesini tanımlar “economic”.
Şimdi, Boolean AND Operator ile terimleri birleştirdikten sonra sonuç ne olur? Tek terimlerin herhangi birinin belge setlerinden daha küçük veya bunlara eşit bir belge kümesi tanımlayacaktır. Örneğin, terimler içeren sorgu“social” ve “economic”her iki terimle indekslenmiş belge setini üretecektir. Başka bir deyişle, belge her iki kümenin kesişimiyle ayarlanır.
Şimdi, Boolean OR operatörüyle terimleri birleştirdikten sonra sonuç ne olur? Tek terimlerin herhangi birinin belge setlerinden daha büyük veya bunlara eşit bir belge kümesi tanımlayacaktır. Örneğin, terimler içeren sorgu“social” veya “economic” herhangi bir terimle indekslenmiş belge setini üretecek “social” veya “economic”. Başka bir deyişle, her iki setin birleşimiyle belge seti.
Boole Modunun Avantajları
Boole modelinin avantajları aşağıdaki gibidir -
Setlere dayanan en basit model.
Anlaması ve uygulaması kolay.
Yalnızca tam eşleşmeleri alır
Kullanıcıya sistem üzerinde bir kontrol hissi verir.
Boolean Modelinin Dezavantajları
Boole modelinin dezavantajları aşağıdaki gibidir -
Modelin benzerlik işlevi Boole'dir. Bu nedenle, kısmi eşleşmeler olmayacaktır. Bu, kullanıcılar için can sıkıcı olabilir.
Bu modelde, Boolean operatör kullanımının kritik bir kelimeden çok daha fazla etkisi vardır.
Sorgu dili anlamlıdır, ancak aynı zamanda karmaşıktır.
Alınan belgeler için sıralama yok.
Vektör Uzay Modeli
Boole modelinin yukarıdaki dezavantajlarından dolayı Gerard Salton ve meslektaşları, Luhn'un benzerlik kriterine dayanan bir model önerdiler. Luhn tarafından formüle edilen benzerlik kriteri, "Verilen unsurlarda ve bunların dağılımında iki temsilin ne kadar fazla mutabık kaldıysa, benzer bilgileri temsil etme olasılıkları o kadar yüksek olacaktır."
Vektör Uzay Modeli hakkında daha fazla bilgi edinmek için aşağıdaki önemli noktaları göz önünde bulundurun -
Dizin gösterimleri (belgeler) ve sorgular, yüksek boyutlu bir Öklid uzayına gömülü vektörler olarak kabul edilir.
Bir belge vektörünün bir sorgu vektörüne benzerlik ölçüsü genellikle aralarındaki açının kosinüsüdür.
Kosinüs Benzerlik Ölçü Formülü
Kosinüs, aşağıdaki formül yardımıyla hesaplanabilen normalleştirilmiş bir iç çarpımdır -
$$ Puan \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \ :. q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2} $$
$$ Puan \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: \: d = q $$ olduğunda
$$ Puan \ lgrup \ vec {d} \ vec {q} \ rgroup = 0 \: ne zaman \: d \: ve \: q \: paylaş \: hayır \: öğeler $$
Sorgu ve Belge ile Vektör Uzayı Gösterimi
Sorgu ve belgeler, iki boyutlu bir vektör uzayıyla temsil edilir. Şartlarcar ve insurance. Vektör uzayında bir sorgu ve üç belge vardır.
Araba ve sigorta terimlerine cevaben en üst sıradaki belge belge olacaktır d2 çünkü arasındaki açı q ve d2en küçüğüdür. Bunun arkasındaki sebep, hem otomobil hem de sigorta kavramlarının d 2'de öne çıkması ve dolayısıyla yüksek ağırlıklara sahip olmasıdır. Diğer tarafta,d1 ve d3 ayrıca her iki terimden de bahsedin, ancak her durumda bunlardan biri belgede merkezi olarak önemli bir terim değildir.
Vade Ağırlıklandırma
Terim ağırlıklandırma, vektör uzayındaki terimler üzerindeki ağırlıkları ifade eder. Terimin ağırlığı ne kadar yüksekse, terimin kosinüs üzerindeki etkisi o kadar büyük olur. Modeldeki daha önemli terimlere daha fazla ağırlık atanmalıdır. Şimdi burada ortaya çıkan soru, bunu nasıl modelleyebiliriz.
Bunu yapmanın bir yolu, bir belgedeki kelimeleri terim ağırlığı olarak saymaktır. Ancak bunun etkili bir yöntem olacağını düşünüyor musunuz?
Daha etkili olan başka bir yöntem de kullanmaktır. term frequency (tfij), document frequency (dfi) ve collection frequency (cfi).
Dönem Frekansı (tf ij )
Oluşum sayısı olarak tanımlanabilir wi içinde dj. Terim sıklığı tarafından yakalanan bilgi, verilen belgede bir kelimenin ne kadar dikkat çekici olduğudur veya başka bir deyişle, terim frekansı ne kadar yüksekse, o kelimenin o belgenin içeriğinin iyi bir açıklaması olduğunu söyleyebiliriz.
Belge Sıklığı (df i )
W i'nin oluştuğu koleksiyondaki toplam belge sayısı olarak tanımlanabilir . Bilgilendiriciliğin bir göstergesidir. Anlamsal olarak odaklanmış sözcükler, anlamsal olarak odaklanmamış sözcüklerin aksine belgede birkaç kez geçecektir.
Toplama Sıklığı (cf i )
Toplam oluşum sayısı olarak tanımlanabilir. wi koleksiyonda.
Matematiksel olarak, $ df_ {i} \ leq cf_ {i} \: ve \: \ sum_ {j} tf_ {ij} = cf_ {i} $
Belge Frekans Ağırlıklandırma Formları
Şimdi belge frekans ağırlıklandırmasının farklı biçimleri hakkında bilgi edelim. Formlar aşağıda açıklanmıştır -
Terim Frekans Faktörü
Bu aynı zamanda terim sıklık faktörü olarak da sınıflandırılır, yani bir terim t genellikle bir belgede görünür, ardından şunu içeren bir sorgu tbu belgeyi almalıdır. Kelimeleri birleştirebilirizterm frequency (tfij) ve document frequency (dfi) aşağıdaki gibi tek bir ağırlıkta -
$$ weight \ left (i, j \ right) = \ begin {case} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {durumlarda } $$
Burada N toplam belge sayısıdır.
Ters Belge Frekansı (idf)
Bu, başka bir belge sıklık ağırlıklandırma biçimidir ve genellikle idf ağırlığı veya ters belge sıklık ağırlığı olarak adlandırılır. İdf ağırlıklandırmanın önemli noktası, terimin koleksiyondaki kıtlığının, öneminin bir ölçüsü olması ve öneminin, oluşum sıklığı ile ters orantılı olmasıdır.
Matematiksel olarak,
$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ sağ) $$
$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$
Buraya,
N = koleksiyondaki belgeler
n t = t terimini içeren belgeler
Kullanıcı Sorgusu İyileştirme
Herhangi bir bilgi erişim sisteminin birincil amacı doğruluk olmalıdır - kullanıcının ihtiyacına göre ilgili belgeler üretmek. Ancak burada ortaya çıkan soru, kullanıcının sorgu oluşturma stilini geliştirerek çıktıyı nasıl iyileştirebiliriz. Kuşkusuz, herhangi bir IR sisteminin çıktısı kullanıcının sorgusuna bağlıdır ve iyi biçimlendirilmiş bir sorgu daha doğru sonuçlar üretecektir. Kullanıcı, sorgusunu şunun yardımıyla geliştirebilir:relevance feedback, herhangi bir IR modelinin önemli bir yönü.
Alaka Düzeyi Geri Bildirimi
Alaka düzeyi geri bildirimi, başlangıçta verilen sorgudan döndürülen çıktıyı alır. Bu ilk çıktı, kullanıcı bilgilerini toplamak ve bu çıktının yeni bir sorgu gerçekleştirmek için uygun olup olmadığını bilmek için kullanılabilir. Geri bildirimler şu şekilde sınıflandırılabilir -
Açık Geri Bildirim
Alaka düzeyinin değerlendiricilerinden alınan geri bildirim olarak tanımlanabilir. Bu değerlendiriciler ayrıca sorgudan alınan bir belgenin alaka düzeyini de gösterecektir. Sorgu alma performansını iyileştirmek için, alaka düzeyi geri bildirim bilgilerinin orijinal sorgu ile yorumlanması gerekir.
Değerlendiriciler veya sistemin diğer kullanıcıları, aşağıdaki uygunluk sistemlerini kullanarak alaka düzeyini açıkça belirtebilir:
Binary relevance system - Bu uygunluk geri bildirim sistemi, bir belgenin belirli bir sorgu için alakalı (1) veya alakasız (0) olduğunu gösterir.
Graded relevance system- Derecelendirilmiş alaka düzeyi geri bildirim sistemi, sayılar, harfler veya açıklamalar kullanarak derecelendirmeye dayalı olarak belirli bir sorgu için bir belgenin uygunluğunu belirtir. Açıklama "alakalı değil", "biraz alakalı", "çok alakalı" veya "alakalı" gibi olabilir.
Örtülü Geri Bildirim
Kullanıcı davranışından çıkarılan geri bildirimdir. Davranış, kullanıcının bir belgeyi görüntülemek için harcadığı süreyi, hangi belgenin görüntülenmek üzere seçildiğini ve hangisinin seçilmediğini, sayfaya göz atma ve kaydırma eylemlerini vb. İçerir. Örtülü geri bildirimin en iyi örneklerinden biridwell time, bir kullanıcının bir arama sonucunda bağlantı verilen sayfayı görüntülerken ne kadar zaman harcadığının bir ölçüsüdür.
Sözde Geri Bildirim
Buna Kör geribildirim de denir. Otomatik yerel analiz için bir yöntem sağlar. Alaka düzeyi geri bildiriminin manuel kısmı, sözde alaka düzeyi geri bildiriminin yardımıyla otomatik hale getirilir, böylece kullanıcı genişletilmiş bir etkileşim olmadan iyileştirilmiş alma performansı elde eder. Bu geri bildirim sisteminin temel avantajı, açık uygunluk geri bildirim sisteminde olduğu gibi değerlendiricilere ihtiyaç duymamasıdır.
Bu geri bildirimi uygulamak için aşağıdaki adımları göz önünde bulundurun -
Step 1- İlk olarak, ilk sorgu tarafından döndürülen sonuç, ilgili sonuç olarak alınmalıdır. İlgili sonuç aralığı ilk 10-50 sonuç içinde olmalıdır.
Step 2 - Şimdi, örneğin terim sıklığı (tf) - ters belge sıklığı (idf) ağırlığı gibi belgelerden en iyi 20-30 terimi seçin.
Step 3- Bu terimleri sorguya ekleyin ve döndürülen belgelerle eşleştirin. Ardından en alakalı belgeleri iade edin.