OpenNLP - Başvurulan API

Bu bölümde, bu eğitimin sonraki bölümlerinde kullanacağımız sınıflar ve yöntemler hakkında tartışacağız.

Cümle Algılama

CümleModel sınıfı

Bu sınıf, verilen ham metindeki cümleleri tespit etmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.sentdetect.

Bu sınıfın kurucusu bir InputStream cümle algılayıcı model dosyasının nesnesi (en-sent.bin).

CümleDetectorME sınıfı

Bu sınıf pakete aittir opennlp.tools.sentdetectve ham metni cümlelere bölmek için yöntemler içerir. Bu sınıf, cümlenin sonunu ifade edip etmediklerini belirlemek için bir dizedeki cümle sonu karakterlerini değerlendirmek için bir maksimum entropi modeli kullanır.

Bu sınıfın önemli yöntemleri aşağıdadır.

S.No Yöntemler ve Açıklama
1

sentDetect()

Bu yöntem, kendisine aktarılan ham metindeki cümleleri tespit etmek için kullanılır. Bir String değişkenini parametre olarak kabul eder ve verilen ham metinden cümleleri tutan bir String dizisi döndürür.

2

sentPosDetect()

Bu yöntem, verilen metindeki cümlelerin konumlarını tespit etmek için kullanılır. Bu yöntem, cümleyi temsil eden bir dize değişkenini kabul eder ve türdeki nesnelerin bir dizisini döndürürSpan.

Adlı sınıf Span of opennlp.tools.util paketi, kümelerin başlangıç ​​ve bitiş tam sayılarını saklamak için kullanılır.

3

getSentenceProbabilities()

Bu yöntem, en son yapılan çağrılarla ilişkili olasılıkları döndürür. sentDetect() yöntem.

Tokenizasyon

TokenizerModel sınıfı

Bu sınıf, verilen cümleyi belirtmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.tokenizer.

Bu sınıfın kurucusu bir InputStream belirteç model dosyasının nesnesi (entoken.bin).

Sınıflar

Tokenizasyon gerçekleştirmek için OpenNLP kütüphanesi üç ana sınıf sağlar. Her üç sınıf da adı verilen arayüzü uygularTokenizer.

S.No Sınıflar ve Açıklama
1

SimpleTokenizer

Bu sınıf, karakter sınıflarını kullanarak verilen ham metni belirteçler.

2

WhitespaceTokenizer

Bu sınıf, verilen metni belirtmek için beyaz boşlukları kullanır.

3

TokenizerME

Bu sınıf, ham metni ayrı belirteçlere dönüştürür. Kararlarını vermek için Maksimum Entropi kullanır.

Bu sınıflar aşağıdaki yöntemleri içerir.

S.No Yöntemler ve Açıklama
1

tokenize()

Bu yöntem, ham metni belirtmek için kullanılır. Bu yöntem bir String değişkenini parametre olarak kabul eder ve bir Dizeler (belirteçler) dizisi döndürür.

2

sentPosDetect()

Bu yöntem, jetonların konumlarını veya aralıklarını almak için kullanılır. Cümle (veya) ham metni dize biçiminde kabul eder ve türden bir nesne dizisi döndürürSpan.

Yukarıdaki iki yönteme ek olarak, TokenizerME sınıf var getTokenProbabilities() yöntem.

S.No Yöntemler ve Açıklama
1

getTokenProbabilities()

Bu yöntem, en son yapılan çağrılarla ilişkili olasılıkları almak için kullanılır. tokenizePos() yöntem.

NameEntityRecognition

TokenNameFinderModel sınıfı

Bu sınıf, verilen cümlede adlandırılmış varlıkları bulmak için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.namefind.

Bu sınıfın kurucusu bir InputStream ad bulucu model dosyasının nesnesi (enner-person.bin).

NameFinderME sınıfı

Sınıf pakete aittir opennlp.tools.namefindve NER görevlerini gerçekleştirmek için yöntemler içerir. Bu sınıf, verilen ham metinde adlandırılmış varlıkları bulmak için bir maksimum entropi modeli kullanır.

S.No Yöntemler ve Açıklama
1

find()

Bu yöntem ham metindeki isimleri tespit etmek için kullanılır. Ham metni bir parametre olarak temsil eden bir String değişkenini kabul eder ve Span türünde bir dizi nesne döndürür.

2

probs()

Bu yöntem, son kodu çözülen dizinin olasılıklarını elde etmek için kullanılır.

Konuşmanın Bölümlerini Bulmak

POSModel sınıfı

Bu sınıf, verilen cümlenin konuşma bölümlerini etiketlemek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.postag.

Bu sınıfın kurucusu bir InputStream pos-tagger model dosyasının nesnesi (enpos-maxent.bin).

POSTaggerME sınıfı

Bu sınıf pakete aittir opennlp.tools.postagve verilen ham metnin konuşma bölümlerini tahmin etmek için kullanılır. Kararlarını vermek için Maksimum Entropi kullanır.

S.No Yöntemler ve Açıklama
1

tag()

Bu yöntem, POS etiketlerinin işaretlerini atamak için kullanılır. Bu yöntem, bir dizi belirteci (String) bir parametre olarak kabul eder ve bir etiket (dizi) döndürür.

2

getSentenceProbabilities()

Bu yöntem, yakın zamanda etiketlenen cümlenin her bir etiketinin olasılıklarını elde etmek için kullanılır.

Cümlenin Ayrıştırılması

ParserModel sınıfı

Bu sınıf, verilen cümleyi ayrıştırmak için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.parser.

Bu sınıfın kurucusu bir InputStream ayrıştırıcı model dosyasının nesnesi (en-parserchunking.bin).

Ayrıştırıcı Fabrika sınıfı

Bu sınıf pakete aittir opennlp.tools.parser ve ayrıştırıcılar oluşturmak için kullanılır.

S.No Yöntemler ve Açıklama
1

create()

Bu statik bir yöntemdir ve bir ayrıştırıcı nesnesi oluşturmak için kullanılır. Bu yöntem, ayrıştırıcı model dosyasının Filestream nesnesini kabul eder.

ParserTool sınıfı

Bu sınıf, opennlp.tools.cmdline.parser paketi ve içeriği ayrıştırmak için kullanılır.

S.No Yöntemler ve Açıklama
1

parseLine()

Bu yöntem ParserToolsınıfı, ham metni OpenNLP'de ayrıştırmak için kullanılır. Bu yöntem kabul eder -

  • Ayrıştırılacak metni temsil eden bir String değişkeni.
  • Ayrıştırıcı nesne.
  • Gerçekleştirilecek ayrıştırma sayısını temsil eden bir tamsayı.

Kümeleme

ChunkerModel sınıfı

Bu sınıf, bir cümleyi daha küçük parçalara bölmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.chunker.

Bu sınıfın kurucusu bir InputStream nesnesi chunker model dosyası (enchunker.bin).

ChunkerME sınıfı

Bu sınıf adlı pakete ait opennlp.tools.chunker ve verilen cümleyi daha küçük parçalara bölmek için kullanılır.

S.No Yöntemler ve Açıklama
1

chunk()

Bu yöntem, verilen cümleyi daha küçük parçalara bölmek için kullanılır. Bir cümlenin belirteçlerini kabul eder vePsanatlar Of Sparametreler olarak peech etiketleri.

2

probs()

Bu yöntem, son kodu çözülen dizinin olasılıklarını döndürür.