OpenNLP - Başvurulan API
Bu bölümde, bu eğitimin sonraki bölümlerinde kullanacağımız sınıflar ve yöntemler hakkında tartışacağız.
Cümle Algılama
CümleModel sınıfı
Bu sınıf, verilen ham metindeki cümleleri tespit etmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.sentdetect.
Bu sınıfın kurucusu bir InputStream cümle algılayıcı model dosyasının nesnesi (en-sent.bin).
CümleDetectorME sınıfı
Bu sınıf pakete aittir opennlp.tools.sentdetectve ham metni cümlelere bölmek için yöntemler içerir. Bu sınıf, cümlenin sonunu ifade edip etmediklerini belirlemek için bir dizedeki cümle sonu karakterlerini değerlendirmek için bir maksimum entropi modeli kullanır.
Bu sınıfın önemli yöntemleri aşağıdadır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
sentDetect() Bu yöntem, kendisine aktarılan ham metindeki cümleleri tespit etmek için kullanılır. Bir String değişkenini parametre olarak kabul eder ve verilen ham metinden cümleleri tutan bir String dizisi döndürür. |
2 |
sentPosDetect() Bu yöntem, verilen metindeki cümlelerin konumlarını tespit etmek için kullanılır. Bu yöntem, cümleyi temsil eden bir dize değişkenini kabul eder ve türdeki nesnelerin bir dizisini döndürürSpan. Adlı sınıf Span of opennlp.tools.util paketi, kümelerin başlangıç ve bitiş tam sayılarını saklamak için kullanılır. |
3 |
getSentenceProbabilities() Bu yöntem, en son yapılan çağrılarla ilişkili olasılıkları döndürür. sentDetect() yöntem. |
Tokenizasyon
TokenizerModel sınıfı
Bu sınıf, verilen cümleyi belirtmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.tokenizer.
Bu sınıfın kurucusu bir InputStream belirteç model dosyasının nesnesi (entoken.bin).
Sınıflar
Tokenizasyon gerçekleştirmek için OpenNLP kütüphanesi üç ana sınıf sağlar. Her üç sınıf da adı verilen arayüzü uygularTokenizer.
S.No | Sınıflar ve Açıklama |
---|---|
1 |
SimpleTokenizer Bu sınıf, karakter sınıflarını kullanarak verilen ham metni belirteçler. |
2 |
WhitespaceTokenizer Bu sınıf, verilen metni belirtmek için beyaz boşlukları kullanır. |
3 |
TokenizerME Bu sınıf, ham metni ayrı belirteçlere dönüştürür. Kararlarını vermek için Maksimum Entropi kullanır. |
Bu sınıflar aşağıdaki yöntemleri içerir.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
tokenize() Bu yöntem, ham metni belirtmek için kullanılır. Bu yöntem bir String değişkenini parametre olarak kabul eder ve bir Dizeler (belirteçler) dizisi döndürür. |
2 |
sentPosDetect() Bu yöntem, jetonların konumlarını veya aralıklarını almak için kullanılır. Cümle (veya) ham metni dize biçiminde kabul eder ve türden bir nesne dizisi döndürürSpan. |
Yukarıdaki iki yönteme ek olarak, TokenizerME sınıf var getTokenProbabilities() yöntem.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
getTokenProbabilities() Bu yöntem, en son yapılan çağrılarla ilişkili olasılıkları almak için kullanılır. tokenizePos() yöntem. |
NameEntityRecognition
TokenNameFinderModel sınıfı
Bu sınıf, verilen cümlede adlandırılmış varlıkları bulmak için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.namefind.
Bu sınıfın kurucusu bir InputStream ad bulucu model dosyasının nesnesi (enner-person.bin).
NameFinderME sınıfı
Sınıf pakete aittir opennlp.tools.namefindve NER görevlerini gerçekleştirmek için yöntemler içerir. Bu sınıf, verilen ham metinde adlandırılmış varlıkları bulmak için bir maksimum entropi modeli kullanır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
find() Bu yöntem ham metindeki isimleri tespit etmek için kullanılır. Ham metni bir parametre olarak temsil eden bir String değişkenini kabul eder ve Span türünde bir dizi nesne döndürür. |
2 |
probs() Bu yöntem, son kodu çözülen dizinin olasılıklarını elde etmek için kullanılır. |
Konuşmanın Bölümlerini Bulmak
POSModel sınıfı
Bu sınıf, verilen cümlenin konuşma bölümlerini etiketlemek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.postag.
Bu sınıfın kurucusu bir InputStream pos-tagger model dosyasının nesnesi (enpos-maxent.bin).
POSTaggerME sınıfı
Bu sınıf pakete aittir opennlp.tools.postagve verilen ham metnin konuşma bölümlerini tahmin etmek için kullanılır. Kararlarını vermek için Maksimum Entropi kullanır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
tag() Bu yöntem, POS etiketlerinin işaretlerini atamak için kullanılır. Bu yöntem, bir dizi belirteci (String) bir parametre olarak kabul eder ve bir etiket (dizi) döndürür. |
2 |
getSentenceProbabilities() Bu yöntem, yakın zamanda etiketlenen cümlenin her bir etiketinin olasılıklarını elde etmek için kullanılır. |
Cümlenin Ayrıştırılması
ParserModel sınıfı
Bu sınıf, verilen cümleyi ayrıştırmak için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.parser.
Bu sınıfın kurucusu bir InputStream ayrıştırıcı model dosyasının nesnesi (en-parserchunking.bin).
Ayrıştırıcı Fabrika sınıfı
Bu sınıf pakete aittir opennlp.tools.parser ve ayrıştırıcılar oluşturmak için kullanılır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
create() Bu statik bir yöntemdir ve bir ayrıştırıcı nesnesi oluşturmak için kullanılır. Bu yöntem, ayrıştırıcı model dosyasının Filestream nesnesini kabul eder. |
ParserTool sınıfı
Bu sınıf, opennlp.tools.cmdline.parser paketi ve içeriği ayrıştırmak için kullanılır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
parseLine() Bu yöntem ParserToolsınıfı, ham metni OpenNLP'de ayrıştırmak için kullanılır. Bu yöntem kabul eder -
|
Kümeleme
ChunkerModel sınıfı
Bu sınıf, bir cümleyi daha küçük parçalara bölmek için kullanılan önceden tanımlanmış modeli temsil eder. Bu sınıf pakete aittiropennlp.tools.chunker.
Bu sınıfın kurucusu bir InputStream nesnesi chunker model dosyası (enchunker.bin).
ChunkerME sınıfı
Bu sınıf adlı pakete ait opennlp.tools.chunker ve verilen cümleyi daha küçük parçalara bölmek için kullanılır.
S.No | Yöntemler ve Açıklama |
---|---|
1 |
chunk() Bu yöntem, verilen cümleyi daha küçük parçalara bölmek için kullanılır. Bir cümlenin belirteçlerini kabul eder vePsanatlar Of Sparametreler olarak peech etiketleri. |
2 |
probs() Bu yöntem, son kodu çözülen dizinin olasılıklarını döndürür. |