OpenNLP - przegląd

NLP to zestaw narzędzi służących do uzyskiwania znaczących i użytecznych informacji ze źródeł w języku naturalnym, takich jak strony internetowe i dokumenty tekstowe.

Co to jest Open NLP?

Apache OpenNLPto biblioteka Java typu open source, która służy do przetwarzania tekstu w języku naturalnym. Korzystając z tej biblioteki, możesz zbudować wydajną usługę przetwarzania tekstu.

OpenNLP zapewnia usługi, takie jak tokenizacja, segmentacja zdań, tagowanie części mowy, wyodrębnianie nazwanych jednostek, fragmentowanie, analizowanie i rozwiązywanie współodniesień itp.

Funkcje OpenNLP

Oto godne uwagi funkcje OpenNLP -

  • Named Entity Recognition (NER) - Open NLP obsługuje NER, za pomocą którego można wyodrębnić nazwy lokalizacji, osób i rzeczy, nawet podczas przetwarzania zapytań.

  • Summarize - Korzystanie z summarize funkcja, możesz podsumować paragrafy, artykuły, dokumenty lub ich kolekcję w NLP.

  • Searching - W OpenNLP podany ciąg wyszukiwania lub jego synonimy można zidentyfikować w podanym tekście, nawet jeśli dane słowo jest zmienione lub błędnie zapisane.

  • Tagging (POS) - Oznaczanie w NLP służy do podzielenia tekstu na różne elementy gramatyczne do dalszej analizy.

  • Translation - W NLP tłumaczenie pomaga w tłumaczeniu jednego języka na inny.

  • Information grouping - Ta opcja w NLP grupuje informacje tekstowe w treści dokumentu, podobnie jak części mowy.

  • Natural Language Generation - Służy do generowania informacji z bazy danych i automatyzacji raportów informacyjnych, takich jak analiza pogody czy raporty medyczne.

  • Feedback Analysis - Jak sama nazwa wskazuje, NLP zbiera różnego rodzaju informacje zwrotne od ludzi na temat produktów, aby przeanalizować, jak skutecznie produkt zdobywa ich serca.

  • Speech recognition - Chociaż analiza ludzkiej mowy jest trudna, NLP ma kilka wbudowanych funkcji spełniających to wymaganie.

Otwórz interfejs API NLP

Biblioteka Apache OpenNLP zapewnia klasy i interfejsy do wykonywania różnych zadań przetwarzania języka naturalnego, takich jak wykrywanie zdań, tokenizacja, znajdowanie nazwy, tagowanie części mowy, dzielenie zdań, analizowanie, rozwiązywanie współodniesień i kategoryzacja dokumentów.

Oprócz tych zadań możemy również szkolić i oceniać nasze własne modele dla każdego z tych zadań.

OpenNLP CLI

Oprócz biblioteki OpenNLP zapewnia również interfejs wiersza poleceń (CLI), w którym możemy trenować i oceniać modele. Omówimy ten temat szczegółowo w ostatnim rozdziale tego samouczka.

Otwarte modele NLP

Aby wykonać różne zadania NLP, OpenNLP udostępnia zestaw predefiniowanych modeli. Ten zestaw zawiera modele dla różnych języków.

Pobieranie modeli

Możesz postępować zgodnie z instrukcjami podanymi poniżej, aby pobrać predefiniowane modele dostarczone przez OpenNLP.

Step 1 - Otwórz stronę indeksu modeli OpenNLP, klikając poniższy link - http://opennlp.sourceforge.net/models-1.5/.

Step 2- Odwiedzając podany link, zobaczysz listę komponentów różnych języków i linki do ich pobrania. Tutaj możesz uzyskać listę wszystkich predefiniowanych modeli dostarczonych przez OpenNLP.

Pobierz wszystkie te modele do folderu C:/OpenNLP_models/>, klikając ich odnośniki. Wszystkie te modele są zależne od języka i podczas ich używania musisz upewnić się, że język modelu pasuje do języka tekstu wejściowego.

Historia OpenNLP

  • W 2010 roku OpenNLP wszedł do inkubacji Apache.

  • W 2011 roku wydano Apache OpenNLP 1.5.2 Incubating, który w tym samym roku ukończył jako projekt najwyższego poziomu Apache.

  • W 2015 roku OpenNLP został wydany w wersji 1.6.0.