Apache Solr - Обзор
Solr это поисковая платформа с открытым исходным кодом, которая используется для создания search applications. Он был построен наLucene(система полнотекстового поиска). Solr готов к работе, работает быстро и хорошо масштабируется. Приложения, созданные с использованием Solr, сложны и обеспечивают высокую производительность.
это было Yonik Seelyкоторый создал Solr в 2004 году, чтобы добавить возможности поиска на веб-сайт компании CNET Networks. В январе 2006 года это был проект с открытым исходным кодом в рамках Apache Software Foundation. Его последняя версия, Solr 6.0, была выпущена в 2016 году с поддержкой выполнения параллельных SQL-запросов.
Solr можно использовать вместе с Hadoop. Поскольку Hadoop обрабатывает большой объем данных, Solr помогает нам найти необходимую информацию из такого большого источника. Не только поиск, Solr также можно использовать для хранения. Как и другие базы данных NoSQL, этоnon-relational data storage а также processing technology.
Короче говоря, Solr - это масштабируемая, готовая к развертыванию система поиска / хранения, оптимизированная для поиска в больших объемах текстовых данных.
Особенности Apache Solr
Solr - это оболочка Java API Lucene. Следовательно, используя Solr, вы можете использовать все возможности Lucene. Давайте взглянем на некоторые из наиболее характерных особенностей Solr -
Restful APIs- Для связи с Solr не обязательно иметь навыки программирования на Java. Вместо этого вы можете использовать успокаивающие сервисы для общения с ним. Мы вводим документы в Solr в форматах файлов, таких как XML, JSON и .CSV, и получаем результаты в тех же форматах файлов.
Full text search - Solr предоставляет все возможности, необходимые для полнотекстового поиска, такие как токены, фразы, проверка орфографии, подстановочные знаки и автозаполнение.
Enterprise ready - В зависимости от потребностей организации Solr может быть развернут в любых системах (больших или малых), таких как автономные, распределенные, облачные и т. Д.
Flexible and Extensible - Расширяя классы Java и соответствующим образом настраивая их, мы можем легко настраивать компоненты Solr.
NoSQL database - Solr также может использоваться как база данных NOSQL для больших объемов данных, где мы можем распределять поисковые задачи по кластеру.
Admin Interface - Solr предоставляет простой в использовании, удобный, функциональный, пользовательский интерфейс, с помощью которого мы можем выполнять все возможные задачи, такие как управление журналами, добавление, удаление, обновление и поиск документов.
Highly Scalable - При использовании Solr с Hadoop мы можем масштабировать его емкость, добавляя реплики.
Text-Centric and Sorted by Relevance - Solr в основном используется для поиска текстовых документов, и результаты доставляются в соответствии с релевантностью запросу пользователя по порядку.
В отличие от Lucene, вам не нужно иметь навыки программирования на Java при работе с Apache Solr. Он предоставляет прекрасную, готовую к развертыванию службу для создания окна поиска с функцией автозаполнения, чего не предоставляет Lucene. Используя Solr, мы можем масштабировать, распространять и управлять индексами для крупномасштабных (Big Data) приложений.
Lucene в поисковых приложениях
Lucene - это простая, но мощная поисковая библиотека на основе Java. Его можно использовать в любом приложении для добавления возможности поиска. Lucene - это масштабируемая и высокопроизводительная библиотека, используемая для индексации и поиска практически любого текста. Библиотека Lucene обеспечивает основные операции, которые требуются любому поисковому приложению, напримерIndexing а также Searching.
Если у нас есть веб-портал с огромным объемом данных, то нам, скорее всего, потребуется поисковая система на нашем портале для извлечения соответствующей информации из огромного пула данных. Lucene является сердцем любого поискового приложения и обеспечивает жизненно важные операции, связанные с индексированием и поиском.