TIKA - API, на который имеется ссылка
Пользователи могут встраивать Tika в свои приложения, используя фасадный класс Tika. В нем есть методы для изучения всех функций Tika. Поскольку это фасадный класс, Tika абстрагирует сложность своих функций. В дополнение к этому пользователи также могут использовать различные классы Tika в своих приложениях.
Тика Класс (фасад)
Это самый известный класс библиотеки Tika, соответствующий шаблону оформления фасада. Поэтому он абстрагирует все внутренние реализации и предоставляет простые методы для доступа к функциям Tika. В следующей таблице перечислены конструкторы этого класса вместе с их описаниями.
package - орг.апаче.тика
class - Тика
Sr. No. | Конструктор и описание |
---|---|
1 | Tika () Использует конфигурацию по умолчанию и создает класс Tika. |
2 | Tika (Detector detector) Создает фасад Tika, принимая экземпляр детектора в качестве параметра |
3 | Tika (Detector detector, Parser parser) Создает фасад Tika, принимая экземпляры детектора и парсера в качестве параметров. |
4 | Tika (Detector detector, Parser parser, Translator translator) Создает фасад Tika, принимая в качестве параметров детектор, синтаксический анализатор и экземпляр переводчика. |
5 | Tika (TikaConfig config) Создает фасад Tika, принимая объект класса TikaConfig в качестве параметра. |
Методы и описание
Ниже приведены важные методы класса фасадов Tika:
Sr. No. | Методы и описание |
---|---|
1 | разбиратьToString (File файл) Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в формате String. По умолчанию длина этого строкового параметра ограничена. |
2 | int getMaxStringLength () Возвращает максимальную длину строк, возвращаемых методами parseToString. |
3 | пустота setMaxStringLength (интервал maxStringLength) Устанавливает максимальную длину строк, возвращаемых методами parseToString. |
4 | Читатель parse (File файл) Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в виде объекта java.io.reader. |
5 | Строка detect (InputStream поток, Metadata метаданные) Этот метод и все его варианты принимают в качестве параметров объект InputStream и объект Metadata, определяет тип данного документа и возвращает имя типа документа как объект String. Этот метод абстрагирует механизмы обнаружения, используемые Tika. |
6 | Строка translate (InputStream текст, String язык перевода) Этот метод и все его варианты принимают объект InputStream и строку, представляющую язык, на который мы хотим, чтобы наш текст переводился, и переводит данный текст на желаемый язык, пытаясь автоматически определить исходный язык. |
Интерфейс парсера
Это интерфейс, который реализован всеми классами парсеров пакета Tika.
package - org.apache.tika.parser
Interface - Парсер
Методы и описание
Ниже приводится важный метод интерфейса Tika Parser:
Sr. No. | Методы и описание |
---|---|
1 | parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) Этот метод анализирует данный документ на последовательность событий XHTML и SAX. После синтаксического анализа он помещает извлеченное содержимое документа в объект класса ContentHandler, а метаданные - в объект класса Metadata. |
Класс метаданных
Этот класс реализует различные интерфейсы, такие как CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable для поддержки различных моделей данных. В следующих таблицах перечислены конструкторы и методы этого класса вместе с их описаниями.
package - org.apache.tika.metadata
class - метаданные
Sr. No. | Конструктор и описание |
---|---|
1 | Metadata() Создает новые пустые метаданные. |
Sr. No. | Методы и описание |
---|---|
1 | add (Property property, String value) Добавляет отображение свойства / значения метаданных в данный документ. Используя эту функцию, мы можем установить значение свойства. |
2 | add (String name, String value) Добавляет отображение свойства / значения метаданных в данный документ. Используя этот метод, мы можем установить новое значение имени для существующих метаданных документа. |
3 | String get (Property property) Возвращает значение (если есть) заданного свойства метаданных. |
4 | String get (String name) Возвращает значение (если есть) указанного имени метаданных. |
5 | Date getDate (Property property) Возвращает значение свойства метаданных Date. |
6 | String[] getValues (Property property) Возвращает все значения свойства метаданных. |
7 | String[] getValues (String name) Возвращает все значения данного имени метаданных. |
8 | String[] names() Возвращает все имена элементов метаданных в объекте метаданных. |
9 | set (Property property, Date date) Устанавливает значение даты для данного свойства метаданных |
10 | set(Property property, String[] values) Устанавливает несколько значений для свойства метаданных. |
Класс языкового идентификатора
Этот класс определяет язык данного контента. В следующих таблицах перечислены конструкторы этого класса вместе с их описаниями.
package - org.apache.tika.language
class - Идентификатор языка
Sr. No. | Конструктор и описание |
---|---|
1 | LanguageIdentifier (LanguageProfile profile) Создает экземпляр идентификатора языка. Здесь вы должны передать объект LanguageProfile в качестве параметра. |
2 | LanguageIdentifier (String content) Этот конструктор может создать экземпляр идентификатора языка, передав String из текстового содержимого. |
Sr. No. | Методы и описание |
---|---|
1 | String getLanguage () Возвращает язык, присвоенный текущему объекту LanguageIdentifier. |