Лучшие практики для поиска в архиве с помощью hadoop с различными документами (pdf, ppt, MS word, обычный текст и т. Д.)

hadoop elasticsearch full-text-search hdfs elasticsearch-plugin

217 просмотра

1 ответ

У меня есть проблема, в которой у меня есть различные документы в различных форматах, таких как PDF, MS Word, PPT, простой текст и т. Д., Которые хранятся в HDFS . Я должен извлечь содержимое в индекс эластичного поиска и создать для него систему полнотекстового поиска. Я читал об ES-Hadoop . Но меня немного смущает, могу ли я использовать плагин mapper-attachments из ES или Apache Tika в этом случае и работает ли ES-Hadoop в реальном времени или нет (в случае, если я его использую).

Мне любопытно, что будет правильным способом извлечения содержимого из документов в индексы ES и поиска по нему.

Любая помощь будет оценена.

Сэчин

Автор: Sachin Источник Размещён: 29.10.2019 01:05

Ответы (1)


1 плюс

Решение

Относительно вашего вопроса о том, использовать ли подключаемый модуль ES mapper или Apache Tika. Я бы порекомендовал вам использовать плагин mapper, так как он хорошо интегрирован с Elasticsearch и избавит вас от огромных накладных расходов по индексированию и добавлению метаинформации в индексируемые документы.

Насколько я знаю, ES-Hadoop не предоставляет потоковые API (в реальном времени). Я работаю с ES-Hadoop и Apache Spark, и мне пришлось самостоятельно осуществлять потоковую передачу данных в Elasticsearch с помощью Apache Kafka.

Надеюсь, это поможет.

Автор: Eyal.Dahari Размещён: 05.04.2016 09:11
Вопросы из категории :
32x32