Вопрос:

уменьшить карту - извлечь текст из PDF

pdf amazon-s3 nlp pyspark rdd

460 просмотра

1 ответ

1 Репутация автора

У меня есть большое количество PDF-файлов в каталоге s3. Как применить карту-уменьшить / параллельно обработать их с помощью pyspark. Все, что я хочу сделать, это извлечь из них текст и затем сохранить его в СДР; так как количество файлов велико, я бы хотел сделать это параллельно.

В pyspark есть метод wholeTextFiles, который может читать каталог текстовых файлов. Но у меня есть это в формате PDF, и я хотел бы предварительно обработать PDF, чтобы извлечь из него текст, прежде чем я смогу обработать текст.

Любая помощь будет оценена

Автор: Achuthan Sekar Источник Размещён: 08.11.2017 10:40

Ответы (1)


0 плюса

1252 Репутация автора

Если вы работаете с PDF-файлами, то я считаю, что это не тот формат, в котором вы можете работать напрямую из Spark. Вы можете проверить spark-packages.org и увидеть, что нет никаких библиотек PDF

Однако существует множество библиотек, которые позволяют извлекать текст с помощью PDF-файлов, например, Tika или Tesseract. Так что все, что вам нужно сделать, это извлечь текст из каждого файла. К счастью, вы можете сделать это из Python, используя любую из библиотек, упомянутых в этом посте: модуль Python для преобразования PDF в текст

Кроме того, есть эта запись в блоге от Cloudera, которая может помочь вам извлечь текст и сделать с ним что угодно, используя несколько строк кода Spark и одну библиотеку:

Практическое руководство. Индексирование отсканированных PDF-файлов в масштабе с использованием менее 50 строк кода

Автор: xmorera Размещён: 09.11.2017 03:26
Вопросы из категории :
32x32