Листинг экстракторов из import.io

python web-crawler import.io

170 просмотра

1 ответ

580 Репутация автора

Я хотел бы знать, как получить данные сканирования (список URL-адресов, вводимых вручную через графический интерфейс) из моих экстракторов import.io. Документация по API очень скудна, и в ней не указано, действительно ли запросы GET, которые я делаю, запускают сканер (и используют один из моих доступных прогонов сканера) или просто запрашивают результат запускаемых вручную сканеров.

Также я хотел бы знать, как получить идентификатор соединителя, поскольку, как я понимаю, экстрактор является не чем иным, как специализированным соединителем, но когда я использую extractor_id в качестве идентификатора соединителя для запроса API, я получаю, что соединитель не существует.

Я подумал, что мог бы перечислить URL-адреса, которые у меня есть, в одном из моих экстракторов:

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...

Но единственный результат, который я получаю:

{"взял": 2, "timed_out": ложь, "хиты": {"всего": 0, "хиты": [], "max_score": 0}}

Тем не менее, даже если бы я получил более полный ответ, пример результата, который я вижу в документации, не упоминает какой-либо список или элемент, содержащий URL-адреса, которые я пытаюсь получить из своей учетной записи import.io.

Я использую Python для создания этого API

Автор: johan855 Источник Размещён: 18.07.2016 09:16

Ответы (1)


1 плюс

51 Репутация автора

Решение

Устаревший API не будет работать с любыми устаревшими соединителями, поэтому вам придется использовать новый Web Extractor API. К сожалению, нет документации для этого.

К счастью, с помощью некоторого отслеживания вы можете найти следующий вызов для списка соединителей, подключенных к вашему apikey:

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY

Отсюда вы проверяете каждое попадание и проверяете, что для свойства _type установлено значение EXTRACTOR. Это даст вам доступ, среди прочего, к GUID, связанному с экстрактором, и к имени, которое вы выбрали для него при его создании.

Затем вы можете сделать следующее, чтобы загрузить последний запуск из экстрактора в формате CSV:

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY

Это было найдено на вкладке Integrations каждого Web Extractor. Там есть и другие вопросы.

Надеюсь это поможет.

Автор: Blake Burkett Размещён: 04.08.2016 07:35
Вопросы из категории :
32x32