Как отправить работу Pyspark с зависимостью от кластера Google DataCroc

pyspark google-cloud-dataproc

1223 просмотра

1 ответ

Я использую кластер Google Dataproc для запуска искры, сценарий на Python.

Когда есть только один скрипт (например, test.py), я могу отправить задание с помощью следующей команды:

Задания gcloud dataproc отправляют pyspark --cluster analysis ./test.py

Но теперь test.py импортирует модули из других скриптов, написанных мной, как я могу указать зависимость в команде?

Автор: 肉肉Linda Источник Размещён: 28.10.2019 05:17

Ответы (1)


1 плюс

Вы можете использовать опцию --py-files

Смотрите здесь: https://cloud.google.com/sdk/gcloud/reference/dataproc/jobs/submit/pyspark

Автор: tix Размещён: 22.04.2016 04:23
Вопросы из категории :
32x32