Google Dataproc Pyspark Properties

pyspark google-cloud-platform google-cloud-dataproc

896 просмотра

3 ответа

Я пытаюсь отправить pyspark в кластер Google DataProc, и я хочу указать свойства для конфигурации pyspark в командной строке. Документация говорит, что я могу указать эти свойства с --propertiesфлагом. Команда, которую я пытаюсь запустить, выглядит примерно так:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties=executor-memory=10G --properties=driver-memory=46G --properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt

Я серьезно попробовал каждую комбинацию, которую я могу придумать, для флага свойств:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties executor-memory=10G, driver-memory=46G,properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt

и т.д., но я не могу заставить его работать. Дает мне эту ошибку:

ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments: —-properties=executor-memory=10G
Usage: gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER [optional flags] [-- JOB_ARGS ...]
  optional flags may be  --archives | --driver-log-levels | --files | --help |
                     --jars | --labels | --properties | --py-files | -h

Кто-нибудь знает, как заставить это работать? Он говорит, что ему нужен список пар ключ-значение, но каков формат списка?

Автор: nbk Источник Размещён: 19.07.2019 07:09

Ответы (3)


1 плюс

Вы должны указать свойства в одном флаге как таковые: --properties = executor-memory = 10G, driver-memory = 46G, num-executors = 20

Вы также можете использовать ':' вместо '=', чтобы сделать его менее двусмысленным с другими флагами, например:

--properties = исполнитель-память: 10G, водитель-память: 46g, число-исполнители: 20

Автор: cloud-sdk-oncall Размещён: 14.02.2018 06:59

0 плюса

Формат списка - одна строка, разделенная запятыми k / v-пары, в кавычках:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster \
  —-properties='spark.executor.memory=10G,spark.driver.memory=46G,\
  spark.num.executors=20' -- -i X_small_train.txt -l y_small_train.txt\
  -u X_small_test.txt -v y_small_test.txt

Свойства также должны быть допустимыми синтаксисом конфигурации свойств pyspark, чего driver-memory=46Gне spark.driver.memory=46Gсуществует.

Автор: nbk Размещён: 15.02.2018 03:12

0 плюса

Имена свойств Pyspark должны быть такими же, как в этом списке . И правильный синтаксис команды для свойств:

gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER --properties=[PROPERTY-A=VALUE-A,PROPERTY-B=VALUE-B,…]

Автор: Watacroft Размещён: 20.02.2018 09:37
Вопросы из категории :
32x32