Google Dataproc Pyspark Properties
896 просмотра
3 ответа
Я пытаюсь отправить pyspark в кластер Google DataProc, и я хочу указать свойства для конфигурации pyspark в командной строке. Документация говорит, что я могу указать эти свойства с --properties
флагом. Команда, которую я пытаюсь запустить, выглядит примерно так:
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster —-properties=executor-memory=10G --properties=driver-memory=46G --properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt
Я серьезно попробовал каждую комбинацию, которую я могу придумать, для флага свойств:
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster —-properties executor-memory=10G, driver-memory=46G,properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt
и т.д., но я не могу заставить его работать. Дает мне эту ошибку:
ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments: —-properties=executor-memory=10G
Usage: gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER [optional flags] [-- JOB_ARGS ...]
optional flags may be --archives | --driver-log-levels | --files | --help |
--jars | --labels | --properties | --py-files | -h
Кто-нибудь знает, как заставить это работать? Он говорит, что ему нужен список пар ключ-значение, но каков формат списка?
Автор: nbk Источник Размещён: 19.07.2019 07:09Ответы (3)
1 плюс
Вы должны указать свойства в одном флаге как таковые: --properties = executor-memory = 10G, driver-memory = 46G, num-executors = 20
Вы также можете использовать ':' вместо '=', чтобы сделать его менее двусмысленным с другими флагами, например:
--properties = исполнитель-память: 10G, водитель-память: 46g, число-исполнители: 20
Автор: cloud-sdk-oncall Размещён: 14.02.2018 06:590 плюса
Формат списка - одна строка, разделенная запятыми k / v-пары, в кавычках:
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster \
—-properties='spark.executor.memory=10G,spark.driver.memory=46G,\
spark.num.executors=20' -- -i X_small_train.txt -l y_small_train.txt\
-u X_small_test.txt -v y_small_test.txt
Свойства также должны быть допустимыми синтаксисом конфигурации свойств pyspark, чего driver-memory=46G
не spark.driver.memory=46G
существует.
0 плюса
Имена свойств Pyspark должны быть такими же, как в этом списке . И правильный синтаксис команды для свойств:
gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER --properties=[PROPERTY-A=VALUE-A,PROPERTY-B=VALUE-B,…]
Вопросы из категории :
- pyspark импорт pyspark в оболочку python
- pyspark Как отключить ведение журнала INFO в Spark?
- pyspark Преобразование простой строки строки в RDD в Spark
- pyspark Как создать Spark 1.2 с Maven (дает java.io.IOException: не удается запустить программу «javac»)?
- pyspark Загрузить файл CSV с помощью Spark
- pyspark PySpark & ??MLLib: класс вероятностей случайных лесных прогнозов
- google-cloud-platform Как использовать Google App Engine с моим собственным голым доменом (не поддоменом)?
- google-cloud-platform Наглядный пример использования Google App Engine Images get_serving_url ()
- google-cloud-platform Как открыть определенный порт, например 9090, в Google Compute Engine
- google-cloud-platform Как увеличить размер корневого диска в Google Compute Engine?
- google-cloud-platform В чем разница между Google App Engine и Google Compute Engine?
- google-cloud-platform Как определить URI Google Cloud Storage из консоли Google Developers Console?
- google-cloud-dataproc Примеры Dataproc + BigQuery - есть ли в наличии?
- google-cloud-dataproc Гуава версия при использовании спарк-оболочки
- google-cloud-dataproc Pausing Dataproc cluster - Google Compute engine
- google-cloud-dataproc SparkR на Dataproc (Spark 1.5.x) не работает
- google-cloud-dataproc Мониторинг сеансов Spark-Shell или PySpark-Shell в кластере Dataproc
- google-cloud-dataproc Миграция Google Cloud Dataproc на Spark 1.6.0