Передайте пользовательский job_id кластеру Google Dataproc для выполнения заданий pig / hive / spark
383 просмотра
2 ответа
Имеется ли какой-либо флаг, позволяющий задать пользовательский job_id для заданий dataproc. Я использую эту команду для запуска заданий свиней.
Задания gcloud dataproc отправляют свинью --cluster my_cluster --file my_queries.pig
Я использую аналогичные команды для отправки заданий pyspark / hive.
Эта команда сама создает job_id, и впоследствии их сложно отследить.
Автор: abhishek jha Источник Размещён: 18.09.2019 07:17Ответы (2)
1 плюс
Читая код gcloud, вы можете видеть, что в качестве имени задания используются аргументы с именем id.
поэтому вам нужно всего лишь добавить --id к вам команду gcloud
gcloud dataproc jobs submit spark --id this-is-my-job-name --cluster my-cluster --class com.myClass.Main --jars gs://my.jar
1 плюс
Хотя при использовании базового API REST можно предоставить собственный сгенерированный идентификатор вакансии, в настоящее время нет способа указать свой собственный идентификатор вакансии при отправке с помощью gcloud dataproc jobs submit
; эта функция может быть добавлена в будущем. Тем не менее, обычно, когда люди хотят указать идентификаторы заданий, они также хотят иметь возможность составлять списки с более сложными выражениями совпадений или потенциально иметь несколько категорий заданий, перечисленных с помощью разных видов выражений в разные моменты времени.
Итак, вы можете вместо этого рассмотреть метки dataproc ; метки предназначены специально для этого вида использования и оптимизированы для эффективного поиска. Например:
gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170508 ...
gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170509 ...
gcloud dataproc jobs submit pig --labels jobtype=mlpipeline,date=20170509 ...
gcloud dataproc jobs list --filter "labels.jobtype=mylogspipeline"
gcloud dataproc jobs list --filter "labels.date=20170509"
gcloud dataproc jobs list --filter "labels.date=20170509 AND labels.jobtype=mlpipeline"
Автор: Dennis Huo
Размещён: 09.05.2017 05:23
Вопросы из категории :
- google-cloud-dataproc Примеры Dataproc + BigQuery - есть ли в наличии?
- google-cloud-dataproc Гуава версия при использовании спарк-оболочки
- google-cloud-dataproc Pausing Dataproc cluster - Google Compute engine
- google-cloud-dataproc SparkR на Dataproc (Spark 1.5.x) не работает
- google-cloud-dataproc Мониторинг сеансов Spark-Shell или PySpark-Shell в кластере Dataproc
- google-cloud-dataproc Миграция Google Cloud Dataproc на Spark 1.6.0
- google-cloud-dataproc Google Dataproc - часто отключайтесь от исполнителей
- google-cloud-dataproc Когда вы отправляете задание с помощью pyspark, как получить доступ к загрузке статических файлов с аргументом --files?
- google-cloud-dataproc Доступ к данным в хранилище Google для Apache Spark SQL
- google-cloud-dataproc Exec Sh от PySpark
- google-cloud-dataproc Google Cloud Dataproc - ошибка файла задания по команде sc.textFile ()
- google-cloud-dataproc Spark работа из ОЗУ (java.lang.OutOfMemoryError), хотя есть много. хмх слишком низко?
- google-cloud-dataproc Как я могу загрузить данные, которые невозможно получить в каждом исполнителе Spark?
- google-cloud-dataproc Перестал работать DataProc MapReduce
- google-cloud-dataproc Как вы используете Java-клиент Google DataProc для отправки искровых заданий с использованием jar-файлов и классов в соответствующем сегменте GS?
- google-cloud-dataproc Подключение ноутбука IPython к Spark Master, работающему на разных машинах
- google-cloud-dataproc Спарк-кластер Google DataProc API с c #
- google-cloud-dataproc Spark looses all executors one minute after starting
- google-cloud-dataproc Spark 1.6 Кафка потокового на dataproc py4j ошибка
- google-cloud-dataproc Использование одного и того же JavaSparkContext для нескольких заданий во избежание использования времени при инициализации драйвера искры