Передайте пользовательский job_id кластеру Google Dataproc для выполнения заданий pig / hive / spark

google-cloud-dataproc

383 просмотра

2 ответа

Имеется ли какой-либо флаг, позволяющий задать пользовательский job_id для заданий dataproc. Я использую эту команду для запуска заданий свиней.

Задания gcloud dataproc отправляют свинью --cluster my_cluster --file my_queries.pig

Я использую аналогичные команды для отправки заданий pyspark / hive.

Эта команда сама создает job_id, и впоследствии их сложно отследить.

Автор: abhishek jha Источник Размещён: 18.09.2019 07:17

Ответы (2)


1 плюс

Решение

Читая код gcloud, вы можете видеть, что в качестве имени задания используются аргументы с именем id.

https://github.com/google-cloud-sdk/google-cloud-sdk/blob/master/lib/googlecloudsdk/command_lib/dataproc/jobs/submitter.py#L56

поэтому вам нужно всего лишь добавить --id к вам команду gcloud

gcloud dataproc jobs submit spark --id this-is-my-job-name --cluster my-cluster --class com.myClass.Main --jars gs://my.jar

Автор: Pedro Fillastre Размещён: 05.03.2019 11:00

1 плюс

Хотя при использовании базового API REST можно предоставить собственный сгенерированный идентификатор вакансии, в настоящее время нет способа указать свой собственный идентификатор вакансии при отправке с помощью gcloud dataproc jobs submit; эта функция может быть добавлена ​​в будущем. Тем не менее, обычно, когда люди хотят указать идентификаторы заданий, они также хотят иметь возможность составлять списки с более сложными выражениями совпадений или потенциально иметь несколько категорий заданий, перечисленных с помощью разных видов выражений в разные моменты времени.

Итак, вы можете вместо этого рассмотреть метки dataproc ; метки предназначены специально для этого вида использования и оптимизированы для эффективного поиска. Например:

gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170508 ...
gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170509 ...
gcloud dataproc jobs submit pig --labels jobtype=mlpipeline,date=20170509 ...

gcloud dataproc jobs list --filter "labels.jobtype=mylogspipeline"
gcloud dataproc jobs list --filter "labels.date=20170509"
gcloud dataproc jobs list --filter "labels.date=20170509 AND labels.jobtype=mlpipeline"
Автор: Dennis Huo Размещён: 09.05.2017 05:23
Вопросы из категории :
32x32