читать данные из BigQuery и / или облачного хранилища GCS в Dataproc

google-bigquery google-cloud-storage google-cloud-dataproc

245 просмотра

1 ответ

Я читаю данные из BigQuery в искровой кластер dataproc. Если данные в таблице BigQuery в моем случае изначально загружаются из GCS, то лучше ли считывать данные из GCS непосредственно в кластер искры, поскольку соединитель BigQuery для dataproc (newAPIHadoopRDD) сначала загружает данные в корзину Google Cloud Storage? Есть ли плюсы и минусы между этими двумя методами?

Автор: bignano Источник Размещён: 02.10.2019 02:39

Ответы (1)


0 плюса

Решение

Использование коннектора BigQuery лучше всего подходит для случаев, когда вы хотите максимально абстрагировать экспорт / импорт GCS и не хотите явно управлять наборами данных внутри GCS.

Если у вас уже есть набор данных внутри GCS, вероятно, лучше использовать набор данных GCS напрямую, чтобы избежать дополнительных шагов экспорта, а также иметь возможность напрямую использовать более простые интерфейсы файловой системы. Недостатком является более дорогая поддержка двух копий набора данных (одна в GCS и одна в BQ) и их синхронизация. Но если размер не является чрезмерным и данные не обновляются слишком часто, вам может быть проще всего хранить набор данных GCS для прямого доступа.

Автор: Dennis Huo Размещён: 29.09.2017 09:33
Вопросы из категории :
32x32