是否可以使用自定义函数从BigQuery中读取gcs对象的元数据

文章/答案/技术大牛

发布

2回答

、、

我正在从GCS对象(使用csv和json文件类型(在单独的表中))向BigQuery表中摄取数据，我想执行数据验证，因此在将文件上传到GCS期间，我已经在文件元数据中存储了行数，现在在摄取完成后，我想验证摄取表中的行数是否与文件元数据中的行

浏览 40提问于2021-06-16得票数 0

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从<em

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

将BigQuery和/或云存储GCS中的数据读入Dataproc

、、

我正在将数据从BigQuery读取到dataproc火花集群中。如果在我的示例中，BigQuery表中的数据最初是从GCS加载的，那么从GCS直接读取数据到星火集群是否更好，因为用于dataproc (newAPIHadoopRDD)的<e

浏览 2提问于2017-09-29得票数 0

回答已采纳

2回答

波束数据流流水线表创建Sink作为来自GCS的Bigquery

、、、

我想创建beam数据流作业来从GCS加载数据到Bigquery，我将在GCS的不同文件夹中有100s的文件，可以在GCS的不同文件夹中加载文件，是否可以在beam代码中创建源数据集和表。我的最终目标是创建管道，将数据从GCS加载到Bigquery</

浏览 10提问于2021-02-23得票数 0

回答已采纳

1回答

将云存储文件转换为BigQuery表/数据集，然后再进行查询

、、、、

很棒的东西。现在我想从GCS获取数据，将其转换为BigQuery数据集。对于每个文件，我想创建一个新的数据集。同样，这也可能是我使用Eclipse或Maven编译的方式，但我看不到任何方法来加载基于Google的项目。日蚀通过加载找到

浏览 4提问于2017-01-24得票数 0

1回答

google cloud dataflow从压缩数据中读取数据

我正在尝试使用google cloud dataflow从GCS中读取数据并加载到BigQuery表中，但是GCS中的文件是压缩的(Gzip)，有没有类可以用来从压缩/gzip文件中读取数据？

浏览 1提问于2015-02-07得票数 2

1回答

BigQueryIO.read().fromQuery性能慢

、、

我注意到的一件事是，BigQueryIO.read().fromQuery()的性能比BigQueryIO.read().from()在Apache中的性能要慢得多。这一切为什么要发生？有什么办法可以改进吗？

浏览 1提问于2018-04-18得票数 7

回答已采纳

3回答

压缩保存在Google云存储中的文件

、

是否可以压缩已经保存在Google云存储中的文件？这些文件是由Google数据流代码创建和填充的。数据流不能写入压缩文件，但我的要求是以压缩格式保存它。

浏览 43提问于2016-08-10得票数 2

回答已采纳

2回答

在云功能中，GCS的文件大小可以处理多大？

、、、

我希望使用GCP中的云函数将GCS中的>=4 GB数据传输到BigQuery。有可能这样做吗？我尝试使用mkfile命令创建一个临时的5 gb数据文件，并尝试上传到GCS。这需要很长的时间，但仍然没有上传。这是否意味着GCS不能处理超过特定文件大小的文件。在我所引用的

浏览 3提问于2021-08-12得票数 0

回答已采纳

3回答

有没有办法使用数据流读取Excel文件

、

有没有办法使用Dataflow读取存储在GCS存储桶中的Excel文件？我还想知道我们是否可以使用Dataflow访问GCS中对象的元数据。如果是，那么是如何实现的？

浏览 3提问于2017-04-26得票数 2

1回答

创建外部表的BigQuery* Node.js接口*

、、、、

我正在尝试使用node.js应用程序接口从谷歌云函数创建一个外部表。该函数将从GCS存储桶的变化中触发。我可以创建本机表，但不能创建外部表。在用于导入的node.js api中，configuration.load元数据没有将其指定为外部表的设置。到目前为止，这是我创建本机表的代码。我的问题是“如何使用

浏览 1提问于2017-03-21得票数 1

3回答

google云上的存储

、

我有以下用例:需要使用PySpark分析大量结构化数据。数据当前为CSV格式。我正在尝试找出在谷歌云上存储数据的最佳方式。我的理解是HDFS不会工作，因为每次集群关闭，HDFS数据都会消失，所以我每次都必须从CSV转换到HDFS，这很耗时。似乎正确的策略是使用BigQuery，但是我不能确定BigQuery是否是持久性的？

浏览 20提问于2017-06-28得票数 0

回答已采纳

1回答

使用存储的Proc从GCS到BigQuery表

、

我想要创建一个存储的Proc，它可以从GCS存储桶中读取数据并存储到bigquery中的表中。我能够使用python连接到gcs并创建bigquery客户端。credentials = service_account.Credentials.from_service_account_file(path_to_key) bq_client = <e

浏览 1提问于2021-08-05得票数 0

回答已采纳

1回答

直接将BigQuery查询结果写入GCS* --是否有可能？*

、、

我尝试了bq命令行工具，但它似乎无法直接将结果写入GCS。我能看到的唯一方法就是：我正在寻找一种直接将结果写入GCS的方法。

浏览 4提问于2016-08-10得票数 2

回答已采纳

1回答

云Dataproc使用BigQuery连接器读取BigQuery视图

、

是否有可能让Cloud使用BigQuery连接器读取BigQuery视图？另外，对于用户来说，比如在Apache ( Dataproc )中运行了一些工作负载，在相同的数据上运行一些工作负载( BigQuery )-- =>是否更好地将数据保存在(GCS)中，作为avro编码格式(或)，是否最好仅以BigQuery格式保存

浏览 0提问于2019-02-01得票数 0

回答已采纳

2回答

Python将GCS中的.json文件并行读取到熊猫DF中。

、、、、

TL;DR: asyncio vs multi-processing vs threading vs some other solution，将读取GCS文件的for循环并行化，然后将这些数据附加到熊猫数据中我想做一个并行的python函数，它从GCS目录中读取数十万个小.json文件，然后将这些.jsons转换成熊猫数据格式，然后将熊猫数据写入BigQu

浏览 1提问于2020-07-23得票数 3

2回答

在将数据从BigQuery导出到GCS桶时，CSV数据中的自定义分隔符？

、、

将CSV gzipped数据从GCS桶导出到我的Hadoop集群HDFS。问题：我的数据在一些字段中的引号中包含嵌入的逗号和换行符。当我生成我的hive表时，嵌入的<

浏览 5提问于2015-03-12得票数 2

2回答

从中提取JSON，转换成熊猫DF，并写信给Google BigQuery

、、、、

我正在开发一个带有气流的直进ETL :每天从API中提取数据，返回( GCS )中JSON文件中的原始数据，然后将来自GCS的数据附加到BigQuery数据库中。对于BigQuery中有1K行的表，我将首先创建/保存1K单独的对象，保存到GCS<e

浏览 8提问于2020-07-20得票数 2

回答已采纳

3回答

如何在特定的BigQuery数据集中设置运行查询和创建表的权限？

我试图限制用户在BigQuery中只能看到特定的数据集。我希望用户只能运行查询和创建表。因此，我共享了dataset权限，并为他们提供了角色BigQuery Data Viewer (查看数据)和BigQuery User (运行查询和创建表)。但每当我运行查询时，我都会得到以下错误：访问被拒绝:项目xxx:用户在项目xxx中没有bigquery.jobs.create权限。我检查了和BigQuery用户角色<em

浏览 2提问于2020-03-02得票数 0

1回答

：审计从Apache气流到BigQuery的Dags状态

、、、、

我想将有关DAGs执行状态的所有信息都审计到一个表BigQuery中，我想通过Dags中的python代码来实现这一点，因为已经编写的代码正在将数据加载到BigQuery表中(如下所示)。需要帮助在现有代码中附加审计逻辑。

浏览 2提问于2022-08-17得票数 0

点击加载更多