BigQuery使用Parquet文件创建具有自动检测方案的外部表

文章/答案/技术大牛

发布

1回答

python、google-bigquery、parquet

我找不到任何示例来从带有自动检测模式的Paquet文件创建外部表。下面是我当前的代码： bq_client = bigquery.Client.from_service_account_json(key_path) so

浏览 30提问于2021-06-24得票数 0

1回答

如何在BigQuery强制字符串类型中加载拼图文件？

string、google-bigquery、parquet

我想只使用所有属性的字符串类型将数据从拼图文件加载到BigQuery中。我想强制所有数据保持字符串类型，以避免将来由于类型与其他文件不兼容而导致的加载失败。我有不同类型的拼图文件：STRING, FLOAT... 并且我已经创建了一个仅具有字符串类型的bigquery表。我运行以下命令，将数据从我的拼图文件加载到BigQ

浏览 19提问于2021-11-03得票数 1

1回答

在Bigquery中查询外部表和新数据到达时没有模式自动检测。

google-bigquery、google-cloud-platform、google-cloud-storage

这就是目前的情况：我正在测试它是如何与模式自动检测相关的。当我创建表时，有2个具有不同模式的json文件，Bigquery做得很好。当我用新模式加载一个新文件(向记录字段添加一个新属性)时，Bigquery会识别新记录，但是这个新字段不会出现。

浏览 1提问于2018-01-25得票数 1

回答已采纳

2回答

具有少量字段的记录的最高性能文件格式(Avro/Parquet/ORC)

google-bigquery、avro、parquet、orc

我正在向BigQuery上传大量数据(约160 Im未压缩)。 GZIP对我来说不是一个选项，这里需要压缩，所以我使用Avro/Parquet/ORC在块级别上进行压缩。我试着在网上查找，但发现这三种格式之间的性能比较很少，我确实找到了来自看起来不可靠的网站。我的记录包含大约20个字段，其中一个字段是包含2个字段的记录(可以展平，不必是记录)。我对读取速度不太感兴趣，因为BigQuery将会这样做，在写入方面性能最好的</

浏览 26提问于2019-12-31得票数 1

1回答

以Parquet格式将GCS导出到GCS

google-cloud-platform、google-cloud-storage、google-cloud-sql、parquet

我有GCP中的数据，我想以Parquet格式将这些数据导出到GCS中，我发现这是不可能的，只有我可以用SQL和CSV格式来导出数据。

浏览 2提问于2021-03-04得票数 1

回答已采纳

3回答

从大熊猫中加载BigQuery表DataFrames

python、pandas、google-cloud-platform、google-bigquery、parquet

我正在尝试使用官方的python客户机库将一个相对较大的pandas dataframe df加载到Google BigQuery表table_ref中。到目前为止，我已经尝试了两种不同的方法：client = bigquery.Client()2)将数据存储保存到位于uri parquet</em

浏览 12提问于2020-03-29得票数 5

回答已采纳

2回答

Bigquery创建表(本机或外部)与Google云存储的链接

google-bigquery、google-cloud-storage

我有一些文件上传到(csv和json)。在创建bigquery表的过程中，我可以检查"Schema自动检测“。"Schema自动检测“与json新行分隔格式文件工作得很好。但是对于csv文件，第一行是“列名”，bigq

浏览 3提问于2017-03-22得票数 1

回答已采纳

1回答

应为类型“str”，而应为“_SpecialForm[str]”

python-3.x、google-cloud-platform、google-bigquery、bq

我正在尝试创建一个BQ表模式，如下面的page所示但是我得到了所有mode="REQUIRED"的编译错误除了bq模块之外，我没有看到任何需要导入的特殊内容。ADS_TO_REMOVE_TABLE_NAME, bigquery.SchemaField("add_id", "STRING", mod

浏览 80提问于2021-09-12得票数 0

回答已采纳

1回答

BigQuery:从类查询作为外部数据源的拼花文件的价格

google-bigquery、google-cloud-storage、parquet

BigQuery允许在各种存储类中查询外部表。从Coldline访问数据有一个数据。拼花格式文件提供柱状存储。当通过BigQuery从Coldline访问Parquet格式文件时，数据检索成本是基于查询的数据列还是基于整个Parquet文件？

浏览 7提问于2020-05-13得票数 2

回答已采纳

1回答

如何在指定数据类型的同时将数据从S3加载到雪花中

amazon-s3、snowflake-cloud-data-platform、data-warehouse

我知道，可以将S3中的文件(例如csv、parquet或json)中的数据加载到雪花中，方法是创建一个具有文件格式的csv类型的外部阶段，然后将其加载到具有1列VARIANT类型的表中。但是，这需要一些手动步骤才能将数据转换为正确的类型来创建一个可用于分析的视图。是否有一种方法可以从S3自动执行此加载过程，以

浏览 2提问于2021-03-01得票数 1

回答已采纳

1回答

BigQuery -在Python语言中创建外部表

python-2.7、google-bigquery

我找不到任何关于如何使用Python在BigQuery中创建外部表的文档。我希望在不使用自动检测但传递模式的情况下创建表。有人知道怎么做吗？谢谢!

浏览 0提问于2018-07-31得票数 3

1回答

谷歌云BigQuery* load_table_from_dataframe() Parquet AttributeError*

python、pandas、google-bigquery

我正在尝试使用BigQuery包与Pandas DataFrames进行交互。在我的场景中，我在BigQuery中查询一个基表，使用.to_dataframe()，然后将它传递给load_table_from_dataframe()，将其加载到BigQuery中的一个新表中。我最初的问题是str(uuid.uuid4()) (对于随机ID)被自动转换为字节而不是字符串，所以我强制使用一个模式，而不是

浏览 0提问于2018-06-24得票数 1

1回答

是否有BigQuery* LoadJob配置来使用模式自动检测过滤掉不需要的列？*

python、google-cloud-platform、google-bigquery、google-cloud-python

我理解这可能是相当微不足道的，但我正在努力寻找一个优雅的解决方案。是否可以忽略某些列作为加载作业的一部分？，例如我正在创建一个来自以下CSV文件的LoadJob (我已经格式化了该文件<

浏览 7提问于2021-10-29得票数 0

回答已采纳

1回答

扫描拼花联合表时出现INT32类型错误。窃听器还是预期的行为？

google-bigquery、parquet、parquet-mr

我使用BigQuery查询外部数据源(也称为联邦表)，其中源数据是存储在google云存储中的一个分区块表。我使用来定义表。我第一个测试此表的查询如下所示此查询失败我使用parquet-tools库

浏览 1提问于2020-04-09得票数 1

回答已采纳

1回答

如何从拼花文件中训练AutoML模型？

google-cloud-vertex-ai

目前AutoML只支持BigQuery和CSV：是否有任何方法从文件(例如存储在GCS上)进行培训？

浏览 3提问于2022-10-05得票数 0

1回答

列为零值的拼花被转换为整数

google-bigquery、parquet、google-cloud-data-transfer

我在GCS中使用python大熊猫来编写一个DataFrame到parquet，然后使用将GCS文件传输到Bigquery表中。有时，当DataFrame很小时，整个列可能具有空值。当发生这种情况时，Bigquery将空值列视为INTEGER类型，而不是parquet声明的类型。当试图将其附加到期望该列为NULLABLE STRING的现有表时，大查询传输服务将在INVALID_A

浏览 25提问于2022-08-18得票数 0

1回答

利用Avro/Parquet将地理数据导入BigQuery

google-cloud-platform、google-bigquery、gis、avro、parquet

目前，我使用拼图文件将数据导入BigQuery (地理信息系统)。其中一个拼图文件包含几何列，将几何数据表示为WKT字符串(MultiPolygon)，我想将该列作为GEOGRAPHY类型导入。文档提到不支持从WKT (string)到GEOGRAPHY的自动转换，那么我如何克服这个问题？我希望避免使用CSV文件，并手动提供模式定义。然而，即使我首先创建了空表，并且只想添加新的拼图文件，它也不起作用

浏览 29提问于2018-09-18得票数 3

回答已采纳

1回答

如何在文件中创建外部表以便在气流Dag中运行

python、google-cloud-platform、google-bigquery、airflow、directed-acyclic-graphs

我正在尝试为GCS桶上存在的Parquet文件在Big Query中创建一个外部表。但是，我在气流中运行下面的代码时出错了：ERROR - 400 POST https://bigquery.googleapis.com/bigquery/v2/projects/project_dev', destination_project_dataset_table=

浏览 2提问于2021-10-20得票数 0

回答已采纳

2回答

BigQuery -从驱动器创建表格时，谷歌工作表文件格式不再可用

google-bigquery、google-drive-api

自9月15日以来，当从驱动器创建数据库表时，BigQuery不再建议使用GOOGLE_SHEET文件格式。取而代之的是新的格式类型: Avro、JSONL、CSV、Parquet、ORC和云数据存储备份。通过粘贴CSV或Avro格式的电子表格的URL来创建表时，BigQuery会发送错误消息：Failed to create table: Undefined pa

浏览 40提问于2021-09-16得票数 0

2回答

BigQuery表加载的avro模式推断

google-bigquery、google-cloud-storage

我正在使用java，试图将avro文件中的数据加载到BigQuery中。创建外部表时，BigQuery会自动从.avro文件中检测架构。在为要加载的数据创建常规BigQuery表时，是否有一种方法在GCS中指定模式/数据文件？先谢谢你

浏览 1提问于2018-08-23得票数 0

回答已采纳

点击加载更多