我在GCS中使用python大熊猫来编写一个DataFrame到parquet,然后使用将GCS文件传输到Bigquery表中。有时,当DataFrame很小时,整个列可能具有空值。当发生这种情况时,Bigquery将空值列视为INTEGER类型,而不是parquet声明的类型。
当试图将其附加到期望该列为NULLABLE STRING的现有表时,大查询传输服务将在INVALID_ARGUMENT: Provided Schema does not match Table project.dataset.dataset_health_reports. Field asin has change
这似乎是一个bug,如果是的话,我很乐意将它发布在官方的BigQuery跟踪器中,但我想我应该先问一下--如果我们做错了/做了什么蠢事。
好的,我们有一个外部表(GCS中的CSV文件)。在BigQuery中查询它时,它的工作非常好。但是,当在WITH子句中使用它时,BigQuery会遇到以下错误:
“作业在执行过程中遇到内部错误,无法成功完成。”
检查职务详细信息不会显示更多详细信息。
下面是一个简单的例子:
WITH
foo AS (
SELECT
*
FROM
TMP.fed_source_gcs), <-- this is a file in G