问用云函数将TXT文件转换为CSV，并在Google BigQuery中填充数据
EN

Stack Overflow用户

提问于 2021-02-22 18:29:23

回答 1查看 643关注 0票数 0

我正在尝试转换一个txt。卷进csv。并通过Google函数使用所有数据填充BigQuery表。

TXT文件看起来非常类似于CSV文件，如下所示。整个文件权重约为35 is，超过350 k行。

我试着应用上面共享的python脚本，但是它没有工作.我的函数运行正常，但它没有将任何数据填充到BigQuery。

我跟踪了这个stackoverflow胎面。

我的main.py函数：

import pandas as pd
from google.cloud import bigquery

def txt_to_csv(event, context):
    fileName = "gs://Bucket_name/file.txt" 
    bigqueryClient = bigquery.Client("project-name")
    tableRef = bigqueryClient.dataset("Dataset").table("07_02_2021")
    dataFrame = pd.read_csv(fileName, sep=",")
    bigqueryJob = bigqueryClient.load_table_from_dataframe(dataFrame, tableRef)
    bigqueryJob.result()

我的requirements.txt文件：

google-api-core==1.16.0
google-api-python-client==1.8.0
google-auth==1.12.0
google-auth-httplib2==0.0.3
google-cloud-bigquery==1.24.0
google-cloud-core==1.3.0
google-cloud-storage==1.26.0
google-resumable-media==0.5.0
googleapis-common-protos==1.51.0
pandas==1.0.3
pyarrow

有谁能帮我吗？，我觉得我错过了一步让它正常工作.比如我的桌子上的创建特定的数据schema/架构？或者我应该把熊猫的数据放在桌子上，还是走错路了？

python

csv

google-bigquery

google-cloud-functions

txt

大数据产品特惠专场

BI、WeData新客仅9.9元！新客首单1折起！

回答 1

Stack Overflow用户

发布于 2021-03-25 08:04:26

我成功地使用您的代码从云存储桶中的文件中填充了数据：

import pandas as pd
from google.cloud import bigquery

def txt_to_csv(event, context):
    fileName = "gs://Bucket_NAME/File.txt" 
    bigqueryClient = bigquery.Client("PROJECT_ID")
    tableRef = bigqueryClient.dataset("DATASET_NAME").table("TABLE_NAME")
    dataFrame = pd.read_csv(fileName, sep=",")
    bigqueryJob = bigqueryClient.load_table_from_dataframe(dataFrame, tableRef)
    bigqueryJob.result()

我遵循了接下来的步骤：

1)我对以下数据使用了一个.txt文件：

full_name,birth_year
"Lea",1996
"Jose",1995
"John",1997
"Berta",2001
"Marta",2005

2)我在BigQuery中创建了一个包含以下字段的表：

full_name作为字符串
birth_year作为整数

3)我使用您提供的requirements.txt部署云函数，但是当我测试云函数 "By going to your Cloud Function --> Testing Tab and click on **Test the Function **button时，它成功地部署了"，我得到了以下错误：

Missing optional dependency 'gcsfs'. The gcsfs library is required 
to handle GCS files Use pip or conda to install gcsfs.

为了缓解这个问题，我将gcsfs库添加到Cloud requirements.txt文件中：

google-api-core==1.16.0
google-api-python-client==1.8.0
google-auth==1.12.0
google-auth-httplib2==0.0.3
google-cloud-bigquery==1.24.0
google-cloud-core==1.3.0
google-cloud-storage==1.26.0
google-resumable-media==0.5.0
googleapis-common-protos==1.51.0
pandas==1.0.3
pyarrow
gcsfs==0.7.2

4)我再次部署了这个函数并进行了测试。这一次函数正确地将数据添加到BigQuery表.中。

溶液

所以请注意:部署云函数不会将数据填充到BigQuery中，您需要对其进行测试。
另一方面，您有一个字段为strings的表，但是在.txt文件中，您有类型为Integer、时间戳等的数据。如果您只想测试，那么您可以将.txt文件中的所有数据作为字符串，或者根据文件中的数据类型更改BigQuery表的字段类型。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66326218

复制

曾经，我以为我很懂MySQL索引

云数据库 SQL Server 数据库 sql 二叉树数据结构

在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。

陈哈哈

2020/09/11

8070