在保持列结构的同时将大型csv加载到dataframe中

我正在编写一个python云函数，以便在添加新的列creation_date后将csv文件加载到BigQuery中。到目前为止还没有成功。有没有办法使用云函数或pandas来实现这一点？我已经通过其他链接，csv文件是在添加日期列后生成并保存在全局控制系统中，.My要求不是要创建任何额外的file.Do，你认为熊猫会很好option.Please建议。谢谢Ritu

浏览 67提问于2021-08-04得票数 0

回答已采纳

2回答

如何在某些列值上按行过滤多个csv文件

、、、、

我正在编写一段代码，其中我使用包含来自不同出版物的评论的csv文件，这是csv文件中的第3列。我必须选择出版物为“纽约时报”或“大西洋”的行。如何同时对多个csv文件执行此操作？我将csv文件(数据包含3个文件)加载到数据帧字典中。下面是我加载数据的方式： filenames = glob('articles*.<em

浏览 0提问于2019-01-21得票数 0

1回答

csv到pandas.DataFrame，同时保持数据的原始编码

、、

我有一个包含一些utf8 unicode字符的csv文件，我希望将它加载到pandas.DataFrame中，同时保持unicode字符的原样，而不是转义它们。输入.csv8,\u0668,"\u0668,\u06F8"df = pd.DataFrame.from_csv(&quo

浏览 2提问于2018-04-23得票数 0

3回答

熊猫格式-如何将DataFrame float64列(带有NaNs)保存为int？

、、、、

我的DataFrame大约有20个列，具有混合的列类型；其中一个是一个15到18位数字的ID号。有些行没有ID号(列中有NaNs )。当读取.csv时，ID号是用科学符号编写的，失去了ID号的好处.我试图找到一种方法将DataFrame保存为csv (使用.to_csv)，同时将这个ID号保持

浏览 2提问于2017-01-23得票数 0

回答已采纳

1回答

如何使用Dash绘制CSV文件中的数据

、

我是python的新手，正在寻找可视化数据的方法。我遇到过“Dash”--但我想知道如何根据保存在CSV中的数据显示图形？目前我有这个..但它只显示一个空白图形。dash.dependencies import Input, Outputimport pandas as pd ap

浏览 14提问于2021-01-11得票数 1

回答已采纳

2回答

在Python中将非常大的文件拆分成更小的文件--打开的文件太多了

、

我有一个非常大的csv文件(接近一个to )，我想根据每行的信息将它分割成更小的csv文件。按要求提供更多详细信息：.csv文件包含按区域访问所需的</

浏览 0提问于2018-04-27得票数 4

回答已采纳

1回答

ValueError:尝试为非空字段"last_review“编码null

、、、、

我正在尝试读取一个CSV作为一个光束数据，并将它转换成一个收集。[while running 'Unbatch 'placeholder_DataFrame_140400915519808'/ParDo(_UnbatchNoIndex)']问题:在将字段/列转换为集合之前，是否有一种方法可以使<

浏览 6提问于2022-06-07得票数 0

1回答

以.csv格式保存和检索df，而不会丢失类型信息

、、、

当我将pandas.DataFrame保存到.csv文件时，dicts的一列被转换为文字字符串。如何将df保存/加载到.csv，以使它们等效？我知道pickle，hdf5等；我希望保持它的人类可读性，但如果这是在错误的树上树皮，我对替代方案持开放态度。df = pd.DataFrame.from_items([('A', [1, 2, {3:30}])

浏览 0提问于2018-02-16得票数 1

1回答

如何将多个字段的大型csv装载到火场

、、

我知道这类类似的问题曾被问过/回答过，但我的问题却不同：非常感谢。更新1(2016.12.31.1:26pm EST)：我使用以下方法并能够加载数据(带有有限列的示例数据)，但是，我需要自动将头(从csv)指定为DataFrame<

浏览 1提问于2016-12-31得票数 3

1回答

如何防止Server在导入数据时剥离前导零

、、、

data file被导入到SQL Server表中。数据文件中的一个列是文本数据类型，该列中的值仅为整数。Server db中目标表中的对应列为varchar(100)类型。但是在数据导入之后，Server将像0474525431这样的值存储为4.74525431E8，即Scientific Notations。问题：在上述情况下，如何防止server将值存储到S

浏览 3提问于2022-05-14得票数 0

回答已采纳

1回答

用py箭头(或pyarrow.Table的“堆栈”或“熔体”)加载“旋转”数据

、、

我有“旋转”格式的大型ish CSV文件:行和列是分类的，值是同构的数据类型。有什么最好的方法(内存和计算效率)将这样的文件加载到具有“无轴”模式的pyarrow.Table中？换句话说，给定一个包含n行和m列的CSV文件，如何获得一个包含n*m行和一个列的pyarrow.Table？就pa

浏览 1提问于2022-03-28得票数 0

8回答

从星火DataFrame中选择特定列

、、

我已经将CSV数据加载到星火DataFrame中。我需要将这个dataframe分割成两个不同的dataframe，其中每个数据都包含来自原始dataframe的一组列。如何根据列在星火数据中选择一个子集？

浏览 7提问于2018-08-04得票数 40

回答已采纳

1回答

根据某些标准从文本文件中创建数据

、、、

我有一个大约3.3GB的文本文件。我只对这个文本文件中的两列感兴趣(47列中的一列)。从这2列中，我只需要col2=='text1'所在的行。到目前为止，我所做的是尝试将整个文本文件加载到我的df中，然后过滤出所需的行。但是，由于这是一个大型文本文件，创建

浏览 0提问于2020-01-15得票数 0

回答已采纳

2回答

使用Spark将CSV转换为parquet，保留分区

、、、

我正在尝试使用Spark将一堆csv文件转换为parquet，有趣的是，输入的csv文件已经按目录“分区”了。所有输入文件都有相同的一组列。输入文件结构如下：/path/dir1/file2.csv/path&#x

浏览 2提问于2016-11-15得票数 4

1回答

将文件加载到Map中，保持原始行顺序

、、、

我需要加载一个查找CSV文件，该文件将用于将一些regex规则(键、值)应用于字符串。这些规则需要按照它们在文件中出现的顺序来应用。我希望避免直接将索引&#

浏览 0提问于2019-08-29得票数 2

回答已采纳

2回答

当熊猫read_csv在太大的文件上运行时会发生什么？

、、、

如果给熊猫read_csv的文件太大了，会不会引起一个例外？我担心的是，它只会读到它能读到的东西，说出第一个1,000,000行，然后继续进行，就好像没有问题一样。是否存在熊猫无法读取文件中的所有记录，但也不能引发异常(打印错误)的情况。

浏览 1提问于2022-03-09得票数 1

1回答

熊猫`read_csv`方法使用太多内存

、、、

我目前正在使用在Kaggle上玩，同时使用 DataFrame()来操纵数据。pd.read_csv('train.csv&

浏览 4提问于2017-08-06得票数 2

回答已采纳

1回答

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

、、

我正在使用pyspark将数据从csv文件加载到dataframe中，并且我能够在删除格式错误的记录的同时加载数据，但是我如何才能拒绝csv文件中的这些错误(错误格式)记录，并将这些被拒绝的记录保存在新文件中

浏览 11提问于2019-01-15得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云