将嵌套的JSON拆分成大小相等的文件PySpark/Python

、、、、

我使用的是pyspark，它会生成一个嵌套的json，如下所示： { "client_key": 1, "client_name": "ATT" }

浏览 15提问于2020-09-16得票数 0

1回答

使用json中的嵌套数据创建表并将其追加到databricks

、、、

我正在生成一系列嵌套在json中的数据，并希望将这些文件自动附加到databricks中的一个表中。我没有她的图式。这些数据将存储到azure存储中。# !/usr/bin/pythonfrom pyspark

浏览 22提问于2020-02-18得票数 1

1回答

如何将列表拆分成给定数量的子列表？

、、、、

我有一个可能在1000字符串上的列表，但是我不知道确切的数量。怎样才能最好地将这个list分解成更小的列表，而不会失去列表的任何成员？例如，如果我有一个1323成员列表，如何最好地将其分成3个大小几乎相等的列表？我已经看到了通过分区函数拆分列表的Guava和Commons方法，但是该函数会将列表拆分为给定的块大小，而不是给定<

浏览 3提问于2016-12-21得票数 3

回答已采纳

1回答

如何仅使用三个函数来反转列表

、、

如果给我三个函数: 1) empty -返回传递的列表是否为空2) split -将一个列表拆分成两个大小相等的列表3) concat -将两个列表连接成一个仅使用这三个函数，我如何反转列表？

浏览 0提问于2011-11-02得票数 0

回答已采纳

2回答

将文件分割成X个大小相等的文件？

我已经找到了将文件拆分成X行或X大小的多种方法，但我想知道如何将一个文件拆分为5个大小相等的文件？如果这重要的话，这将用于.csv文件。

浏览 5提问于2015-05-08得票数 2

回答已采纳

1回答

平面文本文件中的分布式dask矩阵

、、、、

我正在尝试将矩阵的平面文本文件(以制表符分隔)表示到dask数组中，使用distributed将数组的块分布到集群中。(旁白:这与PySpark的方法没有什么不同) 但是，我不清楚如何使用可用的工具将文本文件解析成矩阵结构。在PySpark中，我可以使用一个简单的map来完成这个任务，该map可以将空格上的每一行拆分</

浏览 1提问于2016-06-03得票数 1

回答已采纳

3回答

将一个全名拆分为名字和姓氏在火星雨中？

、、

基本上，我正在学习pyspark，我知道如何在python中将全名拆分为名和姓。name = "sun moon" LName = name.split()[1] 我想在json文件中这样做。santee, california, united states","t":"161xxxx","caseN":"888548748565","c

浏览 4提问于2020-10-31得票数 0

1回答

泛型代码，用于平平任何复杂的嵌套json文件，使用pyspark/大熊猫

、、

我有一个复杂的嵌套的json文件，我需要一个通用代码，它可以使这个嵌套文件变平，并使用pyspark或大熊猫将结果存储在dataframe中。这是可以实现的吗?它们是否有适用于任何复杂的嵌套json文件的通用代码？

浏览 11提问于2022-08-17得票数 0

3回答

将嵌套列表拆分为大小相等的部分

、、

这就是我试过的。我找到了开始的索引。我分割了一个索引和下一个索引之间的坐标列表。FInally，我使用一个if语句来创建最后一个backet，因为最后一个索引没有“next”索引。

浏览 9提问于2022-04-20得票数 0

2回答

如何沿着0轴将一个Numpy数组分成一个大小相等的numpy数组列表？

、、

例如数组沿着轴-0分成4个“折叠”，就像一个列表 [array([1]), array([2]), array([3]), array如何将任何数组拆分为大小相等的子数组，即使它们不容易被所需的子数组数量整除，而且必须删除数据？

浏览 3提问于2021-03-12得票数 1

2回答

如何加载一个20 in的json文件来读入pandas？

、、、

我有一个19.4 GB大小的JSON文件。我尝试了很多方法来读取文件。例如：pandas.read_json(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。

浏览 17提问于2021-01-05得票数 0

2回答

使用Python将JSON文件拆分成相等/较小的部分

、、、

唯一的问题是，我一次最多可以向JSON批量分类发送15,000条Tweet。我已经考虑过遍历这个文件<

浏览 1提问于2013-07-14得票数 2

回答已采纳

1回答

拆分MP3文件并插入另一个文件

使用FFMPEG，如何在指定的时间戳将mp3文件插入到较大的文件中？我已经找到了关于如何将mp3拆分成大小相等的块的链接，我只需要在指定的时间戳处拆分大文件，插入第二个文件，然后将这些块重新组合到一个新文件中。谢谢。

浏览 0提问于2021-05-18得票数 0

1回答

在CSV文件中处理JSON对象并保存到PySpark* DataFrame*

、、、、

我有一个CSV文件，它包含JSON对象以及其他数据，比如String，Integer。如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。df.show(5) 还尝试通过将文件读

浏览 2提问于2020-09-23得票数 1

1回答

将大型mysql数据库移动到不同的服务器

、、

我的数据库大小接近10 is (12个表的大小大致相等)。我的想法是，将每个表分解成几个文件，每个文件包含100,000行给定表。然后在新机器上循环所有文件。请允许有一个更有效的方法，这听起来很累人。

浏览 2提问于2016-03-16得票数 1

2回答

MongoDB的GridFS分块只适用于二进制数据吗？大型K/V文档怎么办？

、

我有超过16MB的文档。这些文档由许多键/值对及其包含的子文档(字典)和数组(列表)组成，这些子文档和数组可能嵌套在几层深。如果我尝试插入其中一个超16MB的文件，我得到一个错误，文档的大小超过16MB。所以，我开始研究GridFS。GridFS似乎很适合将二进制数据等文件分块。然而，我不清楚如何像我上面描述的那样“分块”高度嵌套的K/V文档。我在想，我可能只需

浏览 3提问于2013-02-21得票数 0

回答已采纳

2回答

每天摄取大量csv数据到弹性搜索中

、、

Lambda 1:当将.csv文件添加到S3 (该文件可能有超过60k行)时，将触发python (nodejs将耗尽执行此任务的内存)。lambda将此转换为JSON并保存到另一个S3桶中。Lambda 2:由lambda 1生成的.json文件触发的nodejs。此Lambda使用elasticsearch尝试并将所有数据插入ES。我的下一个

浏览 0提问于2021-07-17得票数 0

回答已采纳

3回答

火花csv封装中的inferSchema

、

我正试图通过启用inferSchema来将csv文件读入火花df，但随后无法获得fv_df.columns。_jdf.schema().json()) File "/home/h212957/spark/python/pyspark/sql/types.py", line 894, in _parse_datatype_json_stringreturn _parse_datatype_

浏览 12提问于2017-04-26得票数 0

1回答

使用pandas加载大型json文件

、、、

我有一个500+巨大的json文件，每个文件的大小为400MB，当是压缩格式时(3 MB，未压缩时)。我使用Python2.7中的标准json库来处理数据，同样的时间太长了，我认为json.loads()是消耗时间的罪魁祸首。我正在考虑在python中使用pandas从gzip文件中加载数据并进行分析。我只是听说了熊猫，不确定这是不是合适<em

浏览 3提问于2014-03-10得票数 2

1回答

如何在数据库中读取100 on的嵌套json

、、

有一个嵌套的json，结构非常深。文件的格式为json.gz大小3.5GB。一旦这个文件被解压缩，它的大小是100 of。这个json文件的格式是Multiline = True (如果这个条件用于通过spark.read_json读取文件，那么我们只能看到正确的json模式)。此外，该<em

浏览 8提问于2022-08-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用json中的嵌套数据创建表并将其追加到databricks

如何将列表拆分成给定数量的子列表？

如何仅使用三个函数来反转列表

将文件分割成X个大小相等的文件？

平面文本文件中的分布式dask矩阵

将一个全名拆分为名字和姓氏在火星雨中？

泛型代码，用于平平任何复杂的嵌套json文件，使用pyspark/大熊猫

将嵌套列表拆分为大小相等的部分

如何沿着0轴将一个Numpy数组分成一个大小相等的numpy数组列表？

如何加载一个20 in的json文件来读入pandas？

使用Python将JSON文件拆分成相等/较小的部分

拆分MP3文件并插入另一个文件

在CSV文件中处理JSON对象并保存到PySpark* DataFrame*

将大型mysql数据库移动到不同的服务器

MongoDB的GridFS分块只适用于二进制数据吗？大型K/V文档怎么办？

每天摄取大量csv数据到弹性搜索中

火花csv封装中的inferSchema

使用pandas加载大型json文件

如何在数据库中读取100 on的嵌套json

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐