Python & Pandas:使用pd.json_normalize扁平化嵌套json

pd.json_normalize 是 pandas 库中的一个函数，用于将嵌套的 JSON 数据扁平化为一个表格形式的数据结构，通常是 DataFrame。这个函数在处理复杂的 JSON 数据时非常有用，尤其是当数据包含多层嵌套或者数组时。

基础概念

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON 数据通常以键值对的形式表示，可以包含嵌套的对象和数组。

Pandas 是一个 Python 数据分析库，提供了大量的数据结构和数据分析工具，其中 DataFrame 是其核心数据结构之一，类似于表格或 SQL 表。

pd.json_normalize 函数可以将嵌套的 JSON 数据转换为扁平化的 DataFrame，使得每一层嵌套的数据都成为 DataFrame 中的一列。

优势

简化数据结构：将复杂的嵌套结构转换为简单的二维表格，便于分析和处理。
提高可读性：扁平化后的数据更容易理解和查看。
便于操作：DataFrame 提供了丰富的数据操作和分析功能。

类型

pd.json_normalize 可以处理以下类型的嵌套 JSON 数据：

单层嵌套
多层嵌套
包含数组的嵌套
包含列表的嵌套

应用场景

数据清洗：在数据分析前，将复杂的 JSON 数据清洗成易于分析的格式。
API 数据处理：从 RESTful API 获取的数据通常是嵌套的 JSON 格式，使用此函数可以方便地处理这些数据。
日志分析：日志文件中可能包含嵌套的结构，使用此函数可以将日志数据转换为可分析的格式。

示例代码

假设我们有以下嵌套的 JSON 数据：

nested_json = {
    "id": 1,
    "name": "John Doe",
    "contact": {
        "email": "john.doe@example.com",
        "phone_numbers": [
            {"type": "home", "number": "123-456-7890"},
            {"type": "work", "number": "098-765-4321"}
        ]
    },
    "orders": [
        {"order_id": 101, "product": "Widget", "quantity": 2},
        {"order_id": 102, "product": "Gadget", "quantity": 1}
    ]
}

使用 pd.json_normalize 可以将其扁平化为 DataFrame：

import pandas as pd

# 扁平化嵌套的 JSON 数据
df = pd.json_normalize(nested_json, sep='_')

print(df)

输出结果将是：

   id       name contact_email contact_phone_numbers_0_type contact_phone_numbers_0_number contact_phone_numbers_1_type contact_phone_numbers_1_number orders_0_order_id orders_0_product orders_0_quantity orders_1_order_id orders_1_product orders_1_quantity
0   1  John Doe john.doe@example.com                     home                     123-456-7890                     work                     098-765-4321                   101          Widget                  2                   102          Gadget                  1

遇到的问题及解决方法

问题：如果 JSON 数据中的某些键不存在，使用 pd.json_normalize 可能会导致 KeyError。

解决方法：在使用 pd.json_normalize 之前，可以先检查 JSON 数据的结构，确保所有预期的键都存在。或者，可以使用 errors='ignore' 参数来忽略不存在的键：

df = pd.json_normalize(nested_json, sep='_', errors='ignore')

这样，即使某些键不存在，也不会引发错误，而是会在结果 DataFrame 中省略这些键对应的列。

通过这种方式，pd.json_normalize 函数可以帮助开发者有效地处理和分析嵌套的 JSON 数据。

如何使用pandas在python中展平嵌套的json数组及其父数组

、、

我需要使用pandas模块在python中解析和扁平化嵌套的json。文件中，我需要获得两个不同的json文件，如下所示：输出JSON 1： {"name": "ABC", "age": "33", "mobile": "44545", "location": "hyderabadname":

浏览 27提问于2021-07-22得票数 0

1回答

使用Python和Pandas反序列化嵌套JSON中的数据

、、、、

我有嵌套的Json格式的时间序列数据，我正在努力将其转换为扁平化的数据帧。输入数据数据在这里：https://corona.lmao.ninja/v2/historical 预期输出扁平熊猫数据帧:国家|日期|病例|死亡|恢复我尝试过的东西 import pandas) json_data = r.json() 现在，我可以使用df = pd.json_normalize(json_dat

浏览 14提问于2020-04-12得票数 0

1回答

Python & Pandas:使用pd.json_normalize扁平化嵌套json

、、

Python和Pandas的新手，正在努力掌握json的诀窍。感谢您的帮助。通过一个API，我拉取了一个嵌套的json。json的结构如下。continues 我可以成功地拉取view下的顶级字段，但是我很难用json_normalize拉平嵌套的json字段replies。下面是我的工作代码： import pandas as pd d = r.json() # json p

浏览 140提问于2021-08-20得票数 1

回答已采纳

1回答

ESPN FF的Python故障

这是我正在使用的代码。如有任何帮助，我们将非常感谢： import requests d = r.<em

浏览 22提问于2021-09-03得票数 0

回答已采纳

1回答

如何将这个json改成dataframe？

、、

json= {'name': 'system_information', 'url': 'https://gbfs.divvybikes.com/gbfs/en/system_information.json'} {'name': 'station_information', 'url': 'https://gbfs.divvybikes.c

浏览 19提问于2021-07-28得票数 0

2回答

如何将更复杂的JSON转换为CSV？

、、、

我有更复杂的JSON，我正在尝试将其转换为CSV。我已经尝试了这里和其他页面上的几个示例，但我无法弄清楚一些细节。我尝试使用pandas，但我不确定如何处理嵌套列表。JSON [{ "id": 6087, "exte

浏览 41提问于2021-01-11得票数 0

回答已采纳

2回答

使用Python扁平化JSON对象

我有一个json对象"workspaces": [ "wsid": "1", "wsname": "firstworkspace"report":[{"reportname":"r1ws2"},{"reportname":"r2ws2"},{"reportname":"

浏览 10提问于2022-11-11得票数 1

回答已采纳

3回答

有没有一种方法来扩展这个程序来处理多行JSON？

、、、

我正在编写一个代码，它将输入作为多个嵌套的JSON对象(每个对象都在一个新行上)-{JSONObject2}.{JSONObjectn}目前正在从文本文件中转换这样一行嵌套的JSON对象，并将其写入csv文件。如何缩放这段代码以处理"n“这样的JSON数据对象，所有这些对象都在文本文件中的单独行上？这是我目前的密码- import pandas a

浏览 0提问于2020-06-19得票数 0

回答已采纳

1回答

ValueError:所有数组必须具有相同的长度

、、、

有人能帮忙把json文件转换成数据帧时出错吗？JSON的一部分粘贴在下面，整个输出在链接处的convert.txt中 "success&q

浏览 6提问于2022-07-31得票数 0

回答已采纳

1回答

Str to Pandas DF(DataFrame)

、、

我使用的代码是；我得到了后面的错误-任何建议都将不胜感激。File "C:\Users\python_projects\SOL_MACD\venv\test.py", line 44, in <module> File "C:\Users\python_projects\SOL_M

浏览 11提问于2021-12-14得票数 0

1回答

将嵌套的JSON streamind数据转换为ndjson

、、

我目前正在处理Twitter流数据，我想使用python将嵌套的JSON响应转换为ndjson。我看过一些使用json.normalize的示例，但这只是将其分离到一个级别，并且我的输出具有更深的级别。我是JSON的新手，我尝试过搜索任何示例，但没有找到任何示例。我想将JSON展平到ndjson，这样我就可以隔离要过滤以进行分析的列。谢谢，Hrishikesh

浏览 34提问于2020-11-03得票数 0

2回答

将json嵌套到一行与熊猫python

、

“、"sci"：{"gr"："A”、"perc"："93"}、“数学”：{ "B+“、"perc"："88"}、"eng"：{"gr"："A-”、"perc"：“perc”："91"}} 我有上面的json文件(名为test)，我正在尝试使用熊猫将它转化为python中的数据文件。pd.read_json

浏览 6提问于2021-08-12得票数 0

回答已采纳

2回答

使用python/pandas将特定文件夹中的多个嵌套.json文件读取到excel中

、、、

我想读取位于文件夹中的几个嵌套的json文件到excel文件中。由于大多数.json文件彼此不同(每个文件中的嵌套级别各不相同)，这也意味着excel文件中的某些列(值)显然需要为NaN。使用此代码读取特定文件没有问题，但逐个读取10,000个文件将需要一段时间。import json from pandas.io.json import json_normalize

浏览 4提问于2020-11-16得票数 1

1回答

csv中的嵌套字典转换为pandas数据帧

、、、、

我尝试在嵌套字典中使用json normalize，如所示，但它显示错误string indices must be integers。以下是我的代码import numpy as npimport seaborn as snsfrom pandas.io.json import json_normalize df=pd.read_csv('appli

浏览 14提问于2021-07-23得票数 0

2回答

熊猫-在数据栏中添加项目

、、、

我只想下载json文件并将其存储到带有给定列的dataframe中。似乎我无法提取子组件fron文件并将它们存储到一个全新的dataframe中。请找到我的密码：import pandas as pd url = "https://www.cisa.gov/sites/default/files/feeds/known_exploited_vulnerabilities.json&q

浏览 3提问于2022-01-23得票数 1

回答已采纳

2回答

使用多重嵌套列表展平json

、、

我有一个嵌套列表@ "ManyActionDateTimes“和@ "Comments”的json，如下所示： jframe = [{"LoadRef": 0, "SiteCode": 0, }] 我正在尝试将它扁平化<

浏览 35提问于2021-10-13得票数 0

回答已采纳

2回答

如何将动态嵌套的json转换为csv？

、、、

我有一些动态生成的嵌套json，我想使用python将它们转换为CSV文件。我正试着用熊猫来解决这个问题。我的问题是-有没有一种方法可以在不知道需要预先扁平化的json键的情况下，使用它来扁平化json数据以放入csv中？"actions": [ "action2"

浏览 20提问于2021-03-30得票数 0

1回答

CSV列是一个嵌套的JSON数组

、、、

需要一些帮助，在CSV列中“解压缩”不规则嵌套的JSON数组。 "network": { "

浏览 3提问于2021-01-07得票数 1

1回答

使用Pandas过滤Python中的嵌套JSON数据

、、

我正在使用一个包含嵌套JSON数据的文件，然后将其转换为pandas数据帧，以便过滤选择。问题是，当它被转换为pandas数据帧时，列名变成了JSON结构规定的{parent}.{child}。当我尝试将数据帧转换回JSON时，一旦过滤操作完成，JSON的嵌套结构就会丢失，剩下的就是下面的内容。有没有可能在转换回JSON时，我不会丢失JSON的嵌套结构？with open(

浏览 24提问于2020-10-07得票数 1

2回答

获取属性时出错:模块'pandas‘没有属性'json_normalize’

、

我尝试使用json_normalize函数来扁平化JSON数据。在调用函数时，我在Python中得到了这个异常； AttributeError: module 'pandas' has no attribute 'json_normalize' 我使用的是Python3.8-Azure ML，并使用了这个； from pandas.io.json</e

浏览 570提问于2021-06-15得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python & Pandas:使用pd.json_normalize扁平化嵌套json

基础概念

优势

类型

应用场景

示例代码

遇到的问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐