Loading [MathJax]/jax/output/CommonHTML/config.js

社区首页 >问答首页 >PySpark将列拆分到具有应用架构的新数据帧

问PySpark将列拆分到具有应用架构的新数据帧
EN

Stack Overflow用户

提问于 2021-11-10 02:49:22

回答 1查看 53关注 0票数 1

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？

作为示例，下面是一个包含两列(id和value)的pyspark DataFrame

df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"])

我希望获取value列并将其拆分到一个新的DataFrame中，并应用以下模式：

from pyspark.sql.types import IntegerType, StringType, StructField, StructType

message_schema = StructType(
    [
        StructField("id", IntegerType()),
        StructField("value", IntegerType()),
        StructField("message", StringType()),
    ]
)

有效的方法是：

df_split = (
    df.select(split(df.value, ",\s*"))
    .rdd.flatMap(lambda x: x)
    .toDF()
)
df_split.show()

但是我仍然需要根据模式转换和重命名列：

df_split.select(
    [
        col(_name).cast(_schema.dataType).alias(_schema.name)
        for _name, _schema in zip(df_split.columns, message_schema)
    ]
).show()

得到了预期的结果：

+---+-----+-------+
| id|value|message|
+---+-----+-------+
|200|  201|  hello|
| 23|   24|     hi|
+---+-----+-------+

apache-spark-sql

EN

回答 1

Stack Overflow用户

发布于 2021-11-10 05:32:29

对于Spark，有一个函数from_csv，您可以使用它来解析采用3+格式的message_schema模式的逗号分隔字符串：

import pyspark.sql.functions as F

df1 = df.withColumn(
    "message",
    F.from_csv("value", message_schema.simpleString())
).select("message.*")

df1.show()
#+---+-----+-------+
#| id|value|message|
#+---+-----+-------+
#|200|  201|  hello|
#| 23|   24|     hi|
#+---+-----+-------+

df1.printSchema()
#root
# |-- id: integer (nullable = true)
# |-- value: integer (nullable = true)
# |-- message: string (nullable = true)

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69911928

复制

相关文章

python安装的库在pycharm不显示_pycharm上无法安装各种库

https java 网络安全

在使用pycharm安装库总是出现安装不成功的提示 ‘Non-zero exit code (2)’

全栈程序员站长

2022/09/28

2.7K0

python安装的库在pycharm不显示_pycharm上无法安装各种库

pycharm安装后运行不了_pycharm上无法安装各种库

ide java python https

参考博客链接：http://blog.csdn.net/qingyuanluofeng/article/details/46501427

全栈程序员站长

2022/09/26

1.6K0

pycharm安装后运行不了_pycharm上无法安装各种库

【pycharm】解决pycharm无法在settings里安装库的问题

https java 网络安全 ide

本来想直接在pycharm的setting里安装库，但是安装的时候一直转圈圈，要么是太慢要么显示失败。发现用命令行可以解决这个问题。具体操作如下：打开命令行，输入下面语句（确保路径一致）。

全栈程序员站长

2022/09/25

1.6K0

【pycharm】解决pycharm无法在settings里安装库的问题

Rasa 聊天机器人专栏（八）：在Docker上运行Rasa

容器镜像服务容器 mongodb 数据库

这是如何使用Docker构建Rasa助手的指南。如果你之前没有使用过Rasa，我们建议你先Rasa教程开始。

磐创AI

2020/03/04

5.7K0

Pycharm安装jupyter notebook无法在SciView查看变量

开源 https java ide

Pycharm执行jupyter项目时，会提醒笔记本内核与项目内核不匹配，如下图：

全栈程序员站长

2022/09/27

1.6K0

Pycharm安装jupyter notebook无法在SciView查看变量

pycharm双击但是无法打开的情况_mac电脑上pycharm怎么安装

https 网络安全 java ide

本来pycharm 用的好好地，电脑重启之后，突然就打不开了，双击没反应，重新安装也解决不了，百度找不到结果，就去google了。

全栈程序员站长

2022/09/25

1.9K0

pycharm双击但是无法打开的情况_mac电脑上pycharm怎么安装

在tinycolinux上安装和使用cloudwall

本文关键字：在tinycolinux上安装和使用cloudwall,同步器as webos，uniform native web appstack

minlearn

2020/09/28

7800

在 Linux 上安装和使用 Docker

容器镜像服务 nginx web.py 容器

由于 Ubuntu Server 16.04 缺少图形界面，我会完全通过命令行来安装和使用 Docker。在你安装前，你需要更新 apt 然后进行必要的升级。一定要注意，若系统内核升级了，你会需要重启系统。因此最好挑个服务器能重启的时间进行。

用户8989785

2021/09/10

1.9K0

在OSX上安装和使用ROS

python bash bash 指令 mac os

参考链接：https://github.com/mikepurvis/ros-install-osx

zhangrelay

2022/04/29

9710

在 Linux 上安装和使用 Docker

容器镜像服务容器 nginx web.py

Docker 使得创建、部署，和管理容器变得特别简单。更好的是，安装和使用 Docker 在 Linux 平台上特别的方便。

用户4988085

2021/09/14

1.7K0

在 Windows 系统上安装和使用 Fluentd

windows https 网络安全

我们在最初的文章中介绍了在 Linux 上安装 Fluentd 的方法，有时候为了做些简单测试，并不需要在服务器上运行 Fluentd。在自己电脑上装一个Fluentd 就可以实现。

Fluentd中文网

2021/02/05

3K0

在anaconda中安装pycharm_anaconda和pycharm关联

python anaconda pytorch ide

经历了装软件的头疼阶段后，终于搞明白Anaconda，python，Pycharm之间的关系及各种python包的安装了

全栈程序员站长

2022/09/27

1.9K0

在anaconda中安装pycharm_anaconda和pycharm关联

Pycharm安装、激活和使用教程

面向对象编程 ide python php

Pycharm是一款出色的IDE，以前写PHP代码的时候使用的PHPstrom，也是一款出色的编辑器工具，都是由JetBrains出品，pycharm提供调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制等等功能，方便编程人员完成高效的代码开发工作。

申霖

2020/02/14

1.8K0

Pycharm安装、激活和使用教程

Rasa 使用ResponseSelector实现FAQ和闲聊

learn from https://github.com/Chinese-NLP-book/rasa_chinese_book_code

Michael阿明

2022/12/01

8780

Rasa 使用ResponseSelector实现FAQ和闲聊

在腾讯云上安装和使用 JuiceFS 存储

云服务器对象存储私有网络访问管理云数据库 Redis®

JuiceFS 是一个云原生的企业级开源共享文件系统，广泛应用于大数据、企业级数据共享、Kubernetes 容器编排、AI 机器学习、Web 服务和内容管理、数据容灾备份等场景。它将对象存储作为大容量本地磁盘使用，为云上应用提供近乎无限的存储空间。与此同时，得益于其独特的技术架构，在存储和处理大规模数据时，性能通常高于本地存储。

谈笑有Herald

2021/08/02

3.8K0

在腾讯云上安装和使用 JuiceFS 存储

gcc在Ubuntu上安装和使用「建议收藏」

打包 gcc ide makefile 汇编语言

使用命令sudo apt install build-essential，该命令将安装一堆新包，包括gcc，g ++和make。要验证GCC编译器是否已成功安装，可以使用gcc -v命令打印GCC版本：

全栈程序员站长

2022/09/15

1.4K0

gcc在Ubuntu上安装和使用「建议收藏」

小白教程——安装和使用PyCharm

0.0 前言上一个推送，我教大家怎么安装Python 3.X，安装完了，那我们肯定就是要用IDE (Integrated Development Environment)了，说白了，IDE就是集

伪君子

2018/04/04

3K0

小白教程——安装和使用PyCharm

在Windows 10上安装TensorFlow及PyCharm开发环境[通俗易懂]

https 网络安全 anaconda ide

有时候在查看官方文档时，常常看到很多的分支，所以作为开发者我们都喜欢把最佳实践总结出来。下面一起来看看如何在Windows 10上安装一个TensorFlow和PyCharm开发环境。

全栈程序员站长

2022/09/27

1.6K0

在Windows 10上安装TensorFlow及PyCharm开发环境[通俗易懂]

点击加载更多

相似问题

Hibernate搜索，Infinispan，jgroup，野生蝇集群集成配置

14

Kubernetes群集内的子网划分

116

Jgroup群集在重新启动单个集群成员时中断。

11

跨不同子网的arp

13

如何在旧的jgroup版本中更改JGroups群集协调器

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例