腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Regexp_extract
和
Col
创建
数据
集
的
PySpark
、
、
、
我需要帮助
创建
一个
数据
集
,显示住在德克萨斯州的人
的
名字
和
姓氏以及他们
的
电话号码
的
区号(phone1)。这是我尝试
使用
的
编码,这是我得到
的
数据
集
。from
pyspark
.sql.functions import
regexp_extract
,
col
regexp_extract
(
col
(
浏览 9
提问于2020-08-31
得票数 0
1
回答
PySpark
正则引擎不匹配
、
、
、
我正在编写一个正则表达式,以应用于
PySpark
DataFrame列。(\w+(?:\s*|\d*)\s+RUE\s.*)", '$1')).show(truncate=False) 我得到
的
输出是我
的
不变
的
浏览 2
提问于2019-11-20
得票数 1
回答已采纳
1
回答
如果regex应用,更改格式。
、
、
我目前正在一个dataframe中转换一些日期
数据
,如下所示:|first_
col
|sec_
col
-------||a--------|"Feb 23, 2012"|+---------+--------------+ 现在,我想将最后两行转换成更好
的
日期格式,如: 23-Feb-2012,我认为这是通过正则表达式实现
的
浏览 9
提问于2022-01-25
得票数 0
回答已采纳
2
回答
从字符串中删除最后一个字符
、
、
我正在尝试
创建
一个新
的
dataframe列(b),删除(a)中
的
最后一个字符。列a是一个长度不同
的
字符串,所以我尝试
使用
以下代码: from
pyspark
.sql.functions import * df.select(substring('a', 1, length('a') -1 ) ).show() 我得到一个列:‘TypeError’对象不可调用 这似乎是由于
使用
了多个函数,但我不能理解为什么这些函数可以独立工作- 如
浏览 31
提问于2019-05-10
得票数 1
1
回答
从
pyspark
dataframe中
的
列返回字母数字值
、
、
、
我有一个
pyspark
数据
帧df。它有2列,类似于下面显示
的
示例输入。我想
创建
一个新
的
输出
数据
帧,其中包含一个新列'
col
3‘,该列只包含来自
col
2中字符串
的
字母数字值。我尝试过
使用
spark sql
和
regexp_extract
('('+
col
1+')','[^[A-Za-z0-9] ]'
浏览 0
提问于2021-02-15
得票数 0
2
回答
DataFrame:将多个值
的
列拆分为行
、
、
、
我有一个dataframe (包含更多
的
行
和
列),如下所示。样本DF:from
pyspark
.sql import SQLContext我想要
的
:|
col
1|
col
2|
col
3| +-----+-----
浏览 0
提问于2019-07-16
得票数 5
回答已采纳
1
回答
星星之差AttributeError:'NoneType‘对象没有属性'_jvm’
、
、
、
因此,我希望通过将UDF应用于new_column来
创建
一个名为old_column
的
列。from
pyspark
.sql.functions import
col
,
regexp_extract
return
regexp_extract
(x,re_string,0) extracting = udf(l
浏览 3
提问于2022-04-28
得票数 0
回答已采纳
2
回答
AttributeError:'NoneType‘对象没有属性'rfind’
试图在udf中
使用
简单
的
withColumn,我得到了下面的错误。 实际上,序号是一个字符串类型,它
的
值如下所示,它没有空值。
浏览 5
提问于2020-03-04
得票数 1
回答已采纳
3
回答
用特殊字符串开始选择列值
、
我
使用
来自
PySpark
的
火花2。
数据
文件看起来就像a = spark.createDataFrame(a, ['des', 'id'])我想选择用‘des_column starts’表示‘n_a’
浏览 9
提问于2017-12-12
得票数 0
回答已采纳
1
回答
读取包含持续21天
的
文件名
、
、
、
dataset_2020_01_20-20.parquetdataset_2020_01_22-20.parquetdatapath_v3_indata_imptp = "wasbs://mydata@mine.blob.core.windows.net/imptp=spark.read.format("parquet").o
浏览 1
提问于2020-05-18
得票数 1
回答已采纳
2
回答
PySpark
:从路径字符串中获取目录
我有一个字符串,它是我当前
的
工作目录,类似于"Aw/Bt/Ce/Dr“。我应该搜索字符串并检索"Bt“。 有没有办法在
PySpark
中做到这一点。 蒂娅,贾根
浏览 67
提问于2021-11-16
得票数 0
2
回答
将一本字典拆分成独立
的
列
、
、
、
、
我有一个dataframe (在
Pyspark
中),它有一个行值作为字典:看起来是:|name|(nullable = true) |-- dict: string (nullable = true) 是否可以从字典(颜色
和
汽车)中获取键,并使它们在dataframe中列,并将值作为这些列
的
行?df.withColumn()并以某种方式遍历字典来选择每个字典,然后用
浏览 1
提问于2018-10-30
得票数 4
3
回答
Spark:从失败
的
regexp_extract
()返回null
、
、
假设您尝试从
数据
帧
的
列中提取一个子字符串。如果字段本身为null,则
regexp_extract
()返回null,但如果field不为null但未找到表达式,则返回空字符串。df = spark.createDataFrame([(None),('foo'),('foo_bar')], StringType()) df.select(
regexp_extract
('value
浏览 1
提问于2017-02-11
得票数 4
2
回答
迭代以获取子字符串
、
、
、
我正在尝试迭代
pyspark
数据
帧,并获取某个位置后
的
值。
数据
将如下所示: ? 我需要每一行中.
和
(空格)之间
的
值。例如,对于SNO=1,我需要1。
浏览 13
提问于2021-11-01
得票数 0
3
回答
将spark
数据
框列中
的
值提取到新
的
派生列中
、
、
下面是我
的
数据
框架架构 root |-- SYSTEM_NAME: string位置列中
的
数据
如下所示: example 1: prod/docs/Folder1/AA160039/Folder2/XXX.pdf example 2: prod/docs/Folder1/FolderX", trim(
c
浏览 26
提问于2020-10-30
得票数 0
2
回答
使用
时间、endsWith
和
Regex_replace时不可调用
的
“列”对象
、
、
、
我有一组简单
的
地址
数据
,如下所示;简单地用缩写替换街道名称:43421 Margarita St在我
的
电火花程序中,我只是简单地
使用
regexpfrom
pyspark
.sql import *from
pyspark
.sql.functions import
col
,
regexp_extract<
浏览 6
提问于2021-11-10
得票数 0
回答已采纳
1
回答
Pyspark
:如果列包含来自另一列
的
字符串,则过滤
数据
帧(SQL LIKE语句)
、
、
、
我正在尝试用以下方式过滤我
的
pyspark
数据
框:我有一个包含long_text
的
列
和
一个包含数字
的
列。如果长文本包含我想要保留
的
列
的
number。我正在尝试
使用
SQL LIKE语句,但似乎不能将其应用于另一列(这里是number)我
的
代码如下: from
pyspark
.sql.functions import
regexp_extract
,
col
, conc
浏览 10
提问于2019-02-25
得票数 9
回答已采纳
1
回答
如何分离字符串
数据
库
我试图
使用
databricks中
的
函数LESOES DO OMBRO (M75)来分隔一个字符串,但是出现了一个错误: AnalysisException:未定义函数:' split_part‘。此函数既不是已注册
的
临时函数,也不是在
数据
库“默认”中注册
的
永久函数。我需要将其余文本括号中
的
代码分隔开。我有一个列"patologia“,例如,该列是LESOES DO OMBRO (M75),我需要一个值为M75
的
新列。
浏览 5
提问于2022-10-25
得票数 0
2
回答
将字符串列转换为双倍,以句点作为小数点和数千分隔符。
、
、
、
、
我正在编写一个程序来修复
数据
库列值(CSV输入),其中包含从各种
数据
源连接
的
数字。import sysfrom
pyspark
.sql.typesimport regexp_replace,
regexp_extract
, <em
浏览 1
提问于2018-10-26
得票数 0
回答已采纳
1
回答
使用
正则表达式与DataFrames连接
PySpark
、
、
、
、
我正在寻找一种按键组合两个DataFrames
的
方法。之后,我得到了带有两种分隔符
的
Dataframes:",“
和
"^”。,这是错误
的
。我想做这样
的
事:from
pyspark
.sql.types import StringType df = (df1.join(df
浏览 0
提问于2016-10-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
pandas 入门 1:数据集的创建和绘制
一个Python大数据处理利器:PySpark入门指南
数据科学中的中智集和系统
使用Decentraland SDK创建记忆游戏——学习如何使用SDK和API来创建您的第一个简单的游戏!
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券