使用Regexp_extract和Col创建数据集的PySpark

、、、

我需要帮助创建一个数据集，显示住在德克萨斯州的人的名字和姓氏以及他们的电话号码的区号(phone1)。这是我尝试使用的编码，这是我得到的数据集。from pyspark.sql.functions import regexp_extract, col regexp_extract(col(&#

浏览 9提问于2020-08-31得票数 0

1回答

PySpark正则引擎不匹配

、、、

我正在编写一个正则表达式，以应用于PySpark DataFrame列。(\w+(?:\s*|\d*)\s+RUE\s.*)", '$1')).show(truncate=False) 我得到的输出是我的不变的

浏览 2提问于2019-11-20得票数 1

回答已采纳

1回答

如果regex应用，更改格式。

、、

我目前正在一个dataframe中转换一些日期数据，如下所示：|first_col|sec_col-------||a--------|"Feb 23, 2012"|+---------+--------------+ 现在，我想将最后两行转换成更好的日期格式，如: 23-Feb-2012，我认为这是通过正则表达式实现的

浏览 9提问于2022-01-25得票数 0

回答已采纳

2回答

我正在尝试创建一个新的dataframe列(b)，删除(a)中的最后一个字符。列a是一个长度不同的字符串，所以我尝试使用以下代码： from pyspark.sql.functions import * df.select(substring('a', 1, length('a') -1 ) ).show() 我得到一个列：‘TypeError’对象不可调用这似乎是由于使用了多个函数，但我不能理解为什么这些函数可以独立工作- 如

浏览 31提问于2019-05-10得票数 1

1回答

从pyspark dataframe中的列返回字母数字值

、、、

我有一个pyspark数据帧df。它有2列，类似于下面显示的示例输入。我想创建一个新的输出数据帧，其中包含一个新列'col3‘，该列只包含来自col2中字符串的字母数字值。我尝试过使用spark sql和 regexp_extract('('+col1+')','[^[A-Za-z0-9] ]'

浏览 0提问于2021-02-15得票数 0

2回答

DataFrame:将多个值的列拆分为行

、、、

我有一个dataframe (包含更多的行和列)，如下所示。样本DF：from pyspark.sql import SQLContext我想要的：| col1| col2| col3| +-----+-----

浏览 0提问于2019-07-16得票数 5

回答已采纳

1回答

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

、、、

因此，我希望通过将UDF应用于new_column来创建一个名为old_column的列。from pyspark.sql.functions import col, regexp_extract return regexp_extract(x,re_string,0) extracting = udf(l

浏览 3提问于2022-04-28得票数 0

回答已采纳

2回答

AttributeError：'NoneType‘对象没有属性'rfind’

试图在udf中使用简单的withColumn，我得到了下面的错误。实际上，序号是一个字符串类型，它的值如下所示，它没有空值。

浏览 5提问于2020-03-04得票数 1

回答已采纳

3回答

用特殊字符串开始选择列值

、

我使用来自PySpark的火花2。数据文件看起来就像a = spark.createDataFrame(a, ['des', 'id'])我想选择用‘des_column starts’表示‘n_a’

浏览 9提问于2017-12-12得票数 0

回答已采纳

1回答

读取包含持续21天的文件名

、、、

dataset_2020_01_20-20.parquetdataset_2020_01_22-20.parquetdatapath_v3_indata_imptp = "wasbs://mydata@mine.blob.core.windows.net/imptp=spark.read.format("parquet").o

浏览 1提问于2020-05-18得票数 1

回答已采纳

2回答

PySpark:从路径字符串中获取目录

我有一个字符串，它是我当前的工作目录，类似于"Aw/Bt/Ce/Dr“。我应该搜索字符串并检索"Bt“。有没有办法在PySpark中做到这一点。蒂娅，贾根

浏览 67提问于2021-11-16得票数 0

2回答

将一本字典拆分成独立的列

、、、、

我有一个dataframe (在Pyspark中)，它有一个行值作为字典：看起来是：|name|(nullable = true) |-- dict: string (nullable = true) 是否可以从字典(颜色和汽车)中获取键，并使它们在dataframe中列，并将值作为这些列的行？df.withColumn()并以某种方式遍历字典来选择每个字典，然后用

浏览 1提问于2018-10-30得票数 4

3回答

Spark:从失败的regexp_extract()返回null

、、

假设您尝试从数据帧的列中提取一个子字符串。如果字段本身为null，则regexp_extract()返回null，但如果field不为null但未找到表达式，则返回空字符串。df = spark.createDataFrame([(None),('foo'),('foo_bar')], StringType()) df.select(regexp_extract('value

浏览 1提问于2017-02-11得票数 4

2回答

迭代以获取子字符串

、、、

我正在尝试迭代pyspark数据帧，并获取某个位置后的值。数据将如下所示： ? 我需要每一行中.和(空格)之间的值。例如，对于SNO=1，我需要1。

浏览 13提问于2021-11-01得票数 0

3回答

将spark数据框列中的值提取到新的派生列中

、、

下面是我的数据框架架构 root |-- SYSTEM_NAME: string位置列中的数据如下所示： example 1: prod/docs/Folder1/AA160039/Folder2/XXX.pdf example 2: prod/docs/Folder1/FolderX", trim(c

浏览 26提问于2020-10-30得票数 0

2回答

使用时间、endsWith和Regex_replace时不可调用的“列”对象

、、、

我有一组简单的地址数据，如下所示；简单地用缩写替换街道名称：43421 Margarita St在我的电火花程序中，我只是简单地使用regexpfrom pyspark.sql import *from pyspark.sql.functions import col, regexp_extract<

浏览 6提问于2021-11-10得票数 0

回答已采纳

1回答

Pyspark:如果列包含来自另一列的字符串，则过滤数据帧(SQL LIKE语句)

、、、

我正在尝试用以下方式过滤我的pyspark数据框:我有一个包含long_text的列和一个包含数字的列。如果长文本包含我想要保留的列的number。我正在尝试使用SQL LIKE语句，但似乎不能将其应用于另一列(这里是number)我的代码如下： from pyspark.sql.functions import regexp_extract, col, conc

浏览 10提问于2019-02-25得票数 9

回答已采纳

1回答

如何分离字符串数据库

我试图使用databricks中的函数LESOES DO OMBRO (M75)来分隔一个字符串，但是出现了一个错误: AnalysisException:未定义函数：' split_part‘。此函数既不是已注册的临时函数，也不是在数据库“默认”中注册的永久函数。我需要将其余文本括号中的代码分隔开。我有一个列"patologia“，例如，该列是LESOES DO OMBRO (M75)，我需要一个值为M75的新列。

浏览 5提问于2022-10-25得票数 0

2回答

将字符串列转换为双倍，以句点作为小数点和数千分隔符。

、、、、

我正在编写一个程序来修复数据库列值(CSV输入)，其中包含从各种数据源连接的数字。import sysfrom pyspark.sql.typesimport regexp_replace, regexp_extract, <em

浏览 1提问于2018-10-26得票数 0

回答已采纳

1回答

使用正则表达式与DataFrames连接PySpark

、、、、

我正在寻找一种按键组合两个DataFrames的方法。之后，我得到了带有两种分隔符的Dataframes："，“和"^”。，这是错误的。我想做这样的事：from pyspark.sql.types import StringType df = (df1.join(df

浏览 0提问于2016-10-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark正则引擎不匹配

如果regex应用，更改格式。

从字符串中删除最后一个字符

从pyspark dataframe中的列返回字母数字值

DataFrame:将多个值的列拆分为行

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

AttributeError：'NoneType‘对象没有属性'rfind’

用特殊字符串开始选择列值

读取包含持续21天的文件名

PySpark:从路径字符串中获取目录

将一本字典拆分成独立的列

Spark:从失败的regexp_extract()返回null

迭代以获取子字符串

将spark数据框列中的值提取到新的派生列中

使用时间、endsWith和Regex_replace时不可调用的“列”对象

Pyspark:如果列包含来自另一列的字符串，则过滤数据帧(SQL LIKE语句)

如何分离字符串数据库

将字符串列转换为双倍，以句点作为小数点和数千分隔符。

使用正则表达式与DataFrames连接PySpark

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐