Pyspark .startswith反向不起作用

、、

我正在使用一个对我有意义的解决方案： import pyspark.sql.functions as f dffinal = df.filter(f.col("mac_address").startswith("ZBB") === false) 不幸的是，这个解决方案不起作用，因为它不能识别===，当我放入==时，'false‘没有定义。我正在尝试来自https://sparkbyexamples.com/spark/spark-filter-

浏览 17提问于2021-11-17得票数 0

回答已采纳

1回答

如何使用pyspark跳过CSV文件中的多个标题行

如何使用pyspark跳过这些行？ pyspark中有没有lines.startswith

浏览 1提问于2018-03-20得票数 1

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：我尝试了几种在spark环境下不起作用的方法。谢谢!

浏览 1提问于2020-08-08得票数 2

1回答

Prolog:脚本没有停止

我有三条规则：开始-检查第二个列表是否是第一个列表的前缀。startswith([Xh|Xt], [Yh|Yt]) :- Xh=Yh, startswith(Xt, Yt).suffix(X, Y) :- reverse(X, XR), reverse(Y, YR), startswith(YR,XR).但后缀并没有停止计算。

浏览 3提问于2014-02-06得票数 0

回答已采纳

2回答

pyspark上的这个函数有什么问题？

、

def text_func(df, col): .otherwise("my_texts")) 这个函数不知何故不起作用，并给我一个错误

浏览 19提问于2019-07-18得票数 1

回答已采纳

2回答

如何从以2K开头的pyspark数据帧中删除记录

、、

我使用的是pyspark 3.0.1。我想从我的pyspark数据帧df的列group中删除记录以2K开头的行。

浏览 1提问于2021-03-04得票数 0

2回答

动态选择列并写入单个列

我有一个从图形框架生成的，并且列数是动态的。 From e0 v0 e1 v1 e2 v2输出预期只有转置列开始于e*所以输出-exm2 但是列的数量是动态的，所以如果下面是数据-Test exm1 ver1 exm2

浏览 1提问于2020-06-18得票数 0

回答已采纳

2回答

火花数据中的特定词过滤

、、

我有一个火花数据，它有以下数据 |text

浏览 2提问于2016-11-19得票数 1

回答已采纳

1回答

为每行创建一个列，其中列表值来自以数据帧中的子字符串开头的列

、、、

我有一个这样的数据帧： name, surname, delivery_?, delivery_?, delivery_?,other delivery_?, recovery_?,recovery_?, recovery_?, and other recovery_? 我想： name, surname, delivery, recovery 其中delivery列对于每一行的值[df['delivery_?'],df['delivery_?'],df['delivery_?'],........] (列表)，和recovery列作为每一行

浏览 8提问于2021-05-10得票数 0

2回答

如何导入我通过--py-files添加到集群的python模块？

、、、

当我向Kubernetes spark集群提交spark时，我包含了这些--py-files：这给了我： java.io.FileNotFoundException: File file:/opt/spark/work-dir/pyspark_jdbc.zip现在，我发现至少在Spark 2.3+中已经不再是这样了，但让我

浏览 33提问于2019-10-22得票数 2

回答已采纳

3回答

PySpark: TypeError:条件应为字符串或列

、、、、

我正在尝试过滤RDD，如下所示：spark_df.filter(lambda r: str(r['target']).startswith1 spark_df = sc.createDataFrame(pandas_df) 3 spark_df.take(5)

浏览 2提问于2016-10-06得票数 18

1回答

火花误差ReduceByKey

、、、、

lambda x: (x.split(",")[8].encode("utf-8").replace('"','').replace("'",''), 1)).filter(lambda x: x[0].startswith('Ru'))#.reduceByKey(lambda x, y: x + y) #data_test_filter = data_test_bis.filter(lambda x: x[0].<e

浏览 1提问于2017-01-03得票数 0

回答已采纳

1回答

用开始和结束分隔符分隔多行记录

from pyspark.sql.types import *from pyspark.sql import SQLContextERROR")startPos = wi.filter(lambda x: x[0].startswith('QQ')).map(lambda (key,index) : inde

浏览 2提问于2017-11-21得票数 0

回答已采纳

1回答

使用spark-sql或pyspark模式在列之间匹配的转换

、、、

列A模式如果它与列C中的模式匹配，则用1更新好的东西，否则(-) pyspark、sparksql中的任何查询感谢Anuj Gupta

浏览 8提问于2021-11-09得票数 0

回答已采纳

3回答

Spark计数包含特定单词的行数

、

from pyspark import SparkConf, SparkContext print str(count)lines = spark.textFile("hdfs:/&#

浏览 1提问于2017-07-13得票数 0

回答已采纳

1回答

GroupBy与ApplyInPandas in PySpark* -如何正确地实现UDF？*

、、

我正在尝试使用PandasUDF in PySpark来查找层次结构中的“最长唯一尾”。pdf.sort_values(by='value') if sortedData.index(i+1).loc['value'].startswithgetLongestTail(pdf) -> pd.DataFrame: return (lambda x: pdf.shift(1).l

浏览 5提问于2021-12-11得票数 1

1回答

方法用于PySpark* DataFrame的所有行。*

、、

我在为PySpark (python=2.7，pyspark=1.6)上的任务设计一个工作的python=2.7时遇到了麻烦。我的感觉是我应该这样做：from pyspark.sql.functions import udf res = ggrams.filter((ggrams.ngram.startswith(x)) \

浏览 0提问于2018-04-26得票数 0

回答已采纳

1回答

设置s3文件导入到pyspark的条件

、

我是新的PySpark和AWS EMR。对于Pyspark.py脚本，它很简单，如下：我想检查一下从123xxxx开始加载的s3文件内容。from __future__ import print_functionimport sys text_file = sc.textFile(sys.argv[1])

浏览 15提问于2021-04-02得票数 0

回答已采纳

1回答

为什么最大的函数抛出错误

、、

df.withColumn("Fib", greatest(list(filter(lambda x: x.startswith('fib_'),df.columns)))).show() 我得到了以下错误

浏览 1提问于2020-03-01得票数 0

1回答

MapR流和PySpark

、、、

PySpark是否适用于MapR Streams (兼容)？strLoc = '/Path1:Stream1'from pyspark.streaming.kaf

浏览 1提问于2017-01-28得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用pyspark跳过CSV文件中的多个标题行

Pyspark:通过ID和最近日期向后加入2个数据帧

Prolog:脚本没有停止

pyspark上的这个函数有什么问题？

如何从以2K开头的pyspark数据帧中删除记录

动态选择列并写入单个列

火花数据中的特定词过滤

为每行创建一个列，其中列表值来自以数据帧中的子字符串开头的列

如何导入我通过--py-files添加到集群的python模块？

PySpark: TypeError:条件应为字符串或列

火花误差ReduceByKey

用开始和结束分隔符分隔多行记录

使用spark-sql或pyspark模式在列之间匹配的转换

Spark计数包含特定单词的行数

GroupBy与ApplyInPandas in PySpark* -如何正确地实现UDF？*

方法用于PySpark* DataFrame的所有行。*

设置s3文件导入到pyspark的条件

为什么最大的函数抛出错误

MapR流和PySpark

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐