将自定义项PySpark到多列

是指在PySpark中将自定义的函数应用于多个列的操作。PySpark是Apache Spark的Python API，它提供了一种用于大规模数据处理的高级编程接口。

在PySpark中，可以使用withColumn方法来将自定义函数应用于多个列。首先，需要定义一个自定义函数，然后使用withColumn方法将该函数应用于每个需要操作的列。

以下是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# 创建SparkSession
spark = SparkSession.builder.appName("CustomFunctionExample").getOrCreate()

# 定义自定义函数
def custom_function(col1, col2):
    # 在这里编写自定义函数的逻辑
    return col1 + col2

# 注册自定义函数
custom_udf = udf(custom_function, StringType())

# 读取数据
data = spark.read.csv("data.csv", header=True)

# 应用自定义函数到多列
data = data.withColumn("new_column", custom_udf(data["column1"], data["column2"]))

# 显示结果
data.show()

在上述示例中，首先创建了一个SparkSession对象，然后定义了一个自定义函数custom_function，该函数接受两个参数并返回它们的和。接下来，使用udf函数将自定义函数注册为UDF（用户自定义函数）。然后，使用withColumn方法将自定义函数应用于两个列column1和column2，并将结果存储在新的列new_column中。最后，使用show方法显示结果。

这种将自定义项PySpark到多列的操作在数据处理和转换过程中非常常见，特别是当需要对多个列进行复杂的计算或转换时。通过自定义函数，可以灵活地处理数据，并根据具体需求进行相应的操作。

腾讯云提供了一系列与大数据处理和分析相关的产品，例如TencentDB、Tencent Cloud Data Lake Analytics等，可以根据具体需求选择适合的产品进行数据处理和分析。具体产品介绍和链接地址可以参考腾讯云官方网站。

页面内容是否对你有帮助？

有帮助

没帮助

对Python的不同文本进行分类

、、、

我有一个数据集，其中每一行都是一个特定的遵从性违规。第一列是违规的名称(df'Violations‘消防出口，过道，符合人体工程学的Seats..up到130个违规)，第二列表示违规的严重性(df’‘Category’Minor，Medium，重大，Critical)，第三列是违规的描述(df' description‘1-2句子描述问题)。每个违规(例如过道)呈现不同的问题(过道太小，而过道只是阻塞)。我想根据违规描述对我的违规行为进行分类。例如，我希望将以下两个违规描述归入相同的新类别(障碍物)： “建议工厂保护所有过道不受任何障碍物的阻碍，以确保紧急疏散，并确保所有疏散

浏览 0提问于2019-02-18得票数 0

1回答

Spark 2.3.1 array_join和array_remove

、、、、

我已经编写了一个pyspark脚本来执行SQL文件，它在最新版本的spark上运行得很好，但目标机器的版本是2.3.1，并且它抛出了异常： pyspark.sql.utils.AnalysisException: u"Undefined function: 'array_remove'. This function is neither a registered temporary function nor a permanent function registered in the database 'default' 这些似乎没有出现在旧版本中:(

浏览 62提问于2021-01-14得票数 0

回答已采纳

1回答

在组合框中显示数据库值之前，显示初始值和空字符串

、、

在从数据库获取列值之前，我希望您帮助combobox显示初始值和空字符串。还有什么我能做到的吗。这就是我尝试过的，它只起作用--问题是它最初没有显示和空字符串，而是在数据库表中显示值。 OleDbDataAdapter oda = new OleDbDataAdapter("select subject_code from subjectinfo where subject_code like '%'", con); DataTable dt = new DataTable(); oda.Fill(dt);

浏览 2提问于2016-02-23得票数 2

回答已采纳

1回答

无法将项添加到标题菜单

、、

为什么当我为enableLocking:true设置Panel时，不能将菜单项添加到列标题菜单中？小提琴：注意，enableLocking设置为true。单击其中一个标题、名称、电子邮件或电话中的下拉菜单。无法选择自定义项。但是，如果您注释掉enableLocking:true,，菜单项就会出现。为什么会这样呢？如何保持enableLocking并将项目添加到标题菜单中？

浏览 2提问于2015-11-10得票数 0

回答已采纳

1回答

CrossValidator.fit() - IllegalArgumentException:列预测的类型必须等于.[array<double>，array<double>]，但类型为double

、、、

下面是我为Python3.9和Spark3.1.1使用的包： from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssemble, StringIndexer from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import MultilabelClassificati

浏览 1提问于2021-04-25得票数 0

1回答

如何读取火花流的分区列

、、、

我有一个火花流工作，在这里我流数据，并将其划分为一个或多个列，并存储在gcs桶中。下面是示例代码，我将其按团队划分并存储在gcs桶中。 from pyspark import SparkContext from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() sc = spark.sparkContext temp = spark.createDataFrame([ (0, "team1",100), (1, "team2",200),

浏览 5提问于2022-11-29得票数 0

回答已采纳

2回答

Apache Spark --将UDF的结果赋给多个dataframe列

、、、、

我使用pyspark，使用spark-csv将一个大型csv文件加载到dataframe中，作为预处理步骤，我需要对其中一列(包含json字符串)中的可用数据应用各种操作。这将返回X个值，每个值都需要存储在各自单独的列中。该功能将在UDF中实现。但是，我不确定如何从UDF返回值列表，并将这些值提供给各个列。下面是一个简单的例子： (...) from pyspark.sql.functions import udf def udf_test(n): return [n/2, n%2] test_udf=udf(udf_test) df.select('amount

浏览 2提问于2016-02-11得票数 57

回答已采纳

1回答

在SharePoint 2010中使用新的列和行标题创建自定义视图

、

我有一个简单的列表，我要在其中输入名称、时间范围和标签。我想为这个数据创建一个自定义视图，其中时间帧成为列标题，标记是行定义，名称显示在网格中。实现这一目标的最简单方法是什么？

浏览 1提问于2013-07-20得票数 0

回答已采纳

1回答

转置具有多列的数据帧

、、

这是我的数据帧架构： `root |-- customerid: string (nullable = true) |-- event: string (nullable = true) |-- groupe1: string (nullable = false) |-- groupe2: string (nullable = false) |-- groupe3: string (nullable = false) 这是我的数据框的一部分 +----------------+--------+--------------------+--------------+-------

浏览 8提问于2019-02-15得票数 0

回答已采纳

1回答

验证星火数据中的列名和数据类型

、、、、

我想使用python中的pyspark读取.csv文件，但我只想为每个列提供类型，并对列名(而不是模式中的名称)使用标头(来自.csv文件)。有人知道怎么做吗？

浏览 6提问于2021-04-14得票数 1

回答已采纳

1回答

基于pyspark.ml的数据随机林

、、、

我正在尝试使用pyspark.ml库构建一个随机森林分类器，用于数据挖掘(，而不是RDD的mllib )。我是否必须使用文档中给出的管道？我只想建立一个简单的模型， rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata) 我遇到以下错误 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/spark/python/pyspark/__ini

浏览 0提问于2017-10-18得票数 0

1回答

编写用户定义的函数来复制和粘贴，然后排序，最后在特定列之后求和

、、、

我正在尝试编写一个自定义函数，它可以被称为单元公式。它基本上接受Source range，target range，排序范围和数据应该从哪里求和作为输入参数。此函数从源范围复制并粘贴到目标范围。然后在排序范围的帮助下进行排序。之后，它应在删除剩余数据后对指定数量的列的数据求和 Function Sort_Column(MaCol As String, SortCol As String, TarCol As String, x As Long) Dim OneRange As Range Dim Ws As Worksheet`enter code

浏览 3提问于2013-10-30得票数 0

8回答

使用pyspark获取列的数据类型

、、

我们正在读取来自MongoDB Collection的数据。Collection列有两个不同的值(例如：(bson.Int64,int) (int,float) )。我正在尝试使用pyspark获取一个数据类型。我的问题是有些列有不同的数据类型。假设quantity和weight是列 quantity weight --------- -------- 12300 656 123566000000 789.6767 1238 56.22 345 23 34

浏览 42提问于2017-07-11得票数 62

回答已采纳

1回答

在没有sql函数的PySpark中对数据进行排序

、、、

我在打印这个查询时遇到了一些问题，这个查询的月份按适当的顺序排序。是否有按降序格式化月份列的pyspark函数命令？(不使用sql命令) from pyspark import SparkContext from pyspark.sql import SQLContext from operator import add sc = SparkContext.getOrCreate() sqlContext = SQLContext(sc) rows = sc.textFile("data.csv") data = rows.map(lambda line: line.sp

浏览 1提问于2020-06-15得票数 0

回答已采纳

1回答

创建Pyspark会话大约需要25秒

、、

我正在尝试使用MongoDB连接器来使用PySpark。但是，仅创建PySpark会话就需要大约20到25秒，这会影响服务的性能。我还给出了用来创建spark会话的代码片段。有没有人能建议我怎么让它更快？ from pyspark.sql import SparkSession my_spark = SparkSession \ .builder \ .appName("myApp") \ .config("spark.mongodb.input.uri", "mongodb://localhost:27

浏览 18提问于2020-04-14得票数 2

1回答

在jupyter notebook的python3内核上运行pyspark程序

、、、

我使用pip install pyspark安装了PySpark。我没有设置任何路径等；但是，我发现所有内容都被下载并复制到C:/Users/Admin/anaconda3/scripts中。我在Python3内核中打开jupyter notebook，并试图运行SystemML脚本，但它给了我一个错误。我意识到我也需要将winutils.exe放在C:/Users/Admin/anaconda3/scripts中，所以我这样做了，脚本按预期运行。现在，我的程序包括GridSearch，当我在我的个人笔记本电脑上运行它时，它比在云数据平台上运行它的速度要慢得多，在云数据平台上我可以用Spar

浏览 1提问于2020-09-12得票数 0

1回答

如何从PySpark中的向量列中提取浮点数？

、、、、

我的星火DataFrame有以下格式的数据： printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)： from pyspark.sql.functions import udf from pyspark.sql.types import FloatType firstelement=udf(lambda v:float(v[0]),FloatType()) df.select(firstelement('col1')).show() 但是，如何将其应用于df的所有列？

浏览 0提问于2020-02-18得票数 1

回答已采纳

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "name": "Red", "min": 0, "max": 99, "value": "Order More" }, { "name": "Amber"

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

将Acumatica字段的列长增加到nvarchar(max)

我希望将标准Acumatica字段的列长度从nvchar(1000)增加到nvarchar(max)，但不确定如何做到这一点。我尝试使用列长度增加，但它不允许输入MAX。我尝试了下面的方法，但结果是ntext而不是nvarchar(max)。 <Column TableName="SMEmail" ColumnName="MailBcc" ColumnType="string" AllowNull="True" DecimalPrecision="0" DecimalLength="0" Is

浏览 19提问于2021-02-26得票数 0

回答已采纳

1回答

将(铸)列转换为火花放电中的行

、

我有一个火花数据格式，在下面的格式，每个唯一的id可以有最多3行，这是由秩列。 id pred prob rank 485 9716 0.19205872 1 729 9767 0.19610429 1 729 9716 0.186840048 2 729 9748 0.173447074 3 818 9731 0.255104463 1 818 9748 0.215499913 2 818 9716 0.207307154 3 我希望将(强制转换)转换为逐行数据，以便每个id只有一行，而pred & prob列有多个列(

浏览 2提问于2021-10-21得票数 0

回答已采纳

2回答

要Py的SQL查询(Spark)

、、、、

我有以下SQL查询，我想将其转换为pyspark。我想使用两个列pp和gender，并在pyspark中执行以下操作 %sql SELECT pp , SUM(CASE WHEN Gender = 'M' THEN 1.0 ELSE 0.0 END) / COUNT(1) AS gender_score , count(1) AS total FROM df WHERE gender in ('M', 'F') GROUP BY pp HAVING

浏览 12提问于2020-12-16得票数 0

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。 1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

以编程方式将项添加到数据集中。

、

我在WPF/VB.NET中添加了一个数据集，成功地在代码中创建了列，但我不知道如何将行添加到datagrid中。 Private Sub button_Click(sender As Object, e As RoutedEventArgs) Handles button.Click Dim c1 As New DataGridTextColumn() c1.Header = "Šifra" c1.Width = 100 c1.Binding = New Binding("Šifra") gridRacun.Column

浏览 6提问于2017-06-21得票数 1

回答已采纳

2回答

ListView显示的行中没有任何内容WPF C#

、、、

嘿伙计们。我使用包含两列的ListView从SQL server读取表。所以当我有一个ListBox的时候，一切都是正确的，但是现在我改成了ListView，列出了一些错误，行进来了，但是没有文本，所以它只显示了一个可滚动的空白ListView。这是ListView的XAML <ListView Height="315" HorizontalAlignment="Left" Margin="26,15,0,0" Name="listView1" VerticalAlignment="Top" Width=&

浏览 1提问于2013-04-30得票数 2

回答已采纳

1回答

如何在pyspark.sql.functions.pandas_udf和pyspark.sql.functions.udf之间进行选择？

、、

我知道当涉及到矢量化时，pyspark.sql.functions.pandas_udf会比pyspark.sql.functions.udf更快。但是，如果不涉及矢量化，那么两者在性能上应该是相似的吗？在这两者之间做出选择有什么指导原则吗？

浏览 31提问于2020-12-19得票数 1

1回答

如何在pyspark中对整列的值求和

、

我有一个有900列的数据帧，我需要pyspark中每列的总和，所以它将是一个列表中的900个值。请告诉我怎么做好吗？数据大约有280mil行，全部是二进制数据。

浏览 108提问于2020-04-14得票数 2

回答已采纳

1回答

如何在cassandra中以文本格式插入dateof(now())

、、

我有一个表，其中有一个文本格式的列。我需要像下面这样写一个insert CQL。插入检查表(prop_name，description，somevalue)值('ABC'，'XYZ'，dateof(now()；这里的“某些值”列是文本类型的，但我需要插入当前的日期-时间。

浏览 0提问于2020-09-03得票数 0

1回答

忽略缺失值计算pyspark数据框列的百分位数

、

我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中，并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西，我只能使用Pyspark语法。我试过下面的代码 w = Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F.percent_rank().over(w)) 我希望得到一个新的列，它可以自动计算平衡列中每个数据点的百分位数，并忽略缺少的值。

浏览 14提问于2019-07-11得票数 0

1回答

对话框中的窗口上下文子菜单

、、、

我创建了一个应用程序来帮助维护要在办公室周围使用的文件夹/文件路径格式。当exe最初以管理员模式运行时，应用程序将注册表实体添加到HKEY_CLASSES_ROOT\AllFileSystemObjects\shell\PathStructure路径，子项添加到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\CommandStore\shell\，其中PathStructure是应用程序的名称，子项用PathStructure.*键控，*替换为命令名。当导航Windows资源管理器和命令时，它完全可以

浏览 3提问于2016-04-20得票数 0

2回答

将pyspark dataframe插入到现有的分区配置子表中

、

我有一个hive表，它是按插入时间列分区的。我有一个pyspark dataframe，除了已分区的列之外，它与表具有相同的列。当表未分区时，以下操作效果很好： df.insertInto('tablename',overwrite=True) 但是我不知道如何从pyspark插入到一个特定的分区。下面尝试过： df.insertInto('tablename',overwrite=True,partition(inserttime='20170818-0831')) 但它不起作用，失败的原因是 SyntaxError: non-keyw

浏览 0提问于2017-09-16得票数 1

2回答

用于获取精度、召回、f1score的混淆矩阵

、、、

我有一个数据帧df。我已经对数据帧执行了decisionTree分类算法。这两列是执行算法时的标签和特征。该模型被称为dtc。如何在pyspark中创建混淆矩阵？ dtc = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label') dtcModel = dtc.fit(train) predictions = dtcModel.transform(test) from pyspark.mllib.linalg import Vectors from pyspark.mllib.re

浏览 0提问于2019-10-16得票数 4

1回答

Pyspark:将多类分类结果提取为不同的列

、、、

我正在使用RandomForestClassifier对象来解决多类分类问题。预测的输出数据帧将'probability‘列表示为向量： df.select('probability').printSchema() root |-- probability: vector (nullable = true) 每一行都是4的向量： df.select('probability').show(3) +--------------------+ | probability| +--------------------+ |[0.027533

浏览 15提问于2019-10-10得票数 1

回答已采纳

2回答

android网格查看每个网格的不同宽度/高度

、

我试图创建一个宽度/高度不同的网格视图。基本上，假设第一列的图像为100x100，下一列的图像为50x50，下一列的图像为50x50。但是对于下一行，第一列将为空，只有第二列和第三列将被填充。基本上，一行看起来就像这样 ____ _ _ | ||_||_| |____||_||_| 我需要用一个网格视图来做这件事，但我想不出答案。您是否可以指定网格的宽度/高度，或者网格的权重之类的内容，或者我是否必须在网格视图的列上合并另一个层次？提前谢谢。更新:我目前的想法是建立一个4列的网格视图。假设我们有两行，如下所示： a b c d e f g h 其中a到h是图像。现在，对于

浏览 3提问于2013-03-10得票数 2

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。 id使用nextval('my_sequence')从序列中获取其值。 PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence')")) Postgres将该列解释

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

如何为模块化小部件设计数据库

、

我真的被难住了，希望你们这些聪明人能帮助我！我的数据库设计知识充其量也就是中等水平。已经足够让我惹上麻烦了。首先，我是一名程序员。我正在尝试建立一个网站，但后端数据库的设计把我难倒了。为了解释起见，我将在这里给出一个有点做作的例子，但这个例子恰到好处地满足了我需要实现的目标。想象一下，你正在为游戏“汽车大战”或类似游戏的老粉丝建立一个数据库。在这个游戏中，玩家可以从几辆基本汽车中选择一辆，然后定制它以在游戏中使用。每辆基础车都有一些属性供玩家自定义，比如引擎、变速器和装甲。每辆赛车都有这样的位置，玩家可以将适当的物品放入这些位置。除了这些公共插槽外，每辆车都有N个底座。这一点每辆车都

浏览 0提问于2013-07-22得票数 0

回答已采纳

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中)。我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。我的问题是，我们如何像在mysql中使用ON DUPLICATE K

浏览 4提问于2015-09-16得票数 12

1回答

使用整行udf过滤Pyspark Dataframe

、、

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame： my_filter_udf = udf(lambda r: my_filter(r), BooleanType()) new_df = df.filter(my_filter_udf(col("*")) 但 col("*") 引发错误，因为这不是有效的操作。我知道我可以将dataframe转换为RDD，然后使用RDD的filter方法，但我不希望将其转换为RDD，然后再转换回dataframe。我的DataF

浏览 2提问于2018-08-28得票数 4

回答已采纳

2回答

如何强制PySpark四舍五入使用银行家四舍五入

、、

我需要使用银行家的四舍五入( 0.5四舍五入到最近的偶数)在PySpark中舍入一列。到目前为止，我尝试过这样的方法： from pyspark.sql.functions round as _round df = df.withColumn(new_name, col(old_name) * col('ExchangeRate')) df = df.select("*", _round(col(new_name))) 即使我在Python 3+中运行这个函数，PySpark的舍入函数仍然会应用HALF_UP舍入方法。我不能使用Python的循环

浏览 7提问于2022-07-08得票数 2

回答已采纳

2回答

计算PySpark中每一行的唯一值

、、、、

我有PySpark DataFrame： from pyspark.sql.types import * schema = StructType([ StructField("col1", StringType()), StructField("col2", StringType()), StructField("col3", StringType()), StructField("col4", StringType()), ]) data = [("aaa", "aab", &

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

Acumatica定制项目有没有更好的版本控制？

目前，我们正在开发不同项目的定制功能。并手动将所有代码合并为一个，然后发布它。但是它缺乏版本控制和冲突控制，我想知道有没有像Git这样更好的方式来开发Acumatica定制？

浏览 0提问于2018-05-08得票数 0

1回答

使用DataFrame : ValueError:对象的长度与字段长度不匹配的查询结果

、、、

我从RDS运行了一个查询，并使用Pyspark将查询转换为DataFrame。这是我的密码 query= "Select * from profit" profit=pd.read_sql(query, con=db_connection) StructureSechma=StructType([ StructField("id",IntegerType(), True), StructField("type",StringType(), False), StructField("userId",Intege

浏览 10提问于2022-11-18得票数 0

1回答

Pyspark:如何将行分组为N个组？

我在pyspark脚本中执行df.groupBy().apply()，并希望创建一个自定义列，该列将我的所有行分组到N(尽可能均匀，所以行/n)组中。这就是为什么我可以确保每次脚本运行时发送到我的udf函数的组数。我如何使用pyspark来做这件事？

浏览 32提问于2020-07-21得票数 0

回答已采纳

1回答

如何在Pyspark中读取多行CSV文件

、、、

我将此推文数据集与Pyspark一起使用，以便对其进行处理，并根据推文的位置获取一些趋势。但我在尝试创建数据帧时遇到了一个问题。我使用spark.read.options(header="True").csv("hashtag_donaldtrump.csv")创建数据帧，但是如果我查看tweets列，我会得到以下结果： ? 你知道如何清理CSV文件，以便它可以被Spark处理吗？提前谢谢你！

浏览 14提问于2021-01-15得票数 0

回答已采纳

1回答

StackOverflowError失败

、、、

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。如果我将列数减少到500列，代码就能工作。请帮帮忙下面是我的代码 data_df = spark.read.text(input_path) schema_df = pd.read_json(schema_path) df = data_df for

浏览 8提问于2021-11-10得票数 0

回答已采纳

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。所需的是根据年份划分一个大数据，并为每年(小数据)查找散列值并将结果持久化到一个表中。输入(产品，质量，商店，SoldDate) 读取数据中的数据，通过SoldDate进行分区，计算每个分区的散列，并将其写入文件/表。输出：(日期，散列) 我这样做的原因是，我必须比较每天运行这个过程，然后检查哈希是否更改了以前的日期。存在文件级别md5的可能性，但不希望生成文件，而是根据日期动态计算分区

浏览 8提问于2022-12-04得票数 0

2回答

检查三列中是否存在空值，并在PySpark中创建一个新列

、

浏览 9提问于2022-06-06得票数 0

1回答

如果用户知道哈希算法，如何在本地将密码存储在文本文件中，并防止用户重置密码？

、、、

目标：将用户名、散列盐分和散列密码存储在文本文件中允许用户将文件复制并粘贴到运行同一应用程序的其他计算机上。如果用户编辑文本文件并替换散列密码，有效地将密码重置为他们想要的任何用户，则捕获。问题:如果我存储用户名、散列盐和散列密码，用户可以重置密码，前提是他们知道散列算法。我可以添加一个额外的步骤，比如hash(password, salt, "X")，其中"X“只是一个常量值，被添加到密码和salt中。这个值"X“可以硬编码到应用程序中。然而，这是通过模糊的安全性，这是“很好”，直到这个“自定义”哈希算法得到解决/公开。即使用户知

浏览 6提问于2022-11-16得票数 0

1回答

在StructField中定义PySpark中字符串的最大长度

、、

我需要在PySpark中定义元数据。有些列具有字符串类型的最大长度。我注意到在中有VarcharType类型。然而，它在pyspark.sql.types中并不存在。 from pyspark.sql.types import * my_schema = StructType([ StructField("POSTAL_CODE", VarcharType(4)) , StructField("CITY", VarcharType(20)) ]) NameError: name 'VarcharType' is not defin

浏览 6提问于2022-08-30得票数 0

回答已采纳

1回答