如何在pyspark中获得距离？

文章/答案/技术大牛

发布

1回答

、、、、

.|2020-01-01 17:10:24| """ SELECT ID, timestamp,+--------------------+-------------------+-----------

浏览 37提问于2020-03-28得票数 0

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

、、

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？

浏览 0提问于2018-07-18得票数 0

回答已采纳

1回答

PySpark approxSimilarityJoin()未返回任何结果

、、、

我正在尝试通过向量化用户特征并在PySpark中按用户向量之间的距离排序来查找相似的用户。按照docs中的代码，我将使用pyspark.ml.feature.BucketedRandomProjectionLSH模型中的approxSimilarityJoin()方法。inputCol="scaledFeatures", outputCol="hashes", bucketLength=1.0) 我不确定更改bucketLength或numHash

浏览 80提问于2019-08-31得票数 0

1回答

如何将索引转换为PySpark DataFrame？

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspark将列表

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

aws胶水触发作业

、、、

我希望通过触发器在目录中出现的每个新表上运行相同的作业，但不需要在作业脚本中手动更改表名。简而言之，如何在不每次手动更改表名的情况下，对数据目录中出现的每个新表运行脚本提供的相同转换？谢谢

浏览 3提问于2018-05-11得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

如何在Pyspark 1.6.1中集成/计算点积？

、、

我在pyspark 1.6.1中有以下表格：| key|carid| data|+-----+------ -++-----+--------+| 2| 102| |我如何在pyspark 1.6.1中做到这一点？

浏览 1提问于2017-07-28得票数 0

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builderforma

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

PySpark MLLib:将数字转换为范畴

、、、

我从一个数据回购中获得了一个数据文件，它有一些基于日期的特性，例如The types of all these are IntegerType() 问题1：为了训练一个模型，我应该把这些日期相关的列转换成分类吗？问题2：我如

浏览 1提问于2020-04-02得票数 0

1回答

如何在Pyspark中安装外部python库？

、、

当我还是个火种代码的时候，它要求我安装一个叫做fuzzywuzzy的Python模块(我用它来应用leiv距离)。这是一个python库，似乎pyspark没有安装模块.那么，我如何将这个模块安装在Pyspark中呢？

浏览 1提问于2022-07-30得票数 0

回答已采纳

1回答

PySpark有效方式N个最大元素

、

如何在PySpark中以可接受的方式执行此操作？我知道如何在Pandas中做到这一点，但我想知道在PySpark中是如何高效完成的，或者是否可以高效完成。我的第一个想法是使用来自pyspark.sql.functions的最好的，如下所示cols = df_tmp.columns[:-1] for j in cols:我也不知道如何在不重写单元格(Charlie，Foxtrot)中的值的情况下<em

浏览 1提问于2019-11-09得票数 0

1回答

Zeppling中缺少%velo解释器

、

我已经设置了vora，安装和设置一切正常后，Zeppline帐户中的解释器%velo丢失，我有其他解释器，如%spark，%pyspark，%sql，%dep，%vora，但%velo丢失，我如何获得它

浏览 2提问于2016-03-01得票数 0

2回答

从pyspark会话中获取配置单元和hadoop版本

、、

我在一个有hive的hadoop集群上使用pyspark。我知道可以从命令行(spark-submit --version、hive --version、hadoop version)获取spark、hive和hadoop版本，但是如何在pyspark中实现同样的功能呢_sc.version)) 不过，我想不出如何获得hive & hadoop版本。有人知道吗？提亚

浏览 23提问于2020-02-14得票数 2

回答已采纳

1回答

在pyspark上运行python库的速度会加快吗？

、、

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码，为了提高效率，我应该把它翻译成PySpark吗？

浏览 2提问于2018-06-22得票数 0

1回答

将函数应用于两列

、、

假设我有两个PySpark DataFrames df1和df2。2 3我希望为每个df2['b']找到最接近的df1['a']值，并将最近的值作为df1中的一个新列添加换句话说，对于df1['a']中的每个值df1['a']，我希望找到一个实现min(abx(x-y)) for all y in df2['b']的y (注意

浏览 2提问于2016-11-02得票数 10

回答已采纳

1回答

数据帧到JSON

如何在pyspark中处理dataframe并获得json格式的输出：empid empname in out1 A 1 1json中需要的输出：id:empid,in:[1,1],}

浏览 4提问于2018-03-18得票数 0

2回答

使用pyspark将两个csv文件连接到键值rdd中

、、、

我正在尝试使用pyspark将两个没有共同之处(没有键是公共的)的csv文件组合成一个键值成对的rdd 让我们假设A.csv有 ac 而B.csv有 13 在pyspark中有没有一个选项可以通过连接这两个来获得一个rdd，就像这样 a:1c:3 当然，两个csv文件中的行数应该匹配。这是在pyspark中很容易做的事情，还是应该首先在常规的python中完成。也就是说，对这两个文件进行嵌套循环，然后创建一个元组元组，如((a,1

浏览 13提问于2019-12-17得票数 0

1回答

找到所有可能的点对之间的力之和？

、、

有一些n点，每个点都有两个属性：2.吸引值(整数)Attraction_force(A, B) = (distance between them) * Max(Attraction_val_A, Attraction_val_B);我试着计算和增加所有对之间的作用力 for(int j=i+1; j<n; j++) { force += abs(P[i].pos - P[j].pos) * max(P[i

浏览 2提问于2017-05-13得票数 2

回答已采纳

2回答

将PySpark与木星笔记本集成

、、、、

我遵循这个安装朱庇特笔记本，PySpark，并整合两者。我打开了kernel.json并编写了以下内容： "display_name": "pySpark",

浏览 5提问于2016-08-25得票数 2

回答已采纳

1回答

如何对星火数据进行逐行并行计算？

、、、、

我收集了30万点，我想计算它们之间的距离。实际上，就我的目的而言，(0, 1)与(1,0)之间的距离是相同的。from pyspark.sql import SparkSessionfrom pyspark.sql.functions importudfimport math @udf(returnType=IntegerType

浏览 2提问于2021-02-04得票数 2

回答已采纳

点击加载更多