我有一个文本文件,里面有一些句子。我需要计算每对句子之间的相似性(例如1:2,1:3,1:4,…),2:3,2:4,…),下面是如何计算相似性的方法:例如,第一句和第二句之间的相似性是(它们之间的交集/它们的结合),我尝试了下面的代码**文本文件示例:**bash和Linux(请注意,每一行包含一句)两个句子的交集: Linux
我有两个RDDs,每个RDDs都是一组包含重复项的字符串。我想找到这两组保持重复的交集。示例:RDD2 : a, a, b, c, c
我想要的交集是集合a, b, c, c,即交集将包含每个元素,这是它在这两个集合中存在的最小次数。是否有一种方法可以使用其他转换和/或交集转换来有效地计算交集?我试图避免算法上这样做,这不太可能像火花法那样高效。(对于感兴趣的人,我试图计算一组文件的 )