文章/答案/技术大牛

发布

社区首页 >问答首页 >如何仅使用Dataset API连接两个数据集

问如何仅使用Dataset API连接两个数据集
EN

Stack Overflow用户

提问于 2018-06-20 02:48:10

回答 1查看 504关注 0票数 0

我正在努力扁平化由连接另外两个数据集产生的数据集。下面是我的代码：

  val family = Seq(
      Person(0, "Agata", 0),
      Person(1, "Iweta", 0),
      Person(2, "Patryk", 2),
      Person(3, "Maksym", 0)).toDS
    val cities = Seq(
      City(0, "Warsaw"),
      City(1, "Washington"),
      City(2, "Sopot")).toDS

然后连接：

val joined = family.joinWith(cities, family("cityId") ===cities("id"),"crossjoin")

得到的结果是：

joined: org.apache.spark.sql.Dataset[(Person, City)]
 _1| _2|

[0,Agata,0]|[0,Warsaw]| | 
[1,Iweta,0]|[0,Warsaw]| |
[2,Patryk,2]| [2,Sopot]| |
[3,Maksym,0]|[0,Warsaw] |

我想要展平它，并获得以下数据集：

val output: Dataset= 
[0,Agata,0,Warsaw]|
[1,Iweta,0,Warsaw]|
[2,Patryk,2,Sopot]| 
[3,Maksym,0,Warsaw]

任何想法如何做到这一点不使用dataframe API，我希望它是完全由Dataset API完成。非常感谢你的帮助。诚挚的问候

scala

apache-spark

apache-spark-dataset

回答 1

Stack Overflow用户

发布于 2018-06-20 03:16:39

使用join本身，您将获得相同的输出。

family.join(cities, family("cityId")===cities("id")).drop("id")

示例输出：

+--------+------+--------+
|cityName|cityId|cityName|
+--------+------+--------+
|   Agata|     0|  Warsaw|
|   Iweta|     0|  Warsaw|
|  Patryk|     2|   Sopot|
|  Maksym|     0|  Warsaw|
+--------+------+--------+

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50935124

复制

相似问题

问如何仅使用Dataset API连接两个数据集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何仅使用Dataset API连接两个数据集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何仅使用Dataset API连接两个数据集
EN