在大数据处理中,通常希望在不改变现有查询结构(分组、子查询等)的情况下“勾勒”组摘要。在Spark (和HiveQL)中,collect_set就是这样做的一个例子。它构建每个组列的唯一值的数组。
我正在寻找一个联非新议程,它为B列的每个唯一值从A列构建一个唯一值的映射。例如,给定
date user_id category revenue
1/1 1 a 1
1/1 2 b 0
1/1 3 a 0
1/2 2 b 10
1/2 3 a
我有一个卡桑德拉表,这是相当大的,现在我有火花-卡桑德拉与以下代码连接。
import pandas as pd
import numpy as np
from pyspark import *
import os
from pyspark.sql import SQLContext
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.datastax.spark:spark-cassandra-connector_2.12:3.0.1 --conf spark.cassandra.connection.host
其他人在Azure集群上都有此错误消息
'This cluster's runtime version is out of support. Select a new runtime and restart this cluster. [Learn more]'
(“学习更多”引导到这个站点:)
集群上有以下属性/版本:
DBR 6.5 ML
Spark 2.4.5
Scala 2.11
对于这个错误消息,我自己能做些什么吗?或者我应该联系管理员谁可以更新集群,或者类似的事情?