在pyspark中,要从一个非常大的数据帧中选择随机列,可以按照以下步骤进行操作:
rand()
函数生成一个0到1之间的随机数,并将其乘以列名的数量,然后取整作为随机列的索引。完整的代码示例:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.functions import rand
spark = SparkSession.builder.appName("RandomColumnSelection").getOrCreate()
df = spark.read.format("csv").option("header", "true").load("your_data.csv")
columns = df.columns
random_column = columns[int(len(columns) * rand())]
print("Randomly selected column:", random_column)
领取专属 10元无门槛券
手把手带您无忧上云