在scala-spark中,可以通过以下步骤从目录中读取想要的文件:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
val spark = SparkSession.builder()
.appName("Read Files from Directory")
.master("local")
.getOrCreate()
read
方法读取目录中的文件:val directoryPath = "path/to/directory"
val fileFormat = "csv" // 文件格式,可以是csv、json、parquet等
val files = spark.read.format(fileFormat).load(directoryPath)
val filteredFiles = files.filter(col("input_file_name").endsWith(".csv"))
以上代码中,path/to/directory
是目录的路径,csv
是文件格式,可以根据实际情况进行修改。
推荐的腾讯云相关产品:腾讯云的云服务器CVM、对象存储COS、弹性MapReduce EMR等产品可以与Spark配合使用,提供稳定可靠的云计算服务。您可以访问腾讯云官网了解更多产品信息和详细介绍。
参考链接:
领取专属 10元无门槛券
手把手带您无忧上云