“SparkSession”对象没有属性“textFile”

SparkSession是Apache Spark中的一个关键对象，用于与Spark集群进行交互和执行各种操作。它是Spark 2.0版本引入的，取代了之前版本中的SparkContext。

SparkSession对象没有属性"textFile"，这是因为"textFile"是SparkContext对象的方法，而不是SparkSession对象的属性或方法。在SparkSession中，可以使用read方法来读取文本文件。

以下是完善且全面的答案：

SparkSession是Apache Spark中的一个关键对象，用于与Spark集群进行交互和执行各种操作。它是Spark 2.0版本引入的，取代了之前版本中的SparkContext。

SparkSession具有以下特点和优势：

统一的编程接口：SparkSession提供了统一的编程接口，使得开发人员可以使用不同的编程语言（如Scala、Java、Python和R）来编写Spark应用程序。
高性能：SparkSession利用Spark的分布式计算能力，可以处理大规模数据集，并在内存中进行快速计算，从而实现高性能的数据处理和分析。
内置的优化器：SparkSession内置了优化器，可以自动优化查询计划，提高查询性能。
支持多种数据源：SparkSession可以从多种数据源中读取数据，包括Hadoop分布式文件系统（HDFS）、本地文件系统、Hive、关系型数据库等。
支持多种数据格式：SparkSession可以处理多种数据格式，包括文本文件、CSV文件、JSON文件、Parquet文件、Avro文件等。
支持交互式分析：SparkSession可以与交互式分析工具（如Spark Shell和Jupyter Notebook）集成，方便开发人员进行交互式数据分析和探索。

SparkSession的应用场景包括但不限于：

大数据处理和分析：SparkSession可以处理大规模的结构化和非结构化数据，支持复杂的数据处理和分析任务，如数据清洗、数据转换、数据聚合、机器学习等。
实时数据处理：SparkSession可以与流处理引擎（如Apache Kafka和Apache Flink）集成，实现实时数据处理和流式计算。
批量数据处理：SparkSession可以处理批量数据，支持离线数据处理和批量计算任务。
数据仓库和数据湖：SparkSession可以与数据仓库和数据湖（如Apache Hadoop和Apache Hive）集成，实现数据的存储、管理和查询。

腾讯云提供了一系列与Spark相关的产品和服务，包括云服务器、云数据库、云存储、云函数等。您可以通过以下链接了解更多关于腾讯云的相关产品和服务：

腾讯云产品与服务

请注意，本答案没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商，以遵守问题要求。

页面内容是否对你有帮助？

有帮助

没帮助

“SparkSession”对象没有属性“textFile”

、、

我目前正在使用SparkSession，有人告诉我SparkContext在SparkSession中。但是，在执行代码时，它显示了一个错误，即SparkSession中不存在SparkContext 下面是我完成的代码 import findspark findspark.init() from pyspark.sql import SparkSession, Row import collections spark = SparkSession.builder.config("spark.sql.warehouse.dir", "file://C:/temp&#

浏览 246提问于2021-09-11得票数 2

1回答

数据集不显示任何列

、

我是新来的火花，并试图学习它。我正在尝试使用类从textFile创建数据集。当我执行dataset.show()时，它显示所有空白，列长度显示0。代码： import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.sql.Dataset; impor

浏览 0提问于2018-09-12得票数 0

回答已采纳

3回答

当spark master设置为LOCAL时，SparkSession对象的HDFS路径不存在

、

我正在尝试使用Spark将数据集加载到Hive表中。但是当我尝试将文件从HDFS目录加载到Spark时，我得到了异常： org.apache.spark.sql.AnalysisException: Path does not exist: file:/home/cloudera/partfile; 这些是加载文件之前的步骤。 val wareHouseLocation = "file:${system:user.dir}/spark-warehouse" val SparkSession = SparkSession.builder.master("local[2]

浏览 0提问于2017-06-30得票数 1

3回答

如何使用java在Apache数据集中按desc进行排序？

、、、

我正在使用火花会话读取文件，然后拆分单词并计算单词的迭代次数。我需要按desc顺序显示数据。 SparkSession sparkSession = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spark.master", "local") .getOrCreate(); JavaRDD<Word> textFile = sparkSe

浏览 3提问于2017-05-22得票数 3

回答已采纳

2回答

任务不可序列化- Spark

、、

我得到的任务不是可串行化的错误在星火。我搜索并尝试使用了一些帖子中建议的静态函数，但是它仍然给出了相同的错误。代码如下： public class Rating implements Serializable { private SparkSession spark; private SparkConf sparkConf; private JavaSparkContext jsc; private static Function<String, Rating> mapFunc; public Rating() { map

浏览 0提问于2016-11-08得票数 4

回答已采纳

3回答

星星之火:使用case类将文本文件转换为Dataframe

我想使用case类将文本文件转换为dataframe，下面是我的代码。它一直工作到映射拆分，在这里我可以看到使用rdd_metadata_schema.take(1).foreach(arr => print(arr.toList))的值，但是当我检查dataframe时是空的。 case class metadata_schema( field_name:String, field_pos:String, field_dataTyp

浏览 0提问于2018-03-20得票数 2

回答已采纳

3回答

为什么我们不能使用Spark session创建RDD

、

我们看到了， Spark context available as 'sc'. Spark session available as 'spark'. 我读到spark会话包括spark context，streaming context，hive context ...如果是这样，那么为什么我们不能使用spark会话而不是spark上下文来创建rdd呢？ scala> val a = sc.textFile("Sample.txt") 17/02/17 16:16:14 WARN util.SizeEstimator: Failed to

浏览 0提问于2017-02-17得票数 9

1回答

如何在Spark程序中添加数据库细节

、

我正在尝试从星火程序加载一个蜂箱表。到目前为止，我使用将数据加载到Hive表中。在了解了这一点之后，我编写了一个关于eclipse的星火程序，您可以在下面看到。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SaveMode object SuperSpark { case class partclass(id:Int, name:String, salary:Int, dept:String, location:String) def main(argds: Array[String]) {

浏览 6提问于2017-06-29得票数 0

1回答

读取pySpark中的本地csv文件(2.3)

、、、、

我使用的是pySpark 2.3，试图读取一个如下所示的csv文件： 0,0.000476517230863068,0.0008178378961061477 1,0.0008506156837329876,0.0008467260987257776 但它不起作用： from pyspark import sql, SparkConf, SparkContext print (sc.applicationId) >> <property at 0x7f47583a5548> data_rdd = spark.textFile(name=tsv_data_path).fi

浏览 2提问于2018-07-11得票数 1

回答已采纳

1回答

如何重写星火scala代码以在apache中使用它

、、、

我重写了这段代码： import org.apache.spark.sql.SparkSession object SimpleApp { def main(args: Array[String]) { val logFile = "file:///root/spark/README.md" val spark = SparkSession.builder.appName("Simple Application").getOrCreate() val logData = spark.read.textFile(logFile).ca

浏览 0提问于2020-08-25得票数 0

回答已采纳

2回答

为什么迭代RDD后局部变量值不可见？

、

嗨，我正在用scala为apache-spark写代码。我的局部变量"country“值在rdd迭代完成后没有反映出来。我在检查rdd iteration.until中的条件后，在国家变量中赋值，rdd是迭代值，在控制从循环值中丢失后，国家变量中的值可用。 import org.apache.spark.sql.SparkSession import java.lang.Long object KPI1 { def main(args:Array[String]){ System.setProperty("hadoop.home.dir","C:

浏览 1提问于2019-07-16得票数 0

2回答

具有文件类型的输入标记的文件属性是什么？

、

我想显示上传的文本文件的内容，它可以工作。但我不知道为什么会有files[0]属性的textfile。我试着在网上搜索，但是没有结果。 <center> <input id="textfile" type="file"> <input id="upload" type="submit" value="Upload"> </center> <script type="text/javascript"> var tex

浏览 3提问于2016-03-24得票数 0

回答已采纳

1回答

在spark SQL中迭代数据框时的ArrayOutOfBoundException

、

我有一个名为people.json的数据集 {"name":"Michael"} {"name":"Andy", "age":30} {"name":"Justin", "age":19} 下面的代码给出了arrayOutOfBoundsException。 import org.apache.spark.sql.SparkSession val sparkSession = SparkSession.builder .master("loc

浏览 0提问于2017-07-28得票数 0

1回答

星星之火& java编译错误

、、

当我使用maven编译spark程序时，我得到了如下编译错误 [ERROR] COMPILATION ERROR : [INFO] ------------------------------------------------------------- [ERROR] /home/spark/java/src/main/java/SimpleApp.java:[9,36] cannot find symbol symbol: variable read location: variable spark of type org.apache.spark.sql.SparkSess

浏览 2提问于2017-08-24得票数 1

回答已采纳

2回答

星火中的JSON到dataset

、、

我正面临一个问题，我正在寻求你的帮助。我的任务是将JSON文件转换为dataSet，以便将其加载到HIVE中。代码1 SparkSession spark1 = SparkSession .builder() .appName("File_Validation") .config("spark.some.config.option", "some-value") .getOrCreate();

浏览 4提问于2016-09-30得票数 2

1回答

java.text.ParseException:不可解析日期：“一些(2014-05-14T14:40:25.950)”

、、

我需要从文件中提取日期。以下是我的星火计划： import org.apache.spark.sql.SparkSession import scala.xml.XML import java.text.SimpleDateFormat object Active6Month { def main(args:Array[String]){ val format = new SimpleDateFormat("yyyy-MM-dd'T'hh:mm:ss.SSS") val format1 = new SimpleDateFormat(&

浏览 0提问于2018-03-08得票数 1

2回答

Spark流式传输整个文本文件

、、

我正在学习Spark流媒体，我被困在可能很简单的问题上。我想从一个目录中摄取整个文本文件。这里通常提到的方法是wholeTextFile，而不是按行拆分文件的textFile。然而，据我所知，该方法在流上下文中不可用。如何简单的达到类似的效果--流的时候获取(文件名，整个文件内容)？带有流上下文和sparksession的Scala示例将会很棒。

浏览 0提问于2017-08-21得票数 3

1回答

程序中设置的分区数与spark web ui中显示的分区数不匹配

、

为下面的字数统计程序创建的分区是10，但根据我的理解，如果我们在创建sparksession对象时设置了master("local2")，这意味着它将在本地运行2个内核，即2个分区谁能帮我解释一下为什么我的spark代码创建了10个分区而不是2个。代码： SparkSession spark = SparkSession.builder().appName("JavaWordCount").master("local[2]").getOrCreate(); JavaRDD<String> lines = spar

浏览 0提问于2018-12-23得票数 0

1回答

获取1000行csv，RDD Spark的最后5行

、、、

我有一个包含1000行数据的.csv文件，我试图编写一行代码，只显示最后5行数据。 private SparkSession spark; private JavaSparkContext sc; private JavaRDD<String> lines; private JavaRDD<PurchaseOrder> orders; public OrderProcessingRDDSparkApp(String ...args) throws IOException { spark = SparkSession.build

浏览 1提问于2022-02-19得票数 0

回答已采纳

1回答

如何运行，一旦我的对象在spark中创建

请帮帮我，我已经安装了spark，现在我正在尝试运行的代码对象是已定义的，但是下一步我有什么困惑呢？ scala> import org.apache.spark.SparkContext import org.apache.spark.SparkContext scala> import org.apache.spark.SparkConf import org.apache.spark.SparkConf scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Spark

浏览 0提问于2017-11-06得票数 0

1回答

Spark unpersist()有不同的策略吗？

、、

我只是做了一些关于spark unpersist()的实验，并对它的实际功能感到困惑。我在谷歌上搜索了很多，几乎所有人都说unpersist()会立即将RDD从excutor的记忆中逐出。但在这个测试中，我们可以看到它并不总是正确的。请看下面的简单测试： private static int base = 0; public static Integer[] getInts(){ Integer[] res = new Integer[5]; for(int i=0;i<5;i++){ res[i] = base++; } System.o

浏览 0提问于2017-11-04得票数 0

1回答

Py4JError:调用o25.isBarrier时出错。跟踪: py4j.Py4JException:方法isBarrier([])不存在

、

我在使用spark :Py4JError时遇到此错误:调用o25.isBarrier时出现错误。跟踪: py4j.Py4JException:方法isBarrier([])不存在版本检查和配置设置交叉检查 from pyspark import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext() spark = SparkSession(sc) filepath = "D:\\DataScienceIntProgram\\spark\\a.us.csv" us_stock

浏览 16提问于2019-05-07得票数 0

1回答

字典键值总是返回未定义的

我将键值对添加到字典中，如下所示 var TextFile = {}; jQuery.get('SpellCheck.txt', function (data) { var Values = data.split('\n'); for (var i = 0; i < 50; i++) { var val = Values[i]; TextFile[val] = 'true'; }

浏览 2提问于2016-03-12得票数 3

1回答

无法解析symbol mapValue

、、、

我得到了这个错误，我哪里出错了。请帮帮忙，因为我是spark新手。我如何在RDD上使用mapValues？包com.udemyexamples import org.apache.spark.sql.SparkSession object AverageFriendByAge { def parseFile(line:String): Unit = { val field= line.split(",") val age=field(2).toInt val friend=field(3).toInt (age,friend)

浏览 10提问于2020-01-03得票数 0

1回答

运行sbt包时出错: object apache不是package org的成员

、、、

当我在下面的代码中尝试sbt包时，我得到以下错误对象apache不是包org的成员 not found: value SparkSession 我的火花版本: 2.4.4 我的Scala版本: 2.11.12 My build.sbt name := "simpleApp" version := "1.0" scalaVersion := "2.11.12" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.4

浏览 5提问于2020-01-01得票数 1

回答已采纳

1回答

Py4JJavaError: java.io.IOException:没有方案的FileSystem :C

、、

我正在尝试通过spark读取txt文件，下面是我使用的命令。 from pyspark.sql import SparkSession spark = SparkSession.builder.master("local[*]").getOrCreate() sc = spark.sparkContext Inp = sc.textFile("C://Users//XXXX//Downloads//number_list.txt") list1 = lines.collect() 我得到了以下错误。 Py4JJavaError: An error occurre

浏览 1提问于2020-04-23得票数 0

1回答

scala中多个文件的同时操作

、、

我在文本文件= id1、id2、id3等文件中有一个id列表 val IDList = sc.textFile("/home/.../IDList.csv").flatMap(line => line.split(",")) 每个id都与repo中的csv数据关联："/home/data/“+ idX + "/*.csv” 对于IDList中的每个id，o都希望读取数据并进行处理。我试着做这样的事却没有结果： val IDList = sc.textFile("/home/.../IDList.csv").flatMap(

浏览 0提问于2018-10-24得票数 1

回答已采纳

2回答

空指针异常，同时在foreach()内创建DF

、、、、

我必须从S3读取某些文件，所以我在S3上创建了一个包含这些文件路径的CSV。我正在使用下面的代码读取创建的CSV文件： val listofFilesRDD = sparkSession.read.textFile("s3://"+ file) 这很好用。然后，我尝试读取这些路径中的每一条，并创建如下所示的数据格式： listofFilesRDD.foreach(iter => { val pathDF = sparkSession.read .schema(testSchema) .option("headers", true)

浏览 1提问于2016-10-20得票数 2

回答已采纳

1回答

具有自定义逻辑的SparkSession readText文件

、

我想把spark文本文件读成JavaRDD，下面的代码很好用 JavaRDD rdd = sparkSession.sparkContext().textFile(filePath, 100).toJavaRDD(); 我想在textFile的这个函数中应用一些条件阅读例如：如果文本文件的内容如下所示(注意这是一个简化的例子) 1 2 2 3 4 4 我希望能够向前看，或者回顾过去，根据一些逻辑消除重复的内容。我不想在处理rdd时这样做。我希望能够在读取文本文件本身的时候做到这一点。

浏览 0提问于2018-03-31得票数 0

2回答

在EMR上加载500 K文件的火花数据

、、、、

我使用Spark2.1.0、Hadoop2.7.3、Hive2.1.1、Sqoop1.4.6和Ganglia 3.7.2 (从s3加载数据)在EMR ( 5.5.1 )上运行吡火花作业。有多个桶包含输入文件，所以我有一个函数，它使用boto遍历它们，并根据某种模式过滤掉它们。集群大小：主=> r4.xlarge，Worker => 3 x r4.4xlarge 问题：函数getFilePaths返回一个s3路径列表，该列表直接提供给spark方法。使用Dataframe file_list = getFilePaths() # ['s3://some_bucket/lo

浏览 1提问于2018-06-13得票数 1

2回答

如何使用星火库从.sql转储中提取带有数据的表？

、、

我有大约四个*.sql自带转储(每个大约20 to )，我需要将它们转换为Apache中的数据集。我尝试过使用InnoDB安装和制作本地数据库并导入转储，但这似乎太慢了(花了大约10个小时) 我直接将该文件读入星火中 import org.apache.spark.sql.SparkSession var sparkSession = SparkSession.builder().appName("sparkSession").getOrCreate() var myQueryFile = sc.textFile("C:/Users/some_db.sql"

浏览 2提问于2018-08-31得票数 4

1回答

星星之火:来自多个不同本地文件的RDD

、

是否有任何方法从位于本地文件系统的多个不同的txt (或二进制)文件创建一个RDD？我有5个工人。每个工作人员都包含文件file:///tmp/names.txt，但每个工作人员的names.txt不同。我需要创建包含所有员工的所有名称的RDD。我的代码： public class Main { public static void main(String[] args) { String namesFilePath = "file:///tmp/names.txt"; SparkSession spark = SparkSession

浏览 2提问于2018-02-12得票数 1

1回答

如何在Java 8中使用FilterFunction过滤XML

、、、

我需要使用FilterFuction过滤一个XML文件。我只想用"Count>63“显示记录。我用星火。现在我的代码只显示字母a的行数，也许我应该使用List，但我不知道如何在Java 8中使用它来过滤XML文件。因此，我想要一个TagName列表(Count>63是“控制”，"arduino“)。现在我的代码只显示了数量的“行与a”。但是我想要一个TagName和Count>63的列表。它将是：“控制，arduino，覆盆子-pi，运动规划”也许我应该使用分裂。以下是我的XML文件： <?xml version="1.0" enco

浏览 0提问于2018-06-14得票数 0

1回答

Scala [type1，type2]

、

下面是其中一种用法的实际示例： val a: Either[Int, String] = { if (true) Left(42) // return an Int else Right("Hello, world") // return a String } 但是下面的条件不起作用:条件" text“只是用来确定输入文件是文本文件还是parquet文件 val a: Either[org.apache.spark.rdd.RDD[String], org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]]

浏览 2提问于2018-11-17得票数 1

1回答

对象不可序列化(类: org.apache.hadoop.io.LongWritable，值: 1166)

、

我试着这样做： private final String charset8859 = "ISO-8859-1"; private final String charsetUtf8 = "UTF-8"; private String partnerFile8859 = "src/test/resources/D10410.QUALSCSV"; public SparkSession getOrCreateSparkSession(){ SparkConf conf = new SparkConf().setAppName("Spa

浏览 1提问于2021-06-19得票数 0

1回答

批处理层:如何读取和处理主数据中的新数据？

、

我正在构建一个lambda架构，我编码了流层，现在我正在做批处理层。为此，我使用Spark 2作为批处理程序，使用HDFS作为主数据。为了从HDFS读取数据，我编写了以下代码： SparkSession spark = SparkSession .builder() .appName("JavaWordCount") .master("local") .config("spark.sql.warehouse.dir

浏览 4提问于2016-12-20得票数 1

回答已采纳

1回答

如何在spark Scala中将模式从另一个文件添加到文件

、、、

我在Spark中工作，使用Scala 我有两个csv文件，一个具有列名，另一个具有数据，我如何将这两个文件集成在一起，以便我可以生成一个具有模式和数据的结果文件，然后我必须对该文件应用诸如groupby、cout等操作，因为我需要计算这些列中的不同值。所以有没有人能帮上忙呢我写了下面的代码，在读取了这两个文件之后，我从这两个文件中生成了两个DF，然后我使用联合连接了这两个DF，现在我可以如何将第一行作为schema，或者以任何其他方式继续进行。任何人都可以提出建议。 val sparkConf = new SparkConf().setMaster("local[4]&

浏览 17提问于2019-01-18得票数 0

1回答

删除带空值的行- Spark

、

我是斯卡拉和斯派克的新手。我正在尝试执行一些简单的程序，其中我想删除一个具有空/空值的行(不使用DataFrame)。我试过用过滤器来做，但它不起作用。你能告诉我在哪里犯了这个错误吗？数据： Bypass Road (film),2019,137,Drama|Thriller,7.1,51 Satellite Shankar,2019,135,Action|Drama,4.6,34 Jhalki,2019,0,Drama,, Marjaavaan,2019,0,Action|Romance,, Motichoor Chaknachoor,2019,150,Comedy|Romance,, K

浏览 1提问于2020-05-22得票数 0

回答已采纳

2回答

Pyspark无法从亚马逊网络服务S3检索数据

、、

我收到以下错误： Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : java.io.IOException: No FileSystem for scheme: s3n ... 当我尝试从S3检索数据时。我的spark-defaults.conf有下面这一行： spark.jars /Users/lrezende/Desktop/hadoop-aws-2.9.0.jar 这个文件在我的桌面上。我的代码是： from pys

浏览 19提问于2018-02-24得票数 1

2回答

如何利用spark.read函数在spark中并行处理文件

、、、

我有一个包含文件列表的文本文件。目前，我正在按顺序遍历我的文件列表我的文件列表如下所示： D:\Users\bramasam\Documents\sampleFile1.txt D:\Users\Documents\sampleFile2.txt 并为每个文件执行以下代码， val df = spark.read .format("org.apache.spark.csv") .option("header", false) .option("inferSchema", false) .option("delim

浏览 0提问于2018-05-24得票数 0

2回答

我如何使用火花(火花)写一个拼花文件？

、、

我在星火很新，我一直在尝试将Dataframe转换成Spark中的拼花文件，但我还没有取得成功。说我可以使用write.parquet函数来创建文件。但是，当我运行脚本时，它向我展示了: AttributeError：'RDD‘对象没有属性’写‘ from pyspark import SparkContext sc = SparkContext("local", "Protob Conversion to Parquet ") # spark is an existing SparkSession df = sc.textFile("/tem

浏览 1提问于2017-02-03得票数 44

回答已采纳

3回答

AttributeError：“bytes”对象没有属性“timeout”

import re, urllib.request textfile = open('depth_1.txt','wt') print('enter the url you would like to crawl') print('Usage - "http://phocks.org/stumble/creepy/" <-- with the double quotes') my_url = input() for i in re.findall(b'''href=["

浏览 3提问于2014-06-05得票数 7

1回答

运行用于v1和v2的Spark

、、、、

我正在尝试从设置我的火花应用程序，从使用星火v1到v2。在v1中，我将使用星火上下文和Spark来初始化。但是，根据火花v2 (快速启动指南)的最新文档，我应该使用Session，并建议使用submit从cmd传递配置(我所提到的所有内容都显示在本页面底部附近：)。下面是我的应用程序，上面有Session (v2)的注释，展示了我将如何为v1运行程序。如果我像这样运行它，我会得到错误“初始化星火上下文失败”。然后，如果我重新安排我的注释以运行Session (v2)，并通过将应用打包为JAR并在cmd中使用火花提交来运行它(正如前面所提到的一样)，我就会得到错误：“无法从JAR文件:/C:/

浏览 4提问于2017-08-06得票数 1

回答已采纳

2回答

PySpark用浮动TypeError创建DataFrame

、、、

我有如下数据集：我正在使用PySpark解析数据，然后使用下面的代码创建一个DataFrame： from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import functions as f def parseInput(line): fields = line.split(',') stationID=fields[0] entryType=fields[2] temperature= fields[3]*0.3

浏览 2提问于2020-07-11得票数 0

回答已采纳

1回答

Spark SQL:生成的分区数量似乎很奇怪

、、

我有一个非常简单的Hive表，结构如下。 CREATE EXTERNAL TABLE table1( col1 STRING, col2 STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION 's3://path/'; 此表指向的目录只有一个大小为51KB的文件。在pyspark shell中(使用所有默认值)： df = sparksession.sql("SELECT * from table1") df.rdd.getNu

浏览 3提问于2017-07-13得票数 0

3回答

如何在scala中生成的键值对中添加值

、、

如何将键和值与火花scala中生成的键和值对分开添加？给定以下输入 (5,1),(6,1),(8,1) 我想了解下面的输出 (19,3) 这就是我迄今为止尝试过的： val spark = SparkSession.builder.appName("myapp").getOrCreate() val data = spark.read.textFile(args(0)).rdd val result = data.map { line => { val tokens = line.split("\t") (Float

浏览 2提问于2018-07-12得票数 2

回答已采纳

3回答

尝试构建简单的Spark独立Java应用程序时出现Maven包错误

、

我试图构建一个简单的Spark独立Java应用程序，与完全一样。 /* SimpleApp.java */ import org.apache.spark.sql.SparkSession; public class SimpleApp { public static void main(String[] args) { String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system SparkSession spark = Spar

浏览 0提问于2017-07-22得票数 0

1回答

将Scala读取到DataFrame中

、、、

我希望读取一个文件并将其存储到一个DataFrame中。我正在读取一个存储在RDD[ArrayString]中的文本文件。 val file = sc.textFile("/mockSmall.txt").map(line => line.split(",").map(_.trim)) case class record(eventName: String, date: String, counter: String) val solrDF: DataFrame = file.map{case Array(s0, s1, s2) => record(

浏览 0提问于2017-05-18得票数 0

回答已采纳

1回答

org.spark_project.guava.util.concurrent.ExecutionError: NoClassdefFoundError未检查CompileException

、

当执行到达此示例代码中的~.RDD()调用时，我有此异常： enter code here JavaRDD<String,String> row = sparkSession.read() .textFile("~~~") .javaRDD() <--------- (Execution Error) .map(some Function); 的根本原因

浏览 4提问于2017-06-02得票数 1

回答已采纳

1回答

如何在将html数据导入Excel时显示阿拉伯字母？

、、、

我在这里读到了一个关于将html转换成Excel的问题，它可以工作，但没有解决问题。如果html包含阿拉伯字母，因为导入后Excel中显示不正确。我复制的代码在下面，我试图使用下面的代码修复字符集问题，但是我有运行时错误HTML_Content.Charset = "utf-8" (在下面的'Create HTMLFile Object)部分-- Sub HTML_Table_To_Excel() Dim htm As Object Dim Tr As Object Dim Td As Object Dim Tab1 As Objec

浏览 1提问于2021-01-16得票数 0