根据现有数据框中的条件创建新的spark数据框

根据现有数据框中的条件创建新的 Spark 数据框，可以通过 Spark 的 DataFrame API 来实现。DataFrame 是 Spark 中一种基于分布式数据集的分布式数据结构，它提供了丰富的操作和转换方法，可以方便地进行数据处理和分析。

在创建新的 Spark 数据框时，可以使用以下步骤：

导入必要的 Spark 相关库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建 SparkSession 对象：

spark = SparkSession.builder.getOrCreate()

加载现有数据框：

existing_df = spark.read.format("csv").option("header", "true").load("path_to_existing_data.csv")

这里假设现有数据框是以 CSV 格式存储的，可以根据实际情况选择其他格式。

根据条件筛选数据并创建新的数据框：

new_df = existing_df.filter(col("column_name") > threshold_value)

这里假设根据某一列的值大于某个阈值进行筛选，可以根据实际需求修改条件。

对新的数据框进行进一步的操作和分析：

new_df.show()
new_df.groupBy("column_name").count().show()

这里展示了两个示例操作，分别是显示新数据框的内容和按某一列进行分组统计。

至于推荐的腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体品牌商，可以参考腾讯云的官方文档和产品介绍页面，了解腾讯云提供的与 Spark 相关的云计算服务和解决方案。

DataFrame错误：“重载方法值select with alternatives”

、、

我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧，如下所示： val logon11 = logon1.select("User","PC","Year","Month","Day","Hour","Minute",$"Hour"+$"Minute"/60) 我得到的错误如下： <console>:38: error: overloaded method value select with alternatives: (

浏览 0提问于2017-02-12得票数 2

回答已采纳

1回答

无法查看通过Spark SQL创建的新数据

、、、

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

2回答

如何将分区添加到现有的Iceberg表

、、、

如何将分区添加到现有的未分区的Iceberg表中？表已经装载了数据。创建了以下表： import org.apache.iceberg.hive.HiveCatalog import org.apache.iceberg.catalog._ import org.apache.iceberg.spark.SparkSchemaUtil import org.apache.iceberg.PartitionSpec import org.apache.spark.sql.SaveMode._ val df1 = spark .range(1000) .toDF .withColu

浏览 6提问于2020-03-11得票数 3

1回答

如何训练每个列值的单独模型？

、、

如何基于窗口显示Spark数据框中的某一列来运行不同的回归模型？假设我在一个Spark DF中有2个产品，其功能和标签与这些产品相关联。产品的ids显示在一个单独的列中。我想对每个产品进行回归分析。到目前为止，对于相对简单的分析，我一直使用 w = Window().partitionBy("id") F.sum(column).over(w) 例如，数据 sdf = spark.createDataFrame( [("a", 1.0, 2.0, 3.0), ("a", 4.0, 1.0, 5.0), ("b"

浏览 0提问于2017-12-22得票数 0

1回答

在SearchView中应用Word词干从Firebase数据库中获取数据

、、、、

我需要使用SeachView或搜索对话框从Firebase数据库中获取用户列表，我认为word词干对我的应用程序是最好的。不是要密码，但请告诉我它的密码。

浏览 3提问于2018-06-04得票数 0

回答已采纳

1回答

流式传输是否适用于事务性数据用例？

、、、、

我使用spark-sql-2.4.1v，kafka和Cassandra。我有一个场景，我将获得不同的跨国数据，其中可能包括更新记录……我需要用添加的字段的值来更新之前已经收到的记录。这可以使用spark-streaming，kakfa和Cassandra来实现吗？如果是这样，我应该如何继续？有线索请告诉我。如果不是，我还需要在我的技术堆栈中添加什么？谢谢。

浏览 13提问于2019-09-09得票数 0

1回答

如何从现有SparkSession获取SparkConf并从获取的SparkSession创建新的SparkConf

、、、、

我使用的是spark-sql-2.4.1v，spark-cassandra-connector-2.4.1v和Java。为了将dataframe写入Cassandra数据库，我创建了一个spark SparkConf conf = new SparkConf(true) .set("spark.cassandra.connection.host",cassandraConfig.getHosts()) .set( ...). 我使用它来创建SparkSession，如下所示

浏览 149提问于2020-06-23得票数 1

回答已采纳

1回答

使用Kibana覆盖/更新现有的弹性搜索索引映射(geo_point)

、

我试图在我的elasticsearch索引中更新geo_point字段的映射，但是遇到了问题。我正在使用Kibana中的dev工具控制台。 geo_point的数据采用双数组格式。我在elasticsearch-hadoop-5.3.1.jar中使用spark，数据将进入elasticsearch/kibana，但在我需要将其转换为geo_point时，它仍然是一个数字格式。似乎一旦定义了索引映射，我就无法更新它。我尝试使用以下方法： PUT my_index { "mappings": { "my_type": { "prop

浏览 2提问于2017-05-09得票数 1

4回答

IF Then ELSE的Spark等价物

、、、

我在这里之前已经看到了这个问题，我已经从中吸取了教训。然而，我不确定为什么当我觉得它应该工作的时候，我会得到一个错误。我想通过一些规则在现有的Spark DataFrame中创建一个新的列。这是我写的。iris_spark是具有分类变量iris_spark的数据框，具有三个不同的类别。 from pyspark.sql import functions as F iris_spark_df = iris_spark.withColumn( "Class", F.when(iris_spark.iris_class == 'Iris-setosa

浏览 1提问于2016-08-20得票数 30

2回答

如何在spark中插入空数据框中的值

、、、

我正在使用spark sql开发一个SPARK应用程序，我的工作之一是从两个表中选择值，并将其插入到一个空表中，这就是我的结果。但为此，我正在尝试使用spark创建一个空表，我已经创建了一个空数据框，但无法将其注册为表。下面是我的情况代码 from pyspark import SQLContext from pyspark.sql.types import StructType,StructField,StringType,DateType,IntegerType sqlc=SQLContext(sc) schema= StructType([StructField("Name&#

浏览 2提问于2016-08-03得票数 0

回答已采纳

1回答

如何使用Spark SQL在循环时将迭代的行记录保存到新的数据框或列表中？

、

我有一个数据框。该数据框给我提供了记录列表，然后我将迭代每一行并进行一些操作。 for (row <- dataframe.rdd.collect()) { // var anyval= row.mkString(",").split(",")(take the column); } 然后，我进行了一些检查，如果当前行符合要求，则尝试创建新的列表或集合来保存整个行。你能帮我举例说明如何使用spark sql在新的数据框中保存此行吗？

浏览 14提问于2019-10-21得票数 0

1回答

SQLServer到Azure数据库的转换

、、、、

我正在从事SQL Server到Databricks的迁移工作。我有一些TSQL程序，最少有100行代码。我想把这些程序转换成Spark代码。对于POC (在1个TSQL proc上工作)，所有的源文件都被导入并创建为GlobalTempView的，并将TSQL转换为Spark SQL。并使用作为文件导出的最终globalTempView。现在，我在这里有一个问题，创建GlobalTempView并将TSQL proc转换为Spark SQL是最好的方法吗?或者将所有文件加载到数据帧中并将TSQL proc重写为Spark数据帧逻辑是最好的方法。请告诉我TSQL procs转换成

浏览 10提问于2021-10-29得票数 1

1回答

计数和收集操作在空的spark数据帧上占用了大量时间

、

我用spark.createDataFrame([]，schema)创建了一个空的spark数据框，然后从列表中添加行，但是访问数据框( count-collect)花费了太多的时间，而不是在这个数据框上。对于从Csv文件创建的数据框上的1000行，函数dataframe.count()耗时300ms，但对于从模式创建的空数据框，则需要4秒。这里的差异是从哪里来的？ schema = StructType([StructField('Average_Power',FloatType(),True), StructField('Average_Temperature&

浏览 28提问于2019-07-02得票数 0

回答已采纳

1回答

在Python代码中获取Azure数据砖块的实例

、

我正在开发一个python包，它将部署到databricks集群中。我们经常需要引用python代码中的"spark“和"dbutils”对象。我们可以使用“星星之火”(如spark.sql())在笔记本中轻松地访问这些对象。如何在包中的python代码中获得spark实例？

浏览 0提问于2019-03-22得票数 1

回答已采纳

1回答

如何使用Spark streaming将数据从Kafka插入到Kudu

、、、

我有一个可以收听Kafka主题的Spark流媒体应用程序。当获得数据时，我需要对其进行处理，并将其发送到Kudu。目前，我正在使用org.apache.kudu.spark.kudu.KuduContext API，并对数据框调用插入操作。为了从我的数据创建数据框，我需要调用collect()，以便可以使用sqlContext创建数据框。有没有一种方法可以在不调用collect()的情况下创建数据帧/将数据插入到Kudu中？我们使用的是Spark 1.6

浏览 7提问于2018-08-08得票数 1

2回答

无法使用spark SQL创建表:需要配置单元支持才能创建配置单元表(AS SELECT)；

、、、

我试图在spark (scala)中创建一个表，然后从两个现有的数据帧中插入值，但我得到了以下经验： Exception in thread "main" org.apache.spark.sql.AnalysisException: Hive support is required to CREATE Hive TABLE (AS SELECT);; 'CreateTable `stat_type_predicate_percentage`, ErrorIfExists 代码如下： case class stat_type_predicate_percentage

浏览 9提问于2019-03-03得票数 1

1回答

创建火花流上下文后将RDMS数据缓存在spark中

、、、、

我们使用火花流从卡夫卡获得数据使用createDirectStream。在同一个程序中，我连接到MYSQL，从数据库中获取一些数据。现在，我想使用spark缓存这个结果。这里的问题是，我在一开始就创建了一个星火流上下文，现在为了缓存这个MYSQL数据，我必须将其转换为一个RDD，这个RDD只有在spark上下文的帮助下才能实现，不幸的是，我不能创建spark上下文(因为已经根据spark创建了上下文)。我不想将spark.driver.allowMultipleContexts = true设置为允许JVM使用不仅仅是火花上下文，因为这可能会导致问题。是否有一种方法来缓存这个使用火花，

浏览 6提问于2016-04-08得票数 2

回答已采纳

1回答

发出在配置单元中插入数据创建小零件文件

、、、

我正在处理超过1000000条记录的json文件，我正在逐行读取文件，并提取所需的键值(json是混合结构不固定。因此我正在解析并生成所需json元素)，并生成类似于json_string变量的json字符串，并将数据推送到hive表中，但数据存储在hadoop apps/hive/warehouse/jsondb.myjson_table文件夹中，其中包含较小的部分文件。每次插入查询都会创建新的(.1到.20 kb)零件文件。这是因为如果我在配置单元上运行简单的查询，因为它将花费超过30分钟。显示了我的逻辑的示例代码，它对hive中的inesrt新记录进行多次迭代。 import

浏览 12提问于2018-02-28得票数 1

2回答

spark overwrite保存模式是原子的吗？

使用火花覆盖模式写入数据集将删除分区中的旧文件并写入新数据。这个过程是原子的吗？如果覆盖数据时作业失败，spark是否会还原分区中存在的旧文件？

浏览 0提问于2019-12-18得票数 1

1回答

在局部视图中禁用控件

我有一个实体的创建和编辑屏幕。它们只有一个控件不同，即在编辑屏幕的中间出现一个文本框。我想为这些页面创建一个局部视图，但是如何禁用创建屏幕的textbox控件。我已经向局部视图传递了一个对象，但是如何传递额外的信息来禁用它。

浏览 3提问于2012-08-24得票数 0

回答已采纳

3回答

拥有更多舞台的java.lang.OutOfMemoryError火花DAG

、、、、

我有一个运行的星火作业。我可视化了DAG，它创建了每个连接的+5阶段。无论如何，在DAG有大约40个阶段之后，下一个步骤总是会出现异常，即经过8次迭代，每个阶段都有5个阶段。 java.lang.AbstractStringBuilder.hugeCapacity(AbstractStringBuilder.java:161) at java.lang.AbstractStringBuilder.newCapacity(AbstractStringBuilder.java:155) at java.lang.AbstractStringBuilder.ensureCapacityInter

浏览 1提问于2017-09-01得票数 2

1回答

如何使用Spark来跟踪HDFS文件？

、、、、

我使用HDFS来存储原始的JSON行： /user/ebuildy/logs/today.json {"event":"buy", "tag1" : "20€", "tag2" : "user2"} ... 使用Elastic Logstash，webhdfs输出插件(意味着每X秒将JSON行附加到today.json中)。另一方面，我使用Apache SparkSQL来查询数据。加载数据就像一个护身符： CREATE TABLE events USING org.apache.spark.sq

浏览 0提问于2016-01-10得票数 0

2回答

写入Delta表时检测到的架构不匹配- Azure数据库

、、

我试着把"small_radio_json.json“装到三角湖桌上。在这段代码之后，我将创建表。我尝试创建Delta表，但得到了错误“写入Delta表时检测到的架构不匹配”。它可能与events.write.format("delta").mode("overwrite").partitionBy("artist").save("/delta/events/")的分区有关。如何修复或修改代码。 //https://learn.microsoft.com/en-us/azure/azure-databricks

浏览 1提问于2020-03-29得票数 9

回答已采纳

1回答

使用sparkJDBCDataset加载数据，但jars不起作用

、、

当使用sparkJDBCDataset通过JDBC连接加载表时，我总是遇到spark找不到我的驱动程序的错误。该驱动程序确实存在于机器上，其目录是在config/base下的spark.yml文件中指定的。我还按照说明在src/project_name/run.py中添加了def init_spark_session方法。不过，我怀疑这里定义的sparksession并没有被sparkJDBCDataset类拾取。当您查看用于在sparkJDBCDataset中创建sparksession和加载数据集的源代码时，它看起来像是定义了一个没有配置的普通sparksession来加载和保存数据。

浏览 27提问于2020-03-19得票数 2

1回答

如何知道保存数据帧后创建了多少个文件

、、

我有一个数据框，我使用数据框上的保存功能，用databricks.spark.csv将它保存到csv文件中。如何知道spark创建了多少文件(Spark会自动划分文件)

浏览 5提问于2016-08-29得票数 1

1回答

查询整个配置单元外部表中未分区的列

、、、、

我有hive外部表(以拼图格式存储的s3文件)，用spark创建，大小约为30 GB，具有数百个分区。但是，我需要查询非分区列(比如SUPPLIER_ID)上的数据，以查看完整的事务历史记录，而不是特定于某个期间或日期(分区列)。在不确定Hive表上的哪个分区数据属于哪个分区的情况下，如何确保这种查询模式？

浏览 3提问于2021-06-09得票数 0

1回答

作为一个web服务激发工作？

、、

我的一个同行已经创建了代码，它在交互火花作业中打开了一个restful服务。我们公司的目的是利用他的代码从各种数据源中提取数据。他可以让它在他的机器上用当地的火花来工作。他坚持认为这是个好主意，作为DevOps，我的工作就是用来实现它。据我所知，交互式作业用于一次性的分析性查询和开发非交互式作业，仅作为数据来源之间的ETL/ELT工作来运行。当然，在spark集群中确定服务绑定的端点还有一个额外的问题。但我对spark还不熟悉，而且我几乎还没有钻研过为spark的所有实现而存在的大量文档。他想做的是个好主意吗？有可能吗？

浏览 4提问于2022-05-12得票数 0

1回答

转换spark数据框列

、、

我有一个包含两列的spark dataframe : Stars (数值)和categories (标签字符串，例如："Restaurant，Italien，High-end")。我希望重新创建数据帧，这样类别就变成了标签的计数。在上面的示例中，类别将变为3。我曾尝试将数据帧视为熊猫数据帧，但似乎不起作用。我是Spark的新手，所以可能是因为我不太理解RDD的概念。

浏览 22提问于2020-04-13得票数 0

1回答

使用Scala Spark限制行

、

我有一个看起来正确的数据集。我可以看到所有行的顺序正确，如下所示： df1.orderBy($"count".desc) df1.show() 但是当我尝试像这样添加一个限制时： df1.orderBy($"count".desc).limit(5) df1.show() 我还是得到了所有的行。我想我没看错文件..。[https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/Dataset.html#limit(n:Int):org.apache.spark.sql.Dataset[

浏览 10提问于2020-10-09得票数 0

回答已采纳

2回答

全新SQLContext: Spark 1.6向后兼容Spark 2.1

、、

在IBM DSX上，我遇到了以下问题。对于DSX上的Spark1.6内核，为了避免metastore_db和HiveContext出现问题，必须创建新的SQLContext对象：以下代码片段是使用Spark 1.6实现的，它们都运行在Spark 2.0.2上，但不能运行在Spark 2.1上： from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([(1, "a"), (2, "b"), (3, "c"),

浏览 30提问于2017-07-04得票数 0

回答已采纳

2回答

如果有人在Azure中创建新数据库，如何通知我？

、、、

我想在我们团队中的某人设置Azure数据库时设置Azure警报。收到警报后，如果该资源的运行时间超过一定时间，我希望创建一个额外的警报。我的解决方案是在存储帐户上创建一个警报规则，并让它发送一封电子邮件。我遇到麻烦的地方是如何监控数据库，因为它刚刚创建，我还不知道用于监控其正常运行时间的第二个Alert规则的名称。是否有某种编程方法来确定数据库资源名称？

浏览 3提问于2020-05-09得票数 0

2回答

Spark中的数据帧列表

、

在Spark中创建数据帧列表是否可取？ List<Dataset<Row>> list = some method 方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中。此方法从驱动程序调用，并返回通过在列表中联接数据集而创建的单个数据框。我搞不懂这个列表将在哪里形成，是在驱动程序节点上还是在工作节点上？创建数据帧列表是否可取？

浏览 11提问于2019-07-13得票数 1

2回答

我如何在spark scala中创建日期范围的存储箱？

、

你好。你好吗？我是一名Python开发人员，正在尝试学习Spark Scala。我的任务是创建日期范围框，并计算每个框(直方图)中出现的频率。我的输入数据帧如下所示我的bin边是这样的(在Python中)： bins = ["01-01-1990 - 12-31-1999","01-01-2000 - 12-31-2009"] 我要查找的输出dataframe是(每个bin的原始dataframe中有多少个值的计数)：有没有人可以指导我怎么做是spark scala？我有点迷路了。谢谢。

浏览 2提问于2020-09-02得票数 0

1回答

Spark如何确定从Hive表加载数据时将使用的分区数？

这个问题与相同但我认为这个问题没有得到正确的答案。请注意，问题是，在使用方法对HIVE表执行sql查询时，当创建dataframe时，将创建多少分区。上面的问题不同于询问在创建数据时将创建多少分区，这是执行一些代码的结果，比如spark.read.json("examples/src/main/resources/people.json")直接从文件系统加载数据--可以是HDFS。我认为后一个问题的答案是由给出的。 spark.sql.files.maxPartitionBytes 134217728 (128MB)读取文件时要打包到单个分区的最大字节数。在实验上

浏览 4提问于2017-05-19得票数 17

回答已采纳

1回答

在ArangoDB中动态添加切分密钥

、、、

我正在使用ArangoDB安装集群数据库。我需要在集合中使用索引。我们假设有一个名为myCollection的集合，它是用切分键_key创建的。让myVariable是myCollection的唯一键，所以我对myVariable有一个唯一的约束。由myCollection创建，数据就在里面。我不想擦除所有，再次创建myCollection，用myVariable和还原myCollection添加一个新的shard键，所以我需要在已经创建myCollection的同时，添加一个新的shard键。这个是可能的吗？我可以添加一些新的碎片钥匙吗？我的意思是，在没有重新创建集合的情况下，在

浏览 1提问于2016-03-03得票数 2

回答已采纳

1回答

移动扫描仪上的Windows窗体应用程序，无法扫描到文本框

、、

在我的扫描仪上的windows窗体上设置简单的文本框有一些问题。我必须将新的文本框添加到现有的已创建的应用程序中，而我的新文本框似乎无法工作。当我将焦点设置到我的文本框，然后我尝试扫描条形码，没有数据显示在文本框中。我可以在应用程序中将条形码扫描到已经创建的文本框中，但不知道有什么不同。我看不出两个文本框的属性有什么不同，都是一样的。请指教

浏览 0提问于2012-05-25得票数 0

1回答

关于写入获取错误的星火合并模式：“现有表的列号与数据不匹配

、、

我正在使用SparkVersion2.2.1，并尝试用附加列将新数据写入现有的表中。现在我已经知道，这是行不通的，但我想知道什么是最好的解决办法。下面是一个代码示例： case class MyMockV1(a: String) case class MyMockV2(a: String, b:String) object StackOverflowSparkQuestion extends App{ val sparkConf = new SparkConf() sparkConf.setMaster(s"local[2]") val spark = Spar

浏览 1提问于2020-12-15得票数 1

回答已采纳

1回答

registerTempTable在从RDD创建的DataFrame上失败

这是在星火1.6.x。我在找个解决办法。我有一个函数，它从一个DataFrame的底层RDD创建一个DataFrame： def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) sqlContext.createDataFrame(df.rdd, df.schema) } 现在，我创建了几个数据帧并注册它们： val df = sc.parallelize(Array(1, 2, 3)).to

浏览 3提问于2017-11-14得票数 1

回答已采纳

1回答

带有预构建的现有星火集群的snappy数据

、

数据我将我的星火集群与apache Hadoop配置它的工作状态进行集成，然后我开始将我的星火集群集成到Azure数据湖存储中，它也很好，作为参考，我把这个作为spark和蔚蓝数据湖，然后我需要集成spark与Snappy数据集成，根据snappy-data文档我们可以使用snappy-数据包。 ./bin/shell conf spark.snappydata.store.sys-disk-dir=quickstartdatadir -conf spark.snappydata.store.log-file=quickstartdatadir/quickstart.log -软件包“Sna

浏览 3提问于2017-02-28得票数 0

1回答

火花可以用于实时交互应用吗？

、

我们有一个系统，它包含一个用于计算报表的数据管道，还有一个UI层，它可以进行特殊的查询，并在查询后对数据集进行一些特定的计算。我正在考虑将现有的批处理数据处理层迁移到Spark，但我不太确定UI应用程序层。棘手的部分是，来自UI的请求还需要将某些函数应用于数据集。我还没有找到任何查询引擎，比如Elasticsearch，它可以从查询结果中应用自定义函数。因此，我想知道，假设源数据已经缓存在Spark会话中，让UI层直接触发Spark是否是个好主意。所以我的问题是：是实时交互应用的正确解决方案吗？什么是alternatives?I想让UI应用程序在Spark集群之外运行。那么，是否有任何框

浏览 1提问于2020-09-09得票数 3

1回答

火花流-原因: org.apache.parquet.io.ParquetDecodingException:无法读取文件中块0中1处的值

、、、、

我正在使用spark将我的json数据写入s3。然而，我一直收到下面的错误。我们正在使用apache hudi进行更新。这只发生在某些数据上，其他一切都很好。 Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 in file s3a://<path to parquet file> at org.apache.parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalPa

浏览 115提问于2019-12-27得票数 1

回答已采纳

1回答

PySpark :使用选定的列或分区优化从Delta读取/加载

、、、

我正在尝试将数据从Delta加载到pyspark dataframe。 path_to_data = 's3://mybucket/daily_data/' df = spark.read.format("delta").load(path_to_data) 现在，基础数据按日期划分为 s3://mybucket/daily_data/ dt=2020-06-12 dt=2020-06-13 ... dt=2020-06-22 是否有一种方法可以优化，给定：只需要特定的日期范围，列的子集只需要目前，我尝试的方法是： df.re

浏览 2提问于2020-06-23得票数 4

2回答

提交第二个表单时保留一个表单中的数据

、

我有一个带有两个表单的页面是用PHP生成的。第一部分包含文本框、提交按钮和清除按钮。第二个表单只是一个名为“添加更多文本框”的按钮，这样用户就可以在需要时向表单中添加更多内容。问题是，当我单击“添加更多行”时，会加载另一个页面，该页面会更改一个值。当重新加载原始页面时，此值会影响原始页面，从而导致创建更多的文本框。问题是我丢失了所有输入的数据。有没有办法在用户单击“添加更多行”时保留数据？这是我的页面截图。谢谢

浏览 3提问于2011-07-03得票数 0

2回答

如何将流数据写入S3？

、、、、

我想使用Scala在星火流中将RDD[String]写到亚马逊S3。这些基本上是JSON字符串。不知道如何更有效地做这件事。我找到了，其中使用了库spark-s3。其想法是创建SparkContext，然后创建SQLContext。在此之后，文章的作者做了这样的事情： myDstream.foreachRDD { rdd => rdd.toDF().write .format("com.knoldus.spark.s3") .option("accessKey","s3_a

浏览 0提问于2016-10-10得票数 3

回答已采纳

1回答

Spark Dataframe -无法解析...给定的

、、、

我试图在Spark 1.6.0中创建一个数据框。我使用以下命令来创建它：- val df = sqlContext.read.format("com.databricks.spark.csv") .option("header","true") .option("delimiter",",") .option("inferSchema","true") .load("/user/rohitchopra32_gmail/Project1_dataset_bank

浏览 1提问于2017-08-21得票数 2

回答已采纳

3回答

通过pyspark作业更新数据库表的最佳方法

、、、、

我有一个spark作业，它从多个来源获取数据并聚合到一个表中。只有在有新数据时，作业才会更新表。我能想到的一种方法是从现有表中获取数据，并与传入的新数据进行比较。比较发生在spark层。我想知道是否有更好的比较方法，可以提高比较性能。如果有人对此有什么建议，请告诉我。提前谢谢你。

浏览 0提问于2020-02-03得票数 0

2回答

Epicor，在更改价格时发送电子邮件，但不发送初始条目。

、、

我试图创建一个BPM，发送电子邮件时，一个字段被更新。我有一个条件检查是否-场已从“任何”改为“另一个”。这可以启动电子邮件，但当销售订单中的价格最初创建时，它也会发生。我将如何使它只在价格更新，而不是最初设定的时候进行呢？

浏览 6提问于2021-06-22得票数 0

1回答

预售是否需要一个蜂巢亚稳态从S3读取拼板文件？

、、、、

我试着用火花在S3文件中生成拼花文件，目的是以后可以用预置文件从拼花中查询。基本上，是这样的， Kafka-->Spark-->Parquet<--Presto 我能够产生在S3中使用火花和它的工作精细的地板。现在，我在看预告片，我认为我发现它需要蜂巢元商店来查询从拼花。即使parquet保存了架构，我也无法使预置读取我的parquet文件。那么，这是否意味着在创建拼花文件时，store作业还必须将元数据存储在单元元存储中？如果是这样的话，有人能帮我找一个例子来说明它是如何做到的吗？为了增加问题，我的数据模式正在改变，因此为了处理它，我在spark作业中创建一个编程

浏览 0提问于2017-05-01得票数 6

回答已采纳

1回答

如何在打开新SparkContext之前停止运行的

、

我正在Scala中执行测试，Spark创建了一个SparkContext，如下所示： val conf = new SparkConf().setMaster("local").setAppName("test") val sc = new SparkContext(conf) 在第一次执行之后，没有出现错误。但是现在我收到了这条消息(以及一个失败的测试通知)： Only one SparkContext may be running in this JVM (see SPARK-2243). 看起来，我需要检查是否有正在运行的SparkContext，并在启动

浏览 0提问于2016-04-25得票数 20

4回答

单个JVM中的多个SparkSessions

我有一个关于在一个JVM中创建多个星火会话的查询。我已经读过，在早期版本的Spark中，不建议创建多个上下文。Spark2.0中的SparkSession也是这样吗？我正在考虑从UI中调用一个web服务或servlet，然后该服务创建一个火花会话，执行一些操作并返回结果。这将导致为来自客户端的每个请求创建火花会话。推荐这样做吗？假设我有一种方法，比如：公共空runSpark()抛出异常{ SparkSession spark = SparkSession .builder() .master("spark://<mas

浏览 11提问于2016-10-20得票数 20

回答已采纳