spark dataframe - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

火花df、拼花物体和熊猫df之间的转换

、、

在创建火花会话之后，我运行了以下代码 spark_df.select('*').toPandas(我需要火花df和熊猫df的原因是，对于一些较小的DataFrame，我想很容易地使用各种熊猫EDA函数，但对于一些较大的，我需要使用火花sql。首先，把地板转向熊猫，然后再点燃df，这似乎有点迂回。

浏览 3提问于2019-10-20得票数 0

3回答

火花写入Avro文件

、

在如下流中使用Spark (使用Scala )编写Avro文件的常见做法是： createRow(...)val dataFrame= sqlContext.createDataFrame(rowRDD, schema) dataFrame

浏览 7提问于2015-11-23得票数 6

1回答

在scala中使用函数时得到错误类型不匹配

、、

import org.apache.spark.sql.{SparkSession, DataFrame}{ import spark.implicits._ { val df =

浏览 1提问于2021-12-09得票数 0

1回答

Spark:加载或选择ORC格式的配置单元表

、、、、

(SparkPlan.scala:174) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame</e

浏览 21提问于2017-04-20得票数 3

1回答

如何在Databricks中快速轻松地在R和pandas数据帧之间进行转换？

、、、

我听说我必须使用spark temp tables来做这件事，而且它非常简单，但我找不到任何完整的示例代码，到目前为止，我还不能让它工作。

浏览 1提问于2020-05-29得票数 1

1回答

在Databricks笔记本上，pandas df到spark* df的转换需要很长时间*

、、、、

我正在尝试使用下面的方法将这个熊猫df转换为spark df。spark_session = SparkSession.builder.appName('pandasToSparkDF').getOrCreate()spark_df= spark_session.createDataFrame(pandas_df) 这个过程花费了大约9分钟将pandas df转换为Databricks上1000万行的spark df。

浏览 29提问于2020-07-23得票数 1

2回答

简单sparksql联接查询中丢失的执行器

、、

) at org.apache.spark.sql.DataFrame$$anonfun$collect$1.apply(DataFrame.scala:1385) at org.apache.spark.sql.DataFrame$$anonfun$collect$1.apply(DataFrame.scala:1385) at org.apache.spark.sql.execution.SQLExecution$org.apache.spark.

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

PySpark:在新星火DataFrame上使用现有的模式

、、、

在Python中，我有一个现有的DataFrame，其中包含135个~列，称为sc_df1。我还有一个Pandas DataFrame，它的列与我想要转换为星火DataFrame的列完全相同，然后是unionByName和两个火花DataFrames。在将Pandas DataFrame转换为火花DataFrame时，是否有人知道如何使用DataFrame模式，以便两个DataFrames在联合时具有相同的模式？

浏览 2提问于2020-04-27得票数 0

回答已采纳

4回答

如何在Spark中强制DataFrame求值

、

DataFrame.scala:2087) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$collect((Dat

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

我们如何看待同一个函数的不同实现

、

def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrameorg.apache.spark.sql.DataFrame def createDataFrame(rows: java.util.List[org.apache.spark.sql.Row],schema: org.apache.spark.

浏览 0提问于2020-07-19得票数 0

回答已采纳

1回答

如何在单联火花scala中创建数据表

我有包含10列的dataframe，但是我想为该数据帧再添加一列，该列是日期格式日期将由随机数生成。

浏览 5提问于2017-05-18得票数 0

回答已采纳

1回答

奴隶的迷失和缓慢的加入火花

、、、

$1$1.apply(DataFrame.scala:1499) at org.apache.spark.sql.DataFrame$$anonfun$org$apache$spark$sql$DataFrame:2086) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame.scala:1498)

浏览 4提问于2016-11-16得票数 0

1回答

如何使用listOfData和模式创建spark DataFrame

、、

<and> (rdd: org.apache.spark.rdd.RDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>(rows: java.util.List[org.apa

浏览 36提问于2020-10-01得票数 0

回答已采纳

1回答

火花转换Pandas df到S3

、、、、

df.write() .option("header", "true") .save("123.csv")

浏览 0提问于2017-01-03得票数 0

回答已采纳

1回答

星火sqlContext选择all

、、

我使用火花SQLContext读取数据，并将其存储在一个变量中：然后，我希望使用select选择所有值，如下所示：但这行不通。somevar.registerTempTable("sometable") 但我不想做以前的事。

浏览 2提问于2017-03-03得票数 1

回答已采纳

2回答

错误:重载方法值createDataFrame

<and> (rdd: org.apache.spark.rdd.RDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>(rows: java.util.List[org.apa

浏览 8提问于2019-09-19得票数 0

回答已采纳

1回答

如何向DataFrame类型添加新方法？

想象一下，我有一个Scala函数，它运行在一个Spark dataframe上： def makeColumnNull(df: DataFrame, columnToMakeNull: String): DataFrame = { val colType = df.select(columnToMakeNull).schema.head.dataTypedf.withColumn(columnToMakeNull, lit(null).cast(colType))

浏览 0提问于2018-04-24得票数 3

回答已采纳

1回答

使用Spark* Scala在MongoDB中保存流式数据帧*

、、、

我正在使用Kakfa和MongoDB，我的输出(Df1)是一个流数据帧，我想把它保存到Kakfa中。有什么建议吗？非常感谢！ val df= lines.selectExpr("CAST(value AS STRING)").as[(String)] .select("data.*") .format("console") .option("truncat

浏览 6提问于2019-09-26得票数 1

1回答

ValueError: DataFrame构造函数调用不正确(数据库/Python)

、、

我正在尝试设置一个Pandas Dataframe来处理Databricks中的数据。我的数据是从本地计算机上的文件导入的，如下所示：Snip of the data # Import packagesimport numpy as np #print(ownr.shape)df1 = pd.DataFrame</em

浏览 806提问于2021-10-14得票数 1

回答已采纳

1回答

Spark中区分大小写的拼图模式合并

、

我正在试着用Spark加载和分析一些镶木地板文件。我使用schemaMerge加载文件，因为较新的文件有一些额外的列。此外，一些文件的列名是小写的，而其他文件的列名是大写的。模式合并被委托给spark sql的StructType merge方法。据我所知，该方法只能以区分大小写的方式工作。在内部，它使用映射按名称查找字段，如果大小写不匹配，它会将其解释为新字段。这会导致

浏览 23提问于2019-07-31得票数 4

回答已采纳

点击加载更多

火花df、拼花物体和熊猫df之间的转换

火花写入Avro文件

在scala中使用函数时得到错误类型不匹配

Spark:加载或选择ORC格式的配置单元表

如何在Databricks中快速轻松地在R和pandas数据帧之间进行转换？

在Databricks笔记本上，pandas df到spark* df的转换需要很长时间*

简单sparksql联接查询中丢失的执行器

PySpark:在新星火DataFrame上使用现有的模式

如何在Spark中强制DataFrame求值

我们如何看待同一个函数的不同实现

如何在单联火花scala中创建数据表

奴隶的迷失和缓慢的加入火花

如何使用listOfData和模式创建spark DataFrame

火花转换Pandas df到S3

星火sqlContext选择all

错误:重载方法值createDataFrame

如何向DataFrame类型添加新方法？

使用Spark* Scala在MongoDB中保存流式数据帧*

ValueError: DataFrame构造函数调用不正确(数据库/Python)

Spark中区分大小写的拼图模式合并

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐