腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
spark
json模式元
数据
可以映
射到
配置单元?
、
、
在使用apache
spark
时,我们可以很容易地生成
一个
json文件来描述Dataframe结构。此
数据
帧
结构如下所示: "type": "struct", { "type": "string"business_key": false, &
浏览 1
提问于2020-05-14
得票数 0
1
回答
pyspark dataframe
将
多个json文件
数据
合并到
一个
dataframe中
、
、
、
、
我正在尝试在
一个
数据
帧
中合并多个json文件
数据
,然后再对该
数据
帧
执行任何操作。假设我有两个文件file1.txt,file2.txt,它包含如下
数据
{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}{"a":1 , "b&
浏览 6
提问于2017-03-02
得票数 0
回答已采纳
2
回答
将
Pandas DataFrame转换为
Spark
DataFrame
、
、
、
、
我之前问了
一个
关于如何的问题,在阅读了提供的答案和之后,我取得了一些进展。我最终使用了以下代码
将
scipy.sparse.csc_matrix转换为pandas
数据
帧
:df.columns = header
spar
浏览 1
提问于2016-11-04
得票数 8
1
回答
从包含两列的
数据
帧
创建数组
、
、
、
、
我有带模式的
数据
帧
|-- _id: long (nullable = true) |-- data: array (nullable = true)我尝试使用explode,但没有得到结果,我还尝试从第
一个
两列构造
一个
数组,但似乎很困难。
浏览 1
提问于2018-03-22
得票数 0
2
回答
Spark
将
一个
数据
帧
映
射到
另一个
数据
帧
、
、
我正在尝试
将
数据
帧
的一列解析为两个不同的列(目的是稍后
将
这些列添加到
数据
帧
中)。我尝试了两种方法。两者都会导致问题。谁能告诉我如何使用其中一种方法来实现这一点,或者提示我使用不同的方法?
将
Dataset<Row>映
射到
Dataset<Tuple2<String, String>> Dataset<Tuple2<String, String>> dfParsed = df.map(new但是在
浏览 5
提问于2017-02-15
得票数 0
回答已采纳
2
回答
Apache
Spark
当调用repartition($" key ")时,当每个键的所有记录的大小大于单个分区的大小时会发生什么?
、
、
、
假设我有
一个
10 c1的
数据
帧
,其中
一个
列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。假设我调用repartition($"c1"),那么所有的记录会被混洗到同
一个
分区吗?如果是这样,它不会超过每个分区的最大大小吗?在这种情况下,重新分区是如何工作的?
浏览 34
提问于2021-09-23
得票数 2
回答已采纳
2
回答
使用
spark
连接器从snowflake自定义
数据
类型映射
、
、
、
使用snowflake
spark
连接器从snowflake复制表时,默认行为是
将
结构化
数据
映
射到
spark
字符串:https://docs.snowflake.net/manuals/user-guide/
spark
-connector-use.html#from-snowflake-to-
spark
-sql 例如,给定snowflake中的
一个
表: create table schema.table
浏览 26
提问于2019-05-30
得票数 1
1
回答
如何在Scala中加载.rds R文件作为
Spark
数据
帧
、
、
我正在尝试为
一个
模型创建
一个
生产
数据
管道。作为此管道的一部分,我以.rds文件的形式保存了
一个
在R环境中运行的模型。下面是
一个
例子-saveRDS(coeff, "~/Desktop/c
浏览 11
提问于2018-07-31
得票数 2
1
回答
触发Sql JDBC到关系型
数据
库管理系统高效获取表数
、
考虑
将
jdbc
数据
帧
映
射到
rdbms表,如下所示df.count 不建议使用此计数操作,因为它会将
数据</e
浏览 1
提问于2020-04-02
得票数 0
2
回答
如何确定
数据
帧
是Pandas还是
Spark
?
、
、
我
将
一个
数据
帧
传递给
一个
函数。有时是Pandas
数据
帧
,有时是
Spark
数据
帧
。我的函数需要采取相应的行动。有没有简单的方法,比如df.isPandas(),来确定
一个
数据
帧
(作为“df”接收)是Pandas
数据
帧
还是
Spark
数据
帧
?提前谢谢。
浏览 17
提问于2019-05-14
得票数 1
回答已采纳
3
回答
在
Spark
Dataframe中,如何获取两个
数据
帧
中的重复记录和不同记录?
、
我正在解决
一个
问题,在这个问题中,我正在
将
数据
从
一个
hive表加载到
spark
dataframe中,现在我希望所有唯一的帐户都在
一个
数据
帧
中,所有重复的帐户都在
另一个
数据
帧
中。例如,如果我有帐户id 1,1,2,3,4,我想在
一个
数据
帧
中获取2,3,4,在
另一个
数据
帧
中获取1,1。我该怎么做
浏览 2
提问于2016-10-14
得票数 9
回答已采纳
1
回答
Apache
Spark
,正在读取outlook .pst文件
、
我正在尝试从安然电子邮件中读取
数据
,然后对其进行分析。目前,所有的文件都是压缩的,然后是.pst格式。 有没有办法
将
.pst
数据
直接读入
spark
?我目前正在使用libPST扩展Java中的PST,映
射到
JSON,然后
将
json加载到
数据
帧
中。
浏览 5
提问于2016-10-09
得票数 2
2
回答
Spark
scala
将
数据
框列复制到新的
数据
框
、
我已经创建了
一个
带有模式的空
数据
帧
。我正在尝试
将
新
数据
帧
中的列添加到for循环中的现有列中。
浏览 5
提问于2017-10-03
得票数 0
1
回答
Databricks -
将
Spark
dataframe转换为表:它是相同的
数据
源吗?
、
、
您将需要执行相当多的计算,从源
数据
帧
,
一个
Spark
表,不是吗?或者,dataframe和table都是指向相同
数据
的指针(即,在创建表时,不是在创建重复
数据
)?我猜我想要弄清楚的是,你是否可以从
一个
Spark
数据
帧
到
一个
表‘开关开关’,或者这样做的计算量是否(非常)昂贵(毕竟这是大
数据
...)
浏览 26
提问于2021-04-26
得票数 0
1
回答
有没有办法在pyspark中加速缓存过程?
、
我正在尝试缓存
一个
基于Pyspark的3列27行的
数据
帧
,这个过程大约需要7-10秒。提前感谢!
浏览 1
提问于2020-07-20
得票数 0
1
回答
pyspark查找
数据
帧
中超出范围的值
、
我在pyspark里有两个
数据
帧
。我正在尝试
将
一个
数据
帧
与
另一个
数据
帧
进行比较,以查看值是否在范围内。 Dataframe dfcompare:我正在寻找的输出:我目前拥有的代码如下: compare= df.compare.f
浏览 0
提问于2021-03-28
得票数 1
6
回答
如何在
spark
中将rdd对象转换为dataframe
、
、
、
如何
将
RDD (org.apache.
spark
.rdd.RDD[org.apache.
spark
.sql.Row])转换为
数据
帧
org.apache.
spark
.sql.DataFrame。我使用.rdd
将
数据
帧
转换为rdd。在处理之后,我想把它放回
数据
帧
中。我该怎么做呢?
浏览 56
提问于2015-04-01
得票数 150
回答已采纳
2
回答
AttributeError:“”DataFrame“”对象没有属性“”map“”
、
、
、
、
我想使用以下代码
将
spark
数据
帧
转换为要添加的内容:
spark
_df = sqlContext.createDataFrame(pandas_df)model = KMeans.train= sqlContext.createDataFrame(pan
浏览 1
提问于2016-09-16
得票数 44
回答已采纳
1
回答
在输入中使用Dataframe的
Spark
Udf函数
、
、
、
、
我必须用python开发
一个
Spark
脚本来检查一些日志,并验证用户是否在两个事件之间更改了他的IP的国家。我在HDFS上保存了
一个
包含IP范围和相关国家/地区的csv文件,如下所示:0.0.0.0, 10.0.0.0, Italy20.0.0.1, 30.0.0.0, GermanyuserId, timestamp, ip, event 1, 02-01-17 20:45:18
浏览 11
提问于2017-01-11
得票数 1
1
回答
select distinct().count()是
一个
pyspark
数据
帧
吗?
我看到了这是pyspark
数据
帧
吗?或者熊猫
数据
帧
?
浏览 2
提问于2019-09-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
微软专利为AR/VR社交提出基于手势识别呈现emoji表情
谷歌AI可通过起始帧和结束帧生成逼真的视频序列
研发实战:用Unity Profiler捕获剖析Oculus Quest性能数据
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券