腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6761)
视频
沙龙
1
回答
加载
Spark
Dataframe
时
\
x
转义
无效
、
、
、
我正在
加载
一个由"\
x
0"分隔的
spark
数据帧。当我运行以下命令
时
: logs = sqlContext.read.format("csv").option("delimiter", "\
x
0").load("path") 我得到以下错误: ValueError: invalid \
x
escape 我该如何解决这个问题呢?
浏览 17
提问于2019-06-28
得票数 0
1
回答
Mlflow log_model,无法用
spark
_udf进行预测,但使用python工作。
、
、
、
、
我想在mlflow上记录一个模型,一旦我这样做了,我就可以用python
加载
的模型来预测概率,但不能用
spark
_udf来预测。问题是,我仍然需要在模型中有一个预处理功能。下面是一个玩具可再生产的示例,供您查看失败
时
的情况:from mlflow.models.signature import infer_signature from sklearn.datasetsy = pd.
DataFrame
(
X
), pd.
DataFrame
(y,columns=[&
浏览 4
提问于2021-12-09
得票数 0
1
回答
火花放电中StaticDataFrame与静态
DataFrame
的区别
、
我正在阅读
Spark
2.2.0文档,发现这是对Static DataFrames 的奇怪引用 因为
Spark
2.0,DataFrames和数据集可以表示静态的、有界的数据,以及流的、无界的数据。这尤其令人困惑,因为Datasets (我理解为静态类型的数据格式)、Static
DataFrame
和Dataset的概念在我的脑海中似乎是重叠的。在
Spark
2.2.0中,Static
DataFrame
与Regular
DataFrame
和Datasets有什么区别?区别是因为流/
浏览 1
提问于2017-12-24
得票数 1
回答已采纳
2
回答
Databricks- CSV文件最后一列有多个FILE分隔器(希望在单个列中)
、
、
、
将数据推送到
dataframe
或表
浏览 4
提问于2020-07-02
得票数 0
1
回答
使用火花卡桑德拉连接器
时
,
Dataframe
子句不起作用
、
我们使用python
spark
驱动程序V3.0.0。当尝试使用
dataframe
加载
数据
时
,where子句
无效
。然而,CQL本身确实在Datastax DevCenter中工作。代码如下所示 .options(table="tran_history", keyspace\
spark
-1.4.1-bin-had
浏览 0
提问于2016-03-16
得票数 1
2
回答
将pyspark转换为scala:读取多个目录
、
、
、
、
我有一个文件列表的拼花格式,我
加载
和合并到一个单一的数据在PySpark中。paths = ['file1', 'file2', 'file3']df = reduce但是,当我在上使用映射操作
时
,路径列表 val df_list = map(
x
= > (
spark
.read.parquet(
浏览 4
提问于2017-06-21
得票数 0
回答已采纳
1
回答
如何使用Scala访问
Spark
DataFrame
中每个单元格的最后两个字符以对其值进行一些计算
、
我在Scala中使用
Spark
。在将数据
加载
到
Spark
Dataframe
之后,我想要访问
Dataframe
的每个单元格来执行一些计算。代码如下: val
spark
= SparkSession.master("local[4]").config("
spark
.executor.c
浏览 23
提问于2021-09-19
得票数 1
2
回答
火花csv中的手柄逃逸\r\n
、
、
、
转义
字符:\ 正因为如此,卸载的数据在每个窗口换行符(如"\r\n“)之前都有
转义
字符。当我试图通过
spark
.read.csv()读取这个文件
时
,它没有删除在\r和\n前面添加的
转义
()字符。 我理解,只有当选定的引号字符作为引号数据字符串的一部分时,火花才会考虑
转义
。在被读入
dataframe
.But之后,我可以删除数据中的附加
转
浏览 0
提问于2019-01-23
得票数 1
3
回答
Spark
SQL和MySQL- SaveMode.Overwrite不插入修改的数据
、
、
、
-----++----+-------++----+-------++----+-------+ 我使用
Spark
浏览 0
提问于2017-01-26
得票数 8
回答已采纳
1
回答
Spark
dataframe
CSV vs Parquet
、
、
我是
Spark
的初学者,正在尝试理解
spark
数据帧的机制。当从csv
加载
数据
时
,我正在比较
spark
sql
dataframe
上sql查询的性能。我的理解是,一旦数据被
加载
到
spark
数据帧中,那么数据来自哪里(csv或parquet)就不再重要了。然而,我看到了两者之间的显着性能差异。我正在使用以下命令
加载
数据,并针对它编写查询。
dataframe
_csv = sqlcontext.read.format(&q
浏览 2
提问于2018-02-11
得票数 1
1
回答
在scala中使用函数
时
得到错误类型不匹配
、
、
import org.apache.
spark
.sql.{SparkSession,
DataFrame
}{ import
spark
.implicits._ { val df =
浏览 1
提问于2021-12-09
得票数 0
1
回答
如何在每个Worker中
加载
Spark
Dataframe
中的数据,以防止将大量数据
加载
到主节点
、
、
("local[4]") .config("
spark
.executor.cores.config("
spark
.some.config.option", "some-value") val jdbcDF =
spark
.read.f
浏览 1
提问于2021-10-16
得票数 2
1
回答
运行时评估功能不能很好地使用
Spark
数据集/RDD
、
、
$apache$
spark
$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.
spark
.rdd.MapPartitionsRDD:114) at org.apache.
spark
.scheduler.Task.run(Task.scala:109) at
浏览 0
提问于2019-01-18
得票数 1
1
回答
运行以脚本形式在shell中运行的命令
、
、
、
在shell中运行以下命令
时
不会出现问题:ssh user@machine sudo systemctl错误:找不到单元
x
0d.service\
x
0d.service。
无效
的单元名"my-servi
浏览 0
提问于2022-02-25
得票数 0
回答已采纳
1
回答
如何在
Spark
中向数据集添加模式?
我正在尝试将一个文件
加载
到
spark
中。如果我将一个普通的textFile
加载
到
Spark
中,如下所示:pfile: org.apache.
spark
.sql.
DataFrame
= [address: struct<city: string, state: stri
浏览 6
提问于2017-07-07
得票数 0
回答已采纳
1
回答
通过集群提高SparkSQL查询性能
在网上搜索补救方法
时
,我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等,而且它们可能用于提高慢速运行的SparkSQL 查询的性能
浏览 5
提问于2020-06-05
得票数 0
1
回答
利用apache和scala对数据进行预处理
、
、
我对
spark
和scala非常陌生,因此我有一些问题涉及到使用
spark
进行数据预处理和使用rdds。我正在做一个小项目,我想用火花实现一个机器学习系统。, a , abc , 110 , c , abc , 0 在星星之火中
加载
数据后现在,我正在
加载
csv文件,没有任何标题的火花,但我的任务,我需要。建议在单独的rdd中
加载
标头吗?但是我如何与rdd交互以找到正确的列呢?对不起,我知道很
浏览 3
提问于2015-07-21
得票数 3
回答已采纳
2
回答
我可以用
Spark
SQL直接查询一个TSV文件吗?
、
、
可以使用
Spark
SQL直接查询TSV文件吗?需要说明的是,我说的是
Spark
SQL而不是
Spark
DataFrame
。例如,我们可以使用
Spark
SQL直接查询CSV文件。有没有办法在(
Spark
) SQL语句中指定分隔符?
spark
.sql("select * from csv.`/path/to/csv`")
浏览 1
提问于2019-07-03
得票数 0
1
回答
Python -使用side_effect模拟一个在类的初始化内部调用的函数
、
from src.shared.utils import get_
spark
_
dataframe
def __init__(self,
x
, y):self.a = get_
spark
_
dataframe
(
x
, y.some_db, "table_a") self.b = get_
spark
_
dataframe
(
x
, y.some_dbdef get_
浏览 0
提问于2019-02-25
得票数 1
2
回答
DataFrame
-
转义
&;
、
、
、
我发现有些字段包含一个html编码的符号和&分号作为列分隔符,所以我需要在
加载
数据帧
时
用&替换&。例如,我有以下csv文件:1;Chandler;Bing我使用以下笔记本
加载
它:我有一个使用RDDs的棘手的解决方案,它至少可以用于小型测试文件,但我仍然在寻找一个合适的解决方案,在
加载
数据文件
时</e
浏览 2
提问于2021-08-23
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark之SparkSQL
大数据有道之spark选择去重
大数据有道之spark筛选去重
如何使用pyspark统计词频?
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券