加载Spark Dataframe时\x转义无效

、、、

我正在加载一个由"\x0"分隔的spark数据帧。当我运行以下命令时： logs = sqlContext.read.format("csv").option("delimiter", "\x0").load("path") 我得到以下错误： ValueError: invalid \x escape 我该如何解决这个问题呢？

浏览 17提问于2019-06-28得票数 0

1回答

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

、、、、

我想在mlflow上记录一个模型，一旦我这样做了，我就可以用python加载的模型来预测概率，但不能用spark_udf来预测。问题是，我仍然需要在模型中有一个预处理功能。下面是一个玩具可再生产的示例，供您查看失败时的情况：from mlflow.models.signature import infer_signature from sklearn.datasetsy = pd.DataFrame(X), pd.DataFrame(y,columns=[&

浏览 4提问于2021-12-09得票数 0

1回答

火花放电中StaticDataFrame与静态DataFrame的区别

、

我正在阅读Spark2.2.0文档，发现这是对Static DataFrames 的奇怪引用因为Spark2.0，DataFrames和数据集可以表示静态的、有界的数据，以及流的、无界的数据。这尤其令人困惑，因为Datasets (我理解为静态类型的数据格式)、Static DataFrame和Dataset的概念在我的脑海中似乎是重叠的。在Spark2.2.0中，Static DataFrame与Regular DataFrame和Datasets有什么区别？区别是因为流/

浏览 1提问于2017-12-24得票数 1

回答已采纳

2回答

Databricks- CSV文件最后一列有多个FILE分隔器(希望在单个列中)

、、、

将数据推送到dataframe或表

浏览 4提问于2020-07-02得票数 0

1回答

使用火花卡桑德拉连接器时，Dataframe子句不起作用

、

我们使用python spark驱动程序V3.0.0。当尝试使用dataframe加载数据时，where子句无效。然而，CQL本身确实在Datastax DevCenter中工作。代码如下所示 .options(table="tran_history", keyspace\spark-1.4.1-bin-had

浏览 0提问于2016-03-16得票数 1

2回答

将pyspark转换为scala:读取多个目录

、、、、

我有一个文件列表的拼花格式，我加载和合并到一个单一的数据在PySpark中。paths = ['file1', 'file2', 'file3']df = reduce但是，当我在上使用映射操作时，路径列表 val df_list = map(x = > (spark.read.parquet(

浏览 4提问于2017-06-21得票数 0

回答已采纳

1回答

如何使用Scala访问Spark DataFrame中每个单元格的最后两个字符以对其值进行一些计算

、

我在Scala中使用Spark。在将数据加载到Spark Dataframe之后，我想要访问Dataframe的每个单元格来执行一些计算。代码如下： val spark = SparkSession.master("local[4]").config("spark.executor.c

浏览 23提问于2021-09-19得票数 1

2回答

火花csv中的手柄逃逸\r\n

、、、

转义字符：\ 正因为如此，卸载的数据在每个窗口换行符(如"\r\n“)之前都有转义字符。当我试图通过spark.read.csv()读取这个文件时，它没有删除在\r和\n前面添加的转义()字符。我理解，只有当选定的引号字符作为引号数据字符串的一部分时，火花才会考虑转义。在被读入dataframe.But之后，我可以删除数据中的附加转

浏览 0提问于2019-01-23得票数 1

3回答

Spark SQL和MySQL- SaveMode.Overwrite不插入修改的数据

、、、

-----++----+-------++----+-------++----+-------+ 我使用Spark

浏览 0提问于2017-01-26得票数 8

回答已采纳

1回答

Spark dataframe CSV vs Parquet

、、

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的显着性能差异。我正在使用以下命令加载数据，并针对它编写查询。dataframe_csv = sqlcontext.read.format(&q

浏览 2提问于2018-02-11得票数 1

1回答

在scala中使用函数时得到错误类型不匹配

、、

import org.apache.spark.sql.{SparkSession, DataFrame}{ import spark.implicits._ { val df =

浏览 1提问于2021-12-09得票数 0

1回答

如何在每个Worker中加载Spark* Dataframe中的数据，以防止将大量数据加载到主节点*

、、

("local[4]") .config("spark.executor.cores.config("spark.some.config.option", "some-value") val jdbcDF = spark.read.f

浏览 1提问于2021-10-16得票数 2

1回答

运行时评估功能不能很好地使用Spark数据集/RDD

、、

$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD:114) at org.apache.spark.scheduler.Task.run(Task.scala:109) at

浏览 0提问于2019-01-18得票数 1

1回答

运行以脚本形式在shell中运行的命令

、、、

在shell中运行以下命令时不会出现问题：ssh user@machine sudo systemctl错误：找不到单元x0d.service\x0d.service。无效的单元名"my-servi

浏览 0提问于2022-02-25得票数 0

回答已采纳

1回答

如何在Spark中向数据集添加模式？

我正在尝试将一个文件加载到spark中。如果我将一个普通的textFile加载到Spark中，如下所示：pfile: org.apache.spark.sql.DataFrame = [address: struct<city: string, state: stri

浏览 6提问于2017-07-07得票数 0

回答已采纳

1回答

通过集群提高SparkSQL查询性能

在网上搜索补救方法时，我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等，而且它们可能用于提高慢速运行的SparkSQL 查询的性能

浏览 5提问于2020-06-05得票数 0

1回答

利用apache和scala对数据进行预处理

、、

我对spark和scala非常陌生，因此我有一些问题涉及到使用spark进行数据预处理和使用rdds。我正在做一个小项目，我想用火花实现一个机器学习系统。, a , abc , 110 , c , abc , 0 在星星之火中加载数据后现在，我正在加载csv文件，没有任何标题的火花，但我的任务，我需要。建议在单独的rdd中加载标头吗？但是我如何与rdd交互以找到正确的列呢？对不起，我知道很

浏览 3提问于2015-07-21得票数 3

回答已采纳

2回答

我可以用Spark* SQL直接查询一个TSV文件吗？*

、、

可以使用Spark SQL直接查询TSV文件吗？需要说明的是，我说的是Spark SQL而不是Spark DataFrame。例如，我们可以使用Spark SQL直接查询CSV文件。有没有办法在(Spark) SQL语句中指定分隔符？ spark.sql("select * from csv.`/path/to/csv`")

浏览 1提问于2019-07-03得票数 0

1回答

Python -使用side_effect模拟一个在类的初始化内部调用的函数

、

from src.shared.utils import get_spark_dataframe def __init__(self, x, y):self.a = get_spark_dataframe(x, y.some_db, "table_a") self.b = get_spark_dataframe(x, y.some_dbdef get_

浏览 0提问于2019-02-25得票数 1

2回答

DataFrame -转义&amp；

、、、

我发现有些字段包含一个html编码的符号和&分号作为列分隔符，所以我需要在加载数据帧时用&替换&。例如，我有以下csv文件：1;Chandler;Bing我使用以下笔记本加载它：我有一个使用RDDs的棘手的解决方案，它至少可以用于小型测试文件，但我仍然在寻找一个合适的解决方案，在加载数据文件时</e

浏览 2提问于2021-08-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

火花放电中StaticDataFrame与静态DataFrame的区别

Databricks- CSV文件最后一列有多个FILE分隔器(希望在单个列中)

使用火花卡桑德拉连接器时，Dataframe子句不起作用

将pyspark转换为scala:读取多个目录

如何使用Scala访问Spark DataFrame中每个单元格的最后两个字符以对其值进行一些计算

火花csv中的手柄逃逸\r\n

Spark SQL和MySQL- SaveMode.Overwrite不插入修改的数据

Spark dataframe CSV vs Parquet

在scala中使用函数时得到错误类型不匹配

如何在每个Worker中加载Spark* Dataframe中的数据，以防止将大量数据加载到主节点*

运行时评估功能不能很好地使用Spark数据集/RDD

运行以脚本形式在shell中运行的命令

如何在Spark中向数据集添加模式？

通过集群提高SparkSQL查询性能

利用apache和scala对数据进行预处理

我可以用Spark* SQL直接查询一个TSV文件吗？*

Python -使用side_effect模拟一个在类的初始化内部调用的函数

DataFrame -转义&amp；

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐