如何将变量dplyr和sparklyr小写？

、、

使用spark数据帧，我如何使用小写的变量？

浏览 10提问于2019-03-22得票数 1

1回答

如何使用数据库让dplyr::summarize_all在sparkdataframe上工作？

、、、

： dplyr::summarize_all(x,mean) 更多信息这是我目前收到的错误消息： Error in UseMethod("tbl_vars") : 1 20.1 6.19 231. 147. 3.60

浏览 17提问于2020-09-24得票数 2

回答已采纳

2回答

创建具有可变函数的新列

、、

如果这种问题不能用火花解决的话，我很惊讶：# in this format: YYYY-MM-DD (year, month, day) ... ...我收到这个错误： Error: org.apache.spark

浏览 4提问于2016-10-27得票数 3

回答已采纳

1回答

如何在sparklyr中通过名称引用Spark DataFrame并将其赋值给变量？

、、、

假设我运行了下面的代码，我忘记了将Spark dataframe iris赋值给R中的一个变量，并且我不能使用.Last.value来赋值，因为我在将数据复制到Spark之后立即运行了一些其他代码。library(sparklyr)sc <- spark_connect(master = "local")2+2 # ran someother code so can't use .Last.value 如何将Spark

浏览 18提问于2018-08-16得票数 1

1回答

如何使用SparkR统计数据框每一列的缺失值数量？

我正在处理一个2,5 GB的csv文件，其中包含1,100,000行和1000个数字列，它们似乎是稀疏填充的。我目前在一个具有8 GB RAM的单核VM上执行Spark，数据已经被分成16个分区。

浏览 2提问于2016-11-16得票数 1

1回答

使用火花时，如何在不退出RStudio的情况下阻止火花？

、、、

当我使用SparkR和sparkR.stop()时，我可以很容易地停止星火，如下面的代码块所示：sparkR.session(master = "local")sparkR.stop()当我运行Sparklyr时，我怎么能这样做呢？library(sparklyr)sc <- spark

浏览 0提问于2018-12-01得票数 1

回答已采纳

1回答

基于sparklyr和标准评估(SE)的函数

、、、、

我正在尝试编写一个函数来执行并创建一个sdf_pivot() DataFrame，它的列名包含原始变量或列的名称。::select(id, var1) %>% sparklyr::sdf_pivot(formula= id ~ newvar1, fun.aggregate = "count") %>% #

浏览 5提问于2018-02-13得票数 1

回答已采纳

7回答

SparkR vs sparklyr

、、、

有没有人概述一下SparkR和sparklyr的优缺点？谷歌没有产生任何令人满意的结果，两者似乎相当相似。尝试这两种方式，SparkR看起来要麻烦得多，而sparklyr非常简单(既要安装，也要使用，特别是在使用dplyr输入时)。sparklyr只能用于并行运行dplyr函数，还是“普通”的R-Code？最好的

浏览 0提问于2016-09-14得票数 53

1回答

在SparkR和sparklyr之间导入拼图文件所用时间的差异

、、、、

我正在使用SparkR和sparklyr在databricks中导入拼图文件。 data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE) data1 = sparklyr::spark_read_parquet/data202007*") 导入的时间差很大：SparkR为6秒，sparklyr为1

浏览 25提问于2020-09-25得票数 2

回答已采纳

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

、、、、

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。spark_apply(df_train[,EncodingFeatures], 1, FUN=mean,na.rm=TRUE) 我试过了 df_train %>% spark_apply(function(df) {dplyr

浏览 13提问于2019-10-15得票数 1

1回答

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别？

、、

我正在使用sparklyr库与“spark”进行交互。存在用于将数据帧放入spark上下文中的函数。这样的函数是'dplyr::copy_to‘和'sparklyr::sdf_copy_to’。

浏览 53提问于2019-05-15得票数 5

1回答

如何在sparklyr管道中添加自定义函数

、、、

此示例取自sparklyr文档 ft_dplyr_transformer( ) %>(delayed ~ month + day + hours + distance) %>% 从上面的示例中可以清楚地看出，管道是线性的，它使用sparklyr的内置转换和仅dplyr函数来操作数据。有没有一种方法可以让我在<e

浏览 0提问于2018-10-19得票数 1

1回答

在linux机器上读取一个拼花文件

、、

我用地板和json进口的。我使用了下面的代码，因为我不想使用熊猫。

浏览 1提问于2018-08-12得票数 3

1回答

将函数中的多个列名传递给dplyr::distinct() with Spark

、、、

我希望在将使用dplyr::distinct()的函数中指定一个未知数目的列名。.data[[id]]]，因为声明：确定唯一性时使用的<data-masking>可选变量。如果给定的输入组合有多行，则只保留第一行。如果省略，将使用所有变量。sc <- sparklyr:

浏览 4提问于2021-05-27得票数 0

回答已采纳

1回答

用mutate_each实现sparklyr中的标度和中心变量

、、、、

我正在sparklyr中处理一个集群问题。训练集中的许多变量是在不同的尺度上测量的，因此按数量级的不同而不同。根据最佳实践，我正试图对数据进行缩放和中心化。有许多不同的公式可以这样做，最传统的存在(X -)/σ，其中X是随机变量，σ=均值和σ=标准差。我倾向于使用( X= )/ (x_max - x_min)，其中X=随机变量、x=sample均值、x_max=最大值和x_min =最小值。在使用dplyr应用此转换之后，我将得到

浏览 1提问于2017-12-13得票数 3

回答已采纳

1回答

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

、、、、

我正在运行R Studio和R 3.5.2。我已经使用来自S3a的sparklyr::spark_read_parquet加载了大约250个parquet文件。我需要从Spark (由sparklyr安装)收集数据： spark_install(version = "2.3.2", hadoop_version = "2.7") 但由于某些原因，这项工作需要很长时间才能完成请建议您如何解决dplyr::collect或sparklyr::sdf_collect的“

浏览 39提问于2019-01-28得票数 1

回答已采纳

1回答

SparklyR安装问题(“惰性加载失败”)

、、、

在Linux服务器上使用相同的代码安装SparklyR时遇到了一些问题，这些代码直到昨天都工作得很顺利。我尝试过使用安装/卸载的DBI、jsonlite和dplyr的各种组合。在此之前，一切似乎都运行得很好：** package ‘sparklyr’ successfully unpackedomitted in the method definition cannot be in the signatu

浏览 0提问于2017-03-09得票数 1

1回答

tbl()在sparklyr查询中的作用是什么？

、、、

my_table <- sparklyr::spark_read_orc( name = "my_table", memorymy_query %>% dplyr::tbl(sc, .) %>% sparklyr::spark_write_orc(path = "result_path例如，我设想简单的SEL

浏览 2提问于2020-02-19得票数 0

回答已采纳

2回答