腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
包含5,000个样本和500,000个特征的
数据
集
上加载和运行特征选择?
、
我有一个包含5000个样本和500000个特征的
数据
集
(都是分类的,基数为3)。我想解决两个问题: 加载
数据
集
--尽管使用了计算集群,我还是无法将其加载到内存
中
,所以我假设我应该使用一个
并行
化
库,比如Dask、
Spark
或Vaex。这是最好的主意吗?特性选择-如
何在
并行
化
库
中
运行特性选择?这能用达斯克,火花,瓦克斯完成吗?
浏览 0
提问于2021-05-20
得票数 1
1
回答
星火中的准等位基因收藏
、
、
星火中的“平行集合”的概念是什么,以及这个概念如何能够提高工作的整体性能?此外,应该如何配置分区呢?
浏览 3
提问于2018-05-05
得票数 1
回答已采纳
1
回答
如
何在
Spark
中
并行
化
多个
数据
集
?
我有一个
Spark
2.1工作,我维护
多个
Dataset对象/RDD,这些对象/RDD代表对底层Hive/HDFS
数据
存储的不同查询。我注意到,如果我简单地迭代
数据
集
列表,它们会一次执行一个。每个单独的查询都是
并行
操作的,但我觉得我们没有通过不
并行
运行不同的
数据
集
来最大化我们的资源。关于这一点,似乎没有太多的问题,因为大多数问题似乎都是关于
并行
单个RDD或
数据
集
浏览 5
提问于2018-02-17
得票数 2
回答已采纳
2
回答
如
何在
不在pyspark
中
创建文件夹的情况下写入CSV文件?
、
、
、
在写入CSV文件时,自动创建文件夹,然后创建具有隐名的csv文件,如
何在
pyspark
中
创建具有任何特定名称的CSV,而不是在pandas
中
创建文件夹。
浏览 7
提问于2021-11-09
得票数 0
1
回答
使用
Spark
并行
缓存和查询
数据
集
、
、
我有一个需求,我想缓存一个
数据
集
,然后通过在该
数据
集
上
并行
地触发"N“个查询来计算一些度量,所有这些查询都计算类似的度量,只是过滤器会改变,我想
并行
运行这些查询,因为响应时间非常重要,而且我想要缓存的
数据
集
总是小于一个我知道如
何在
Spark
中
缓存
数据
集
,然后再对其进行查询,但如果必须在同一
数据
集中
并行
运行查询,如何实现
浏览 1
提问于2017-12-09
得票数 3
回答已采纳
1
回答
如何从MySQL加载大量
数据
并保存为文本文件?
、
、
我使用MySql
数据
库从LIMIT和OFFSET获取大量
数据
,如下所示:for (s <- a to partition) { data = data.union(
spark
.read.jdbc(url","))).persist(StorageLevel.DISK_ON
浏览 3
提问于2017-07-21
得票数 0
回答已采纳
1
回答
Spark
实现Scala的
并行
交叉验证
、
、
、
Pyspark提供了一个很大的可能性,可以通过将模型的交叉验证
并行
化
,简单地用我如何才能实现类似的功能,斯派克的ScalaCrossValidator,即
并行
化
每一个折叠?
浏览 1
提问于2017-01-05
得票数 3
回答已采纳
1
回答
并行
火花收集功能
、
、
我注意到
spark
的函数,collect在大
数据
集
上速度非常慢,所以我尝试使用
并行
化
来修复这个问题。
spark
= SparkSession.builder.appName('app_name').getOrCreate()这里是我尝试
并行
化
我的收集函数的地方 def
浏览 4
提问于2019-09-19
得票数 0
1
回答
Pyspark是
spark
.lapply的替代品?
、
、
、
我有一个计算密集型的python函数,在for循环中反复调用(每次迭代都是独立的,即令人尴尬的
并行
)。我正在寻找
spark
.lapply (来自SparkR)的一种功能,以利用星火集群。
浏览 1
提问于2019-08-05
得票数 0
1
回答
如何实现比
spark
集群内核数更高的
并行
度?
、
作为最后一步,我有一个通过网络发送
数据
的
spark
作业。另一端的接收器可以处理比我当前发送的多10到50倍的并发请求,所以我正在寻找一种方法来进一步
并行
化
,而不是内核的数量。我找到了为一个执行器提供
多个
核心的方法,但没有找到如
何在
每个核心上使用
多个
执行器的方法。
spark
-submit的--num-executors选项没有帮助。选项也是如此。
spark
.dynamicAllocation.enabled
spark
浏览 6
提问于2020-07-31
得票数 0
回答已采纳
1
回答
使用SparkR 2.0.0进行
并行
、分布式处理
、
、
、
我注意到在开源R上原生ML调用不会花费太多时间来为项的
数据
集运行算法(通常大约10000行-总共需要1分钟来获取
数据
、运行ML并交付我需要的结果)。 请注意,我并没有调用
Spark
的ML。但是我想看看我是否可以只使用
spark
进行分布式
并行
计算,看看我可以多快地学习。另一种选择是加载
Spark
DataFrame
中
的所有500项,并让
Spark
来决定如
何在
分区的DataFrame上运行ML。但这是一个单独的努力和研究,以比较与
浏览 3
提问于2017-04-07
得票数 1
1
回答
如何改变火花放电
中
的
并行
任务数
、
如何改变火花放电
中
并行
任务的数量? 我的意思是如何改变在我的电脑上运行的虚拟地图的数量。实际上,我想用地图函数的数量来绘制加速图。
浏览 5
提问于2017-11-18
得票数 0
1
回答
对Ray执行Join或Group By操作
、
我想在集群模式下使用ray.io来合并两个几乎无法装入内存的大型
数据
集
(大致相同数量的记录)。Apache
Spark
的join可以做到这一点,但我的程序在onprem DC上运行,而
Spark
在k8s上还不受支持/可用。Ray.io看起来更轻量级,更容易获得批准,因为它将允许扩展其他ML相关任务(
如
并行
化
、xgboost等)。因此,我正在研究如何使用ray.io实现join操作。
浏览 1
提问于2021-05-27
得票数 0
1
回答
我可以测量ML.api在
Spark
中
的
并行
性能吗?
、
、
、
一般来说,我想用相同的学习算法在
Spark
中比较大型
数据
集
和拆分
数据
集
之间的计算时间。另一个原因是我想得到分区模型的结果。如何调整参数才能得到想要的结果? 或者我可以停下来使用
Spark
中
的原始方法来使用分区吗?
浏览 3
提问于2016-08-25
得票数 0
2
回答
并行
写入
多个
拼图文件
、
我有一个很大的
Spark
DataSet (Java) &我需要应用过滤器来获得
多个
数据
集
,并将每个
数据
集
写入拼花地板。 Java
Spark
是否提供了可以
并行
编写所有拼图文件的功能?
浏览 19
提问于2020-06-04
得票数 0
回答已采纳
4
回答
使用
Spark
,如何
并行
读取HDFS
中
不同文件夹
中
的
多个
文件?
我有3个文件夹,包含三个不同模式的csv文件,在HDFS.All
中
,3个文件是巨大的(几个GBs)。我希望
并行
读取文件,并
并行
处理其中的行。我如何实现这是在一个纱线集群使用星火?
浏览 2
提问于2017-10-03
得票数 1
回答已采纳
1
回答
如何生成长度为N的JavaRDD?
、
、
、
我没有固定长度的
数据
集
,我正在尝试创建一个。试图找出是创建一个长度为N的虚拟数组来
并行
化
,还是传递一个运行N次的函数。不确定哪种方法是有效的/更好的,我在
Spark
中看到,如果我开始使用一个定义良好的
数据
集
,比如文档
中
的单词,那么这些单词的长度/计数已经定义好了,我只需要
并行
化
一些映射或过滤器来对这些
数据
执行一些操作。在我的例子
中
,我认为这是不同的,试图
浏览 5
提问于2015-11-27
得票数 0
回答已采纳
1
回答
星火如何利用每台机器
中
的多核
并行
性?
、
我在集群
中
以独立模式运行
Spark
(100台机器,每台计算机16个CPU核,每台机器32 GB RAM )。我在运行任何应用程序时都会指定
SPARK
_WORKER_MEMORY和
SPARK
_WORKER_CORES。 在星火程序设计
中
,我把它当作一个串行程序来编程,然后星火框架会自动
并行
任务,对吗?当然,通过
数据
并行
来开发多线程需要更大的内存,但我不知道我的
Spark
程序
中
的哪个功能是由多线程
并行
浏览 2
提问于2017-01-23
得票数 0
回答已采纳
2
回答
数据
集
阵列上的
Spark
并行
化
、
、
环境: Scala、
spark
、结构
化
流媒体 如果我在Scala Array(Dataset[Row])中有一个
数据
集
的数组,我对使用处理Dataset[Row]对象的函数
并行
处理感兴趣,那么通过map或foreach传递数组对象来利用
spark
集群
中
的sparks
并行
性是否足够?
浏览 2
提问于2020-07-26
得票数 0
1
回答
为什么我们需要Scala的ParHashMap,而Java的ConcurrentHashMap
、
、
、
、
我考虑了两个具有类似概念的集合--来自Scala的ParHashMap和来自Java的ConcurrentHashMap。它们都具有相同的时间复杂度,并且都是线程安全和无锁的,但它们只基于不同的概念,因此,隐藏trie和哈希表。这个推理引发了疑问:为什么我们需要来自Scala的ParHashMap,而Java需要ConcurrentHashMap呢?
浏览 9
提问于2017-01-09
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Spark中的数据缓存和数据持久化机制。
高难动作来了,VLOOKUP 如何在 Excel 多个数据表中查询并返回结果?
解锁多核处理器的力量:探索数据并行化在 Java 8 Stream 中的应用
大数据之spark基础知识
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券