腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(614)
视频
沙龙
1
回答
在
单
热
编码
ML
工作
负载
中
,
何时
使用
暗
阵列
与
dask
数据
帧
、
我有一个
数据
集,它是一个巨大的、短的、胖的矩阵(大约4000 x 20,000,000)。我认为
dask
对我来说可能是一个很好的解决方案。但是,我希望确保可以将其
编码
为一个
单
热
矩阵。我查看了
dask
-
ml
中
的选项,它们似乎总是需要一个
dask
数据
帧
。然而,创建一个有2000万列的
数据
帧
似乎真的很奇怪,而且可能会导致大量开销。
使用
dask<
浏览 9
提问于2018-02-14
得票数 2
1
回答
在
达斯克并行运行两次机器学习培训
、
、
我已经
在
码头上
与
工人一起实现了达斯克。label1]X2 = data2[features2] with joblib.parallel_backend('
dask
我可以用工人1到5训练1,工人6到10训练2,但如何告诉达斯克分布
使用
一些工人用于一个任务,而其他工人为另一个任务?
浏览 3
提问于2021-07-22
得票数 0
回答已采纳
1
回答
如何为所有
工作
进程和分区预缓存
dask
.dataframe以减少通信需求
、
、
、
、
有时,
使用
dask
.dataframe.map_partitions进行合并之类的操作很有吸引力。
在
某些情况下,当
使用
map_partitions
在
left_df和right_df之间进行合并时,我希望
在
执行合并之前先预缓存right_df,以减少网络开销/本地混洗。感觉应该可以
使用
client.scatter(the_df)、client.run(func_to_cache_the_df)或其他智能广播
中
的一种或两者的组合。
在</e
浏览 0
提问于2019-07-30
得票数 2
1
回答
用Python读取位于亚马逊( S3 )上的大型CSV文件( 10条M+记录),最有效的方法是什么?
、
、
、
、
我一直
在
努力寻找从S3
中
读取大型csv文件( 10+,百万条记录)并对其中一列(总行数和平均值)执行几个简单操作的最快方法。我已经运行了几个测试,到目前为止最快的是创建一个
dask
数据
帧
,但我想知道是否有其他的替代方案可以让事情变得更快。测试1.print(df.count)print("%s seconds" % ((time.time())-(start_time))) 测
浏览 6
提问于2021-02-14
得票数 0
1
回答
数据
约简的
dask
.distributed调度优化
、
、
我有一个关于
dask
.distributed
中
任务的调度/执行顺序的问题,用于大型原始
数据
集的强
数据
缩减。 将作为3D数组存储
在
HDF5文件(或其中的几个文件)
中
的电影
帧
读入
dask
阵列
。这显然是相当重的I/O。
在
2D图像上运行几
浏览 6
提问于2020-05-24
得票数 0
1
回答
如何在python
中
对无序离散
数据
进行
热
编码
?
、
、
问题 2 1 0 然而,我尝试过的所有解决方案都需要对
数据
进行一次
热
编码
,以使其具有某种顺序,而在我的示例
中
尝试的解决方
浏览 0
提问于2018-07-20
得票数 1
7
回答
腾讯云TStack上的云Oracle有哪些优点和应用?
、
云Oracle是基于腾讯云TStack的Oracle云化解决方案,采用开放的“X86服务器+高速以太网络+分布式软件定义存储”架构,有哪些优点和应用呢?
浏览 1675
提问于2018-09-19
1
回答
用一个
热
编码
向量作为机器学习模型的特征
、
、
', 'Sessions_8']], dtype=object).tolist()
在
尝试训练
ML
模型时,我认为最好
使用
新的向量“session”列,而不是分隔的Session_x列(否则,我们只进行一次
热
编码
!)但我发现了一个错误: 我搜索了这个错误,到处都提到,根本原因可能是形状不一样或者元素有不同的
数据
类型……但我的情况不是这样的
浏览 1
提问于2022-11-27
得票数 0
回答已采纳
1
回答
用在线零售
数据
预测客户的未来订单日期和订单金额
、
、
使用
在线零售II
数据
集(https://archive.ics.uci.edu/
ml
/datasets/Online+Retail+II),我试图预测每个客户
何时
下订单,如果可能的话,这些订单的货币价值这将证明一个真正的在线零售商店的概念,在其中,我将获得更多的
数据
/功能。InvoiceNo:发票号码。名义上。唯一分配给每个事务的6位整数。输出要么是一个稀疏的、一个
热
编码<
浏览 0
提问于2020-01-06
得票数 2
1
回答
将矩阵从MongoDB加载/反序列化为pySpark,添加新的向量列
、
、
、
我正在学习星火,以便
使用
它的
ML
模块来构建分类器。我的
数据
存储
在
MongoDB
中
,包含用cPickle序列化的小图像。文档中了解到,分类器
与
向量和矩阵一起
工作
,这是
在
pyspark.
ml
.linalg模块
浏览 4
提问于2017-04-26
得票数 0
回答已采纳
6
回答
字符串作为决策树/随机林中的特征
、
、
、
、
在
一个决策树/随机森林的应用
中
,我正在做一些问题。我试图适应一个问题,它有数字和字符串(如国家名称)作为功能。现在,科学知识-学习只
使用
数字作为参数,但是我想注入字符串,因为它们携带了大量的知识。我可以通过某种机制(如Python
中
的散列)将字符串转换为数字。但是我想知道
在
决策树问题中如何处理字符串的最佳实践。
浏览 0
提问于2015-02-25
得票数 85
回答已采纳
5
回答
如何处理分类特征
与
火花-毫升?
、
、
、
如何
使用
spark-
ml
而不是spark-mllib处理分类
数据
?虽然文档不是很清楚,但似乎分类器(例如RandomForestClassifier、LogisticRegression )有一个featuresCol参数,它指定了DataFrame
中
的特性列的名称,显然,我希望
在
我的预测中
使用
多个特性,所以我尝试
使用
VectorAssembler将所有特性放在featuresCol下的一个向量
中
。
浏览 10
提问于2015-08-28
得票数 49
2
回答
两个低
工作
负载
模型服务器的最佳RAID设置?
、
可能重复: 有哪些不同的广泛
使用
的RAID级别,以及我
何时
应该考虑它们?我们已经到了经常耗尽空间的地步,我们正在探索增加更多空间的选择。只有大约10人经常
使用
服务器,而且通常在任
何时
候都不超过4到5人
在
浏览 0
提问于2012-02-03
得票数 2
回答已采纳
1
回答
从键/值到关系的CockrochDB序列化/反序列化
我试着阅读CockroachDB的文档,如果我理解体系结构文档,底层
数据
库是一个关键/值
数据
库,但是
在
执行SQL语句之前,值被序列化并反序列化,比如UPDATE语句。我无法
在
文档中找到
使用
哪种序列化技术,或者我可以选择是否更改它(比如Avro、Protobuf等)。 其次,对于下表结构。
与
关系
数据
库Postgres相比,我将经历多少性能损失。我问的原因是,我们
在
我们的项目中
使用
Apache Cassandra,当然,拥有一个
浏览 5
提问于2022-08-04
得票数 0
2
回答
如何将大型CSV加载到keras模型
中
?
、
、
我需要转换大的csv到一个
热
编码
np.ndarray为凯拉斯模型。1.'有没有办法
使用
"pd.dataframe.apply“来转换成一个
热
编码
?
浏览 2
提问于2019-04-09
得票数 0
3
回答
x264线程延迟
、
我想知道为什么x264
中
的无切片线程()会导致延迟?例如,如果我有两个线程,第一个线程
编码
一个
帧
,第二个线程
编码
一个
帧
。
在
某些情况下,秒数必须等待第一个。但它们可以并行
编码
。
浏览 0
提问于2012-07-22
得票数 4
4
回答
什么时候对LabelEncoder和DictVectorizor
使用
一种
热
编码
?
、
、
我用分类
数据
构建模型已经有一段时间了,在这种情况下,我基本上默认
在
构建模型之前
使用
scikit-learn的LabelEncoder函数来转换这些
数据
。我理解OHE、LabelEncoder和DictVectorizor在
数据
处理方面的区别,但我不清楚的是,您什么时候可以选择
使用
一种技术而不是另一种技术。
浏览 0
提问于2015-12-19
得票数 171
回答已采纳
2
回答
在
Dask
仪表板中进行100%的
Dask
DF操作后,需要很长时间
、
、
我正在
使用
大型CSV (~60 in;~250M行)和
Dask
in Jupyter。 加载DF后,我要做的第一件事是连接两个字符串列。我可以成功地做到这一点,但是我注意到单元执行时间似乎并没有随着
工作
进程数量的增加而减少(我
在
一台具有64个逻辑核心的机器上尝试了5、10和20 )。同时,
Dask
仪表板的进度条表明,任务
与
工作
人员数量有很好的比例关系。
在
5个
工作
进程
中
,任务完成(ac。到仪表板)大约需要10-15分钟
浏览 21
提问于2021-07-23
得票数 1
回答已采纳
4
回答
为什么要在mysql中将日志文件和bin-log文件存储
在
不同的路径或磁盘上
、
、
、
我有复制设置mysql日志文件的位置,所有的databases....the - log文件都在一个路径,这是我的默认
数据
目录mysql。 我读到过,为了获得更好的性能,应该将它们分开存储。
浏览 1
提问于2011-05-24
得票数 3
1
回答
CANopen框架是什么样子的,2.传输PDO和接收PDO的意义是什么? 3. PDO映射是如何编程完成的?
、
我知道CAN的
工作
和一个罐头框架的样子。CAN
数据
或远程
帧
包含
帧
的开始、消息标识符字段、DLC、RTR、
数据
(有效载荷)、CRC、ACk字段等。我知道CANopen标准
使用
CAN总线发送CAN消息。但是,CANopen的CAN
帧
的外观方式是不同的,
在
消息标识符字段
中
包含COB ID+Node ID,在有效
负载
字段
中
包含
与
对象字典相关的信息。因此,我想提出以下问题: 如何定义对象字典
浏览 0
提问于2020-03-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Meta研究:用于实时XR工作负载的多模型ML基准测试
Python数据预处理:使用Dask和Numba并行化加速
IBM全新机器学习库SnapML:训练提速46倍,40亿样本仅需91.5秒
将sklearn训练速度提升100多倍,美国“返利网”开源sk-dist框架
美国“返利网”开源sk-dist框架将sklearn训练速度提升数倍
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券