腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
需要在KNN中进行交叉验证
、
我读到在KNN
算法
中我们需要交叉验证,因为我们从KNN的训练测试中发现的K值可能无法对未见数据进行泛化。给出的逻辑是,在求K值时使用
测试数据
集,因此KNN-
算法
具有
测试数据
集的信息,因为K是通过
测试数据
集发现的。这和看不见的数据不一样。但是是的,K值是从
测试数据
集中找到的,因此我们得到了我们的KNN
算法
,但是对
测试数据
的测试是在不知道
测试数据
的情况下进行的,而且是的,我们从中选择了K,但是不管我们是否选择了k,KNN给出了对
测
浏览 0
提问于2022-01-09
得票数 0
1
回答
在结果可以被认为是可信之前,需要对随机
算法
进行多少次重复?
、
我写了一个随机机器学习
算法
。我被要求证明我所做的
算法
的运行次数是正确的。
浏览 0
提问于2018-07-21
得票数 1
2
回答
应用Sci-kit学习的kNN
算法
处理新数据
、
、
当我研究Scikit-learn的kNN
算法
时,我意识到如果我使用sklearn.model_selection.train_test_split,所提供的数据就会根据作为参数提供的比例自动分成火车数据和
测试数据
集然后,基于列车数据,该
算法
从最接近
测试数据
点的k近邻点出发,确定
测试数据
点是否属于某一准则。我想知道是否有一种方法可以预测标准,而不是
测试数据
集,因为
测试数据
集已经是提供数据集的一部分,而是在整个过程中没有提供的全新数据。 有办法用sci学习吗?
浏览 0
提问于2021-05-01
得票数 1
回答已采纳
1
回答
如何从模型中确定要报告的精确值?
、
因此,基本上我的模型是基于带袋的ANN,每次我在
测试数据
上运行代码时,我总是得到不同的精确值。比如我得到了33.8%(最好的),28.5%,26.7%等等。我非常确定这是每次我运行
算法
时在训练和
测试数据
之间拆分数据的结果。所以我的问题是:我是否应该在运行之前将数据拆分成训练和
测试数据
一次。然后,如果我再次运行
算法
,它将使用相同的训练,
测试数据
。
浏览 1
提问于2015-07-08
得票数 0
3
回答
具有已知全局最优的旅行推销员示例
、
、
我用Python语言为做了一个迷因
算法
。然而,我遇到的所有
测试数据
(城市之间的距离列表)都缺乏最佳解决方案的信息,所以我不知道我的
算法
离全局最优有多近。谁知道我在哪里可以找到一些tsp
测试数据
(最好是矩阵形式的,但任何都是好的)和已知的最佳解决方案?
浏览 1
提问于2010-06-02
得票数 6
回答已采纳
2
回答
使用以前训练过的模型来进一步预测catboost
、
、
、
我有训练数据和
测试数据
。我想运行这个
算法
,比如说500次迭代,然后对
测试数据
进行预测。接下来,我想重复600个迭代,然后700个迭代等等。我不想再次从迭代0开始。那么,有什么方法可以在Catboost
算法
中做到这一点呢? 任何帮助都是非常感谢的!
浏览 4
提问于2017-08-24
得票数 3
回答已采纳
2
回答
为什么.pyc文件的存在改变了我的代码的结果?
、
我有一个
算法
的测试用例,它在第一次执行后给出了不同的结果。第一个执行返回正确的结果,并为
测试数据
文件创建一个.pyc文件。当我删除
测试数据
的.pyc文件时,下一次执行将再次返回正确的结果(并再次创建一个新的.pyc文件)。 当我将
测试数据
移动到与测试用例本身相同的文件中(即避免创建.pyc文件)时,测试总是通过的。
浏览 5
提问于2016-12-20
得票数 0
1
回答
网站与
测试数据
文件的具体
算法
/数据结构?
、
、
是否有像SPOJ和欧拉项目这样的网站,为特定的
算法
/数据结构提供
测试数据
文件? 我知道单独解决这些问题是一个有趣的挑战,但是我正在寻找
测试数据
文件,其中明确提到了要使用的
算法
/数据结构。
浏览 0
提问于2012-02-11
得票数 5
1
回答
将数据帧转换为mldr对象以在BR
算法
中使用
、
我正在使用BR
算法
进行多标签预测。我需要将
测试数据
转换为MLDR对象。但是我没有做到这一点,因为
测试数据
没有结果列。因此,它不适用于我的
测试数据
,因为它没有结果列(标签索引)。如何进行转换?这样我就可以用
测试数据
来做预测了。
浏览 6
提问于2017-03-14
得票数 0
1
回答
过拟合与数据分割
然后用
测试数据
进行预测。例如:我把2000000分成两个相等的部分。1000000是训练,我把它除以验证,即1000000的30%,即300000,70%是我建立的模型,即700000。当我用列车建立模型时,我对它进行了过度拟合,这样我就可以用
测试数据
获得最大的AUC。 问:在这种情况下,过度适应不是很有用吗?
浏览 4
提问于2016-02-02
得票数 0
回答已采纳
1
回答
给出训练数据时
算法
参数设置的一般准则
假设
算法
有两个参数:para_b, it is an float between 0 and 1 这是一个直观的解决
浏览 8
提问于2015-09-28
得票数 1
1
回答
我们会在*测试*集上计算成本J(θ)吗?
、
、
在训练神经网络或其他学习
算法
时,我们将计算代价函数J(θ)作为我们的
算法
对训练数据的拟合程度的表达式(较高的值意味着它不太适合数据)。在训练我们的
算法
时,我们通常希望看到J(θ)随着梯度下降的每一次迭代而下降。 但我只是好奇,对我们的
测试数据
计算J(θ)有价值吗?我认为答案是否定的,因为我们只对
测试数据
进行了一次评估,我们只能得到J(θ)的一个值,而且我认为除了与其他值相比之外,它是没有意义的。
浏览 3
提问于2017-12-16
得票数 2
回答已采纳
2
回答
排序
算法
在K和NDCG上的精度计算
、
一种方法可以是在训练和
测试数据
集中划分历史数据(例如90%和10%)。现在,从
测试数据
中选择用户的所有项,并将顺序随机化,并将其传递给排序
算法
。 现在,从
测试数据
和排序输出比较用户的实际项。
浏览 0
提问于2020-01-08
得票数 2
1
回答
不同样本规模的Python计算Logistic回归
、
、
、
目前,我正试图在Python中实现一个基本的逻辑回归
算法
,以区分A和B。如果是这样,我怎样才能克服这个问题。
浏览 3
提问于2015-08-28
得票数 1
回答已采纳
1
回答
为什么在我的机器和AWS sagemaker上本地运行的SVM模型对相同数据的预测会有差异?
、
、
但在测试模型时,即使我对
算法
、相同的训练和
测试数据
使用相同的hyperparameters,我也会得到不同的输出。以下是我在本地运行时获得的
测试数据
的输出:在SageMaker中,我只得到了4个作为所有
测试数据
的输出。
浏览 0
提问于2018-10-11
得票数 2
1
回答
GATE工具中的机器学习
、
、
在使用GATE工具对训练数据运行机器学习
算法
(SVM)后,我想在
测试数据
上对其进行测试。我的问题是,我是否应该使用相同的训练数据进行测试,同时,模型如何从
测试数据
中提取实体,而
测试数据
没有使用训练数据中学习到的注释进行注释。
浏览 2
提问于2014-08-28
得票数 0
1
回答
如何防止
测试数据
泄漏到机器学习
算法
的训练过程中?
、
、
、
然后,我必须确保
算法
只对训练数据进行训练,并尽量避免
测试数据
泄漏到训练过程中。为了避免学习不重要的数据细节(这将提高
算法
的泛化能力),我可以将训练数据进一步分割成适当的训练集和验证集,并选择
算法
的参数,为所有这些分割提供最佳的平均性能。最后,我在测试集上对我的
算法
进行了评估,得到了一些数字: MSE,RMSE,等等。但是这些数字是否真的表明,我的
算法
有多好,并且它们不受测试集的影响?当然,我没有在训练期间使用我的
测试数据
,但是我得到的
算法
参数只对这种分
浏览 0
提问于2020-01-23
得票数 1
回答已采纳
1
回答
基于Viterbi
算法
的词性标注
、
我正在做一个项目,在这个项目中,我需要使用维特比
算法
对句子列表进行词性标注。对于我的训练数据,我有已经由单词标记的句子,我认为我需要解析这些句子并将其存储在某种数据结构中。然后我有一个
测试数据
,其中也包含每个单词都被标记的句子。任何帮助都将不胜感激。
浏览 4
提问于2014-02-27
得票数 1
2
回答
病理分选
、
、
不想让你的老板失望,你已经决定开发一种新的
算法
,比对某些数据集进行排序更有效。当然,您不能明显地表明该
算法
只适用于某些情况,因此您希望尽可能地使其模糊不清。该
算法
必须进行某种排序,因此依赖于已被完全排序的数据的
算法
(例如,不做任何操作的
算法
)或依赖于完全反向排序的数据的
算法
都是无效的。排序
算法
必须正确排序任何数据集。这里的要点是能够向你的老板证明你偶然发现了一种更好的分类方法,所以更多的
测试数据
更好。当然,您只会向老板展示好数据的测试结果,因此所需<e
浏览 0
提问于2014-05-14
得票数 15
回答已采纳
3
回答
为什么不在火车数据集上优化超参数呢?
、
、
许多人建议根据
测试数据
集中的性能选择超参数。我的问题是:为什么?为什么不在列车数据集中最大限度地提高超参数的性能,当我们通过
测试数据
集中的性能下降检测到过度拟合时,停止对超参数的训练?由于列车通常比测试大,这会不会比在
测试数据
集上训练超参数产生更好的结果?术语更改,以匹配下面的注释。在本文中,数据集现在被称为Train、Validation和Test。我不使用
测试数据
集进行培训。我正在使用GA来优化超参数。在外部遗传
算法
训练过程的每次迭代中,遗传
算法
选择一个新的
浏览 1
提问于2016-07-05
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何准备软件测试数据
Python Web 测试数据
这是一条测试数据
LeetCode测试数据的爬虫
在线测试数据生成器
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券