首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开发集和测试集应该来自同一分布

6 开发集和测试集应该来自同一分布 根据市场情况,由于存在不同地区的用户,你可以把你的猫咪APP图片数据分为四个区域: (1) 美国 (2) 中国 (3) 印度 (4) 其它地区 为了生成一个开发集和测试集...,你可能会随机的分配两个地区的数据到开发集中,另外两个作为测试集。...比如:来自美国和印度的数据作为一类,来自中国和其它地区的数据作为另一类。 一旦你这样划分了数据集,你的团队可能会主要关注提高在开发集的上的性能。...测试集不一定比开发集更难识别,只是它们来自不同分布。...所以在开发集上表示好的算法并不能在测试集上表现良好。(如,美国和印度猫咪的数据可能就无法反映出中国和其他区域猫咪的数据)这种情况下,你之前对算法进行改进的努力可能都白费了。

37310

【数据集】开源 | 变点检测数据集,来自不同领域的37个时间序列,可以做作为变点检测的基准

J. van den Burg 内容提要 变化点检测是时间序列分析的重要组成部分,变化点的存在表明数据生成过程中发生了突然而显著的变化。...算法通常是根据模拟数据和少量不可靠的常用序列的ground truth进行评估的。显然,这并没有为这些算法的比较性能提供足够的评估标准。...因此,与其开发另一种变化点检测方法,我们认为在真实数据上正确评估现有算法更为重要。为了实现这一点,我们提出了第一个专门设计用于评估变化点检测算法的数据集,包括来自不同领域的37个时间序列。...随后,我们提出了一项基准研究,在数据集中的每个时间序列上评估了14种现有算法。...我们的目标是,该数据集将作为开发新的变化点检测算法的试验场。 主要框架及实验结果 ? ? 声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

1.7K00
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券