首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >培训、测试和验证数据集

培训、测试和验证数据集
EN

Data Science用户
提问于 2020-11-05 23:05:40
回答 2查看 390关注 0票数 3

我正在训练一个用于肿瘤分割的Unet模型。我有400名病人的数据集。使用的图像是CT扫描(3D图像),我将其划分为2D图像(总共30k 2D图像)。

我实际上将数据集分成: 10%的测试数据、18%的验证数据、72%的实际培训数据。我将测试和培训数据除以病人(即用于测试的患者与用于培训的患者不相同)。然后,我对二维图像进行洗牌,并在训练/验证数据集中进行分割(即在训练数据集和验证数据集中可以找到相同的患者,而不是相同的堆栈图像)。

我有两个问题:

  • 我是否也应该根据病人来划分列车/验证数据集?
  • 培训/测试/验证中的划分百分比是否适合我的问题?
EN

回答 2

Data Science用户

回答已采纳

发布于 2020-11-06 02:40:49

通常数字(百分比)并不重要。

重要的是你的分裂(训练/测试/验证)可以做两件事。表示真实世界的情景,并确保模型能够泛化,考虑到对抵抗集的评估。

那么这到底意味着什么呢?你有30k图像和400个病人。最有可能的病人(扫描)将彼此不同,所以你应该根据病人分开,也要确保模型可以泛化在稍微不同的图像分布上。

按百分比计算。您需要确保您在列车测试和验证中找到的东西代表了您的问题。这可能意味着病人分裂,其他特性分裂,检查数据的分布等等,但这并不意味着这仅仅是因为你在一组中有12%是你确定的。

那是什么意思。假设您有1000行数据。你将90%的数据分成10%,这样你就有100个数据点。但在900辆列车中,大多数都是相同的。他们和100点的持久战不同。这是个很好的分手吗?显然不是因为你的模型什么也学不到。

票数 2
EN

Data Science用户

发布于 2020-11-05 23:19:32

通常,您应该有一个60%的训练数据集和20%的验证以及测试集。我不熟悉肿瘤分割的事情,但只要相同的图像是不同的,与相关水平的差异,这是足够的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/85012

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档