目前,我正在用实验数据进行研究。这些数据来自两个实验,两个稍微不同的任务,但相同的设置在一个虚拟现实环境。这两项实验都是在不同的人群中进行的,但参与者是相同的两组:健康对照者和特定类型的病人。
从实验数据中构造出了相同的特征集(超过200个特征),并对两个数据集进行了提取。本研究的目的是应用机器学习,根据这些特征来区分患者与对照组。
由于任务略有不同,这两个数据集无法合并。因此,我使用特征选择方法分别为两个数据集选择最重要的特征,然后运行两个独立的模型。现在,这两种模型对于分类任务来说都表现得相当不错,但是依赖于非常不同的特性。
最后,我想找出在两个数据集中都具有共同的鉴别属性的特性。并为这两个数据集构建两个模型,但具有相同的功能集。
我能够很好地做到这一点,只考虑那些与两个数据集中的标签具有相同相关方向的特性,然后从这两个数据集最重要的30个功能中选择共同的特性。模型的性能不如单独的特性好,但仍然是相当可以接受的,而且令人惊讶的是,它似乎更加一致。
然而,我这种方法并不是基于我在文献中能找到的任何东西,它似乎只是一个合乎逻辑的选择,但我怀疑这样做是否完全有效。奇怪的是,我在文献中找不到任何东西来讨论不同数据集中特性的一致性。或者我只是不知道该去哪找..。
如果我不进行相关方向检查(这一点我最不确定),我将得到一些在这两个数据集中以相反方式分布的特性。这并不是真正想要的,因为我想找到对分类任务有同样贡献的特性。
基本上,整个故事的结论可以归结为一个问题:是否有人知道如何有效地选择两个数据集中具有共同区分属性的特性?否则,是否有人有任何建议,如何处理他的问题,以不同的方式?
发布于 2021-07-30 03:21:52
我不知道任何类似的文献,这可能太具体,但我不知道一切。不管怎样,我认为你的做法是有道理的。我不确定它是否有帮助,但条件熵也是计算个体特征的判别能力的一种选择。
假设模型的训练时间不长,您可以考虑更高级的设计,以便为这两个任务找到最优的公共子集。我认为遗传学习是一个很好的选择:
这样,遗传算法应该收敛到最优的特征子集,从而最大限度地提高两个任务之间的平均性能。别忘了为最终评估保留一个单独的新测试集。
https://datascience.stackexchange.com/questions/99483
复制相似问题