腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >两个独立数据集的特征选择

问两个独立数据集的特征选择
EN

Data Science用户

提问于 2021-07-29 07:30:22

回答 1查看 69关注 0票数 2

目前，我正在用实验数据进行研究。这些数据来自两个实验，两个稍微不同的任务，但相同的设置在一个虚拟现实环境。这两项实验都是在不同的人群中进行的，但参与者是相同的两组:健康对照者和特定类型的病人。

从实验数据中构造出了相同的特征集(超过200个特征)，并对两个数据集进行了提取。本研究的目的是应用机器学习，根据这些特征来区分患者与对照组。

由于任务略有不同，这两个数据集无法合并。因此，我使用特征选择方法分别为两个数据集选择最重要的特征，然后运行两个独立的模型。现在，这两种模型对于分类任务来说都表现得相当不错，但是依赖于非常不同的特性。

最后，我想找出在两个数据集中都具有共同的鉴别属性的特性。并为这两个数据集构建两个模型，但具有相同的功能集。

我能够很好地做到这一点，只考虑那些与两个数据集中的标签具有相同相关方向的特性，然后从这两个数据集最重要的30个功能中选择共同的特性。模型的性能不如单独的特性好，但仍然是相当可以接受的，而且令人惊讶的是，它似乎更加一致。

然而，我这种方法并不是基于我在文献中能找到的任何东西，它似乎只是一个合乎逻辑的选择，但我怀疑这样做是否完全有效。奇怪的是，我在文献中找不到任何东西来讨论不同数据集中特性的一致性。或者我只是不知道该去哪找..。

如果我不进行相关方向检查(这一点我最不确定)，我将得到一些在这两个数据集中以相反方式分布的特性。这并不是真正想要的，因为我想找到对分类任务有同样贡献的特性。

基本上，整个故事的结论可以归结为一个问题:是否有人知道如何有效地选择两个数据集中具有共同区分属性的特性？否则，是否有人有任何建议，如何处理他的问题，以不同的方式？

dataset

feature-selection

experiments

python

classification

回答 1

Data Science用户

发布于 2021-07-30 03:21:52

我不知道任何类似的文献，这可能太具体，但我不知道一切。不管怎样，我认为你的做法是有道理的。我不确定它是否有帮助，但条件熵也是计算个体特征的判别能力的一种选择。

假设模型的训练时间不长，您可以考虑更高级的设计，以便为这两个任务找到最优的公共子集。我认为遗传学习是一个很好的选择：

特征是要选择的“基因”。
对于每一个“个体”(特征子集)，为每个任务训练一个模型，并在一个验证集上进行评估。
定义基于对两个任务进行评估的报酬/成本函数，例如，使用平均性能。

这样，遗传算法应该收敛到最优的特征子集，从而最大限度地提高两个任务之间的平均性能。别忘了为最终评估保留一个单独的新测试集。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/99483

复制

git命令中带有特殊符号如@

git java

使用带用户密码clone的方式： git clone https://username:password@remote 当username和password中含有特殊符号会导致出错，因为为http的请求，所以需要将特殊符号encode成url格式的 java使用： String c = java.net.URLEncoder.encode(".","utf-8"); System.out.println(c); 源文档 <http://blog.csdn.net/qq1142003960/article/

千往

2018/01/24

2.1K0

攻击本地主机漏洞（中）

windows shell linux 单片机 https

Windows无人参与安装在初始安装期间使用应答文件进行处理。您可以使用应答文件在安装过程中自动执行任务，例如配置桌面背景、设置本地审核、配置驱动器分区或设置本地管理员账户密码。应答文件是使用Windows系统映像管理器创建的，它是Windows评估和部署工具包（ADK：Assessment and Deployment Kit）的一部分，可以从以下站点免费下载https://www.microsoft.com.映像管理器将允许您保存unattended.xml文件，并允许您使用新的应答文件重新打包安装映像（用于安装Windows）。在渗透式测试期间，您可能会在网络文件共享或本地管理员工作站上遇到应答文件，这些文件可能有助于进一步利用环境。如果攻击者遇到这些文件，以及对生成映像的主机的本地管理员访问权限，则攻击者可以更新应答文件以在系统上创建新的本地账户或服务，并重新打包安装文件，以便将来使用映像时，新系统可以受到远程攻击。

顾翔

2022/09/23

1.4K0

如何在 Linux 中创建带有特殊字符的文件？

linux

在 Linux 系统中，创建文件是进行各种操作的基础。有时候，我们需要创建带有特殊字符的文件，例如包含空格、特殊符号或非ASCII字符的文件。本文将详细介绍在 Linux 中如何创建带有特殊字符的文件，以便您能够轻松地完成这样的任务。

网络技术联盟站

2023/08/03

9960

如何在 Linux 中创建带有特殊字符的文件？

linux

网络技术联盟站

2023/07/14

9310

如何在网络中追踪入侵者（三）：主机追踪

安全大数据微信小程序音视频网络安全

在之前的文章中，我们专注于追踪和分析从网络中得到的数据。但事实上，在网络中追踪不是唯一的选项。在企业的主机和服务器上有大量的数据集来发掘未知的恶意行为，包括运行的进程，活动的网络连接，监听端口，文件系统遗留，用户日志，自动运行等等。而这些数据，难点只在于决定关注哪些点来开始你的追踪进程。一旦你决定关注的领域，你可以收集数据，查找可疑的异常，然后做进一步调查。在这个系列的最后一部分，我们将会描述利用免费工具在主机上进行追踪的一些要点。这些技术首先会帮你发现主机上恶意行为的一些线索——不管你有没有签名或者I

FB客服

2018/02/08

1.2K0

Web浏览器中的JavaScript

php javascript

奋飛

2019/08/15

7050

如何在 Linux 中设置主机名

linux

设置主机名，设置主机名成功后，不要忘记也要在 hosts 文件中配置下 127.0.0.1.

HoneyMoose

2020/05/19

3.7K0

如何在 Linux 中更改主机名？

linux 编辑器计算机网络系统

在 Linux 系统中，主机名是用于标识和区分网络上的不同计算机的名称。默认情况下，Linux 发行版会分配一个主机名给您的计算机，但是有时候您可能需要根据自己的需求更改主机名。在本文中，我们将详细介绍如何在 Linux 中更改主机名，以及更改主机名后可能涉及到的其他配置。

网络技术联盟站

2023/06/09

9K0

如何在主机上调试容器、在容器中操作主机

kubernetes 容器镜像服务

老板有个奇怪的需求，通过一个 kubeconfig 文件，获取主机的各种状态信息，比如进程列表、进程状态等。

陈少文

2021/01/13

2.5K1

如何在浏览器中快速将网络资源传至 COS ？

对象存储

COSBrowser Uploader 是一款浏览器的扩展程序，目前只支持 Chrome 浏览器。

wonders

2021/03/25

2.9K1

如何在小程序中调用本地接口

小程序微信

如何在小程序中调用本地接口背景：随着微信小程序开始公测，我司也拿到了AppID，所以开始了微信小程序的趟坑之旅。由于现在网上已经有很多的《微信小程序从精通到入门》的教程了，所以就不再重复那些，只是讲一下，在开发的过程中，如何使用本地（开发环境）的接口。因为小程序的开发文档中写到了，wx.request 中的URL只能是一个https请求，本地一般来讲是不会有https的-.- 所以我们使用Charles代理来实现需求。前提：本人认为你现在已经具备以下几个条件：具有微

贾顺名

2018/04/12

2.9K0

[教程]在带有vnc的kvm主机上重装windows原版系统

kvm windows

配置随意，系统需要为Windows，如果为linux请先DD为windows再进行继续操作

繁花云

2018/07/31

2.6K0

阶段六：浏览器中的网络

http

HTTP/1.0 关键词:多种类型文件、请求头和响应头、状态码、Cache 机制、用户代理

六个周

2022/10/28

3460

如何在Ubuntu 18.04上安装带有LEMP的WordPress

ubuntu wordpress php 云数据库 SQL Server linux

WordPress是互联网上最受欢迎的CMS（内容管理系统）。它允许您使用PHP处理在MySQL后端之上轻松设置博客和网站。WordPress已经看到了令人难以置信的运用，是一个快速启动和运行网站的绝佳选择。设置完成后，几乎所有管理都可以通过Web前端完成。

所有的酒都不如你

2018/10/10

1.2K0

如何在Ubuntu 18.04上安装带有LAMP的WordPress

ubuntu lamp wordpress php

WordPress是互联网上最受欢迎的CMS（内容管理系统）。它允许您使用PHP在MySQL后端上设置博客和网站。WordPress已经被大量采用，是一个快速启动和运行网站的绝佳选择。设置完成后，几乎所有管理都可以通过Web前端完成。

无敌小笼包

2018/07/26

2.6K0

如何在Chrome浏览器中运行Selenium？

selenium chrome 测试脚本浏览器

测试系统是一项艰巨的任务，您需要一个可以在此过程中为您提供帮助的工具。Selenium就是这样一种工具，主要用于网站测试。在本文中，我将告诉您如何在Chrome浏览器中运行Selenium。

用户8460142

2023/07/07

6640

攻击本地主机漏洞（上）

windows server windows 网络安全安全 bash

翻译“CompTIA PenTest Certification All-in-One Exam Guide Exam2019.pdf” 第十章

顾翔

2022/09/23

1.2K0

如何在CentOS 7上安装带有Caddy的WordPress

php 云数据库 SQL Server 数据库 sql 网站

WordPress是受欢迎的内容管理系统（CMS）。它可以用于快速，轻松地设置博客和网站，几乎所有的管理都可以通过Web界面进行。

子润先生

2021/06/15

1.9K0

点击加载更多

相似问题

通过sphinx搜索散列标签

如何在散列的散列中搜索某些键？

Twitter:散列标签搜索查询

散列标签、查询字符串和Ajaxified搜索结果

如何通过散列值在散列内的散列数组中进行搜索？

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问两个独立数据集的特征选择
EN