首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这里的乳腺癌表达量矩阵数据集更多

前面我们分享了 你还缺乳腺癌表达量数据集吗,里面有34个数据集,然后热心的粉丝留言了另外一个包:MetaGxBreast ,里面的数据集更多。...这个包MetaGxBreast整理好的数据集超级多: # 代号,具体数据集描述如下 CAL CAL DFHCC DFHCC DFHCC2 DFHCC2 DFHCC3 DFHCC3 DUKE DUKE...", "DUKE2", "EMC2"))[[1]] 这个 esets列表的每个元素都是一个 独立的ExpressionSet对象,后面可以做个性化分析,跟着下面的课程《GEO数据挖掘课程》即可:...《GEO数据挖掘课程》 我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站: 这个课程超级棒,B站免费学习咯:https://m.bilibili.com...有一个练习题:《GEO数据挖掘课程》配套练习题,关于这个课程学徒也写了一系列笔记:学徒写的《GEO数据挖掘课程》的配套笔记完结撒花

93320
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    精品丨分页报表—自助化分析与格式化数据

    随着PowerBI的展开,越来越多的用户需求Bowler格式化数据,微软将SSRS中的报表制作工具单独抽取出来,也就是我们本期所说的分页报表。...[1240] Power BI Report Builder相较于它的前身,它更像是为了云上服务而产生的。 它可以连接本地的数据源,也可以直接连接云上的数据集。...分页报表制作 首先,连接数据源,这里白茶选择连接云上的数据集。 [1240] [1240] 在添加PowerBI数据界面,可以看到白茶云上的数据集,选择分页报表Demo。...数据源已经添加完毕,添加数据集。 [1240] 在下图的位置,选择我们刚才添加的数据源。 [1240] 在查询设计界面,我们就可以设计数据集了。 [1240] 在下方界面,我们可以看到三个板块。...[1240] 将我们需要的字段分别拖到参数界面和查询界面。 [1240] 点击OK。 [1240] 接下来,我们添加一个矩阵,将字段添加。

    2.2K30

    DEAP数据集--一个重要的情绪脑电研究数据集(更新)

    该数据库是基于音乐视频材料诱发刺激下产生的生理信号,记录了32名受试者,观看40分钟音乐视频(每一个音乐视频1分钟)的生理信号和受试者对视频的Valence, Arousal, Dominance,Liking...生理信号采用512Hz采样,128Hz复采样(官方提供了经过预处理的复采样数据)每个被试者的生理信号矩阵为40*40*8064(40首实验音乐,40导生理信号通道,8064个采样点)其中40首音乐均为时长...Biosemi ActiveTwo脑电采集系统主要组成为:128 导的电极帽、信号接收器、A/D转换 器和一个正常运行的笔记本电脑。...此过程会持续5秒钟,屏幕上会有一个十字架提示符号,此时参与者尽量保持平静,记录脑电信号开始的标记; (3)音乐视频播放。...data_preprocessed_matlab文件夹和data_preprocessed_python文件夹 这两个文件夹内容相同,只是存储的格式不同。

    7.4K31

    如何对应两个不同单细胞数据集的分群结果?

    在单细胞转录组学研究中,将两个不同数据集的降维聚类分群结果进行对应是一个常见的问题,尤其是在跨样本、跨物种或跨实验条件的研究中。以下是几种常用的方法来实现这种对应关系: 1....数据整合(Data Integration) 数据整合是最直接的方法之一,通过将两个数据集合并到一个统一的分析框架中,消除技术变异和批次效应,从而进行统一的降维和聚类。...基于标记基因的对应(Marker Gene Matching) 如果不想进行数据整合,可以分别对两个数据集进行降维和聚类,然后通过标记基因来寻找对应的细胞群。...操作步骤: 分别降维和聚类:对两个数据集分别进行降维和聚类。 计算相似性:计算两个数据集中聚类之间的相似性(如Jaccard指数)。 匹配聚类:根据相似性得分找到最匹配的聚类。...总结 选择哪种方法取决于具体的研究需求和数据特点: 数据整合:适合需要统一分析两个数据集的情况,能够消除批次效应。 标记基因匹配:适合已知标记基因且不想进行数据整合的情况。

    12110

    ATCS 一个用于训练深度学习模型的数据集(A-Train 云分割数据集)

    The A-Train Cloud Segmentation Dataset 简介 A-Train 云分割数据集 ATCS 是一个用于训练深度学习模型的数据集,可对多角度卫星图像中的云进行体积分割。...该数据集由来自 PARASOL 任务上 POLDER 传感器的多角度偏振测量的时空对齐斑块和来自 2B-CLDCLASS 产品(使用 CloudSat 上的云剖面雷达 (CPR))的垂直云剖面组成。...数据集概览 A-Train云分割数据集旨在训练深度学习模型,从多角度卫星图像中体积分割云层。该数据集包含丰富的云层信息,适用于云检测研究。...资源获取 数据集由NASA开放,用户可以从其开放数据门户下载相关数据,进行云检测和深度学习算法的训练。...应用场景 除了云检测,该数据集还可用于气候研究、环境监测和其他遥感应用,推动相关研究的进展。

    8810

    迷人又诡异的辛普森悖论:同一个数据集是如何证明两个完全相反的观点的?

    在辛普森悖论中,餐馆可以同时比竞争对手更好或更差,锻炼可以降低和增加疾病的风险,同样的数据集能够用于证明两个完全相反的论点。 相比于晚上出去大餐,你和小伙伴也许更值得讨论这个吸引人的统计现象。...辛普森悖论指的是,数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象。 在上面餐厅推荐的例子中,你可以通过看男性和女性各组的评分,也可以看整体的评分。如下图所示。 ?...相关性反转 辛普森悖论的另一个有趣的现象表现在,分层组数据表现的相关性方向与整体数据表现的相关性方向截然相反。我们来看一个简化后的例子。...合并数据有时很有用,但有些情况下却对真实情况产生了干扰。 证明一个论点,又能证明其相反的观点 辛普森悖论也是政客们的常用伎俩。 ? 下面这个例证展示了,辛普森悖论是如何证明两个相反的政治观点的。...个人所得税受两个因素影响,但这张表格的数据只展示了其中一个。 辛普森悖论有何意义 辛普森悖论的重要性在于它揭示了我们看到的数据并非全貌。

    1.2K30

    聊一个基于波士顿矩阵的数据业务分析案例

    BCG矩阵将组织的每一个战略事业单位(SBUs)标在一种2维的矩阵图上,从而显示出哪个SBUs提供高额的潜在收益,以及哪个SBUs是组织资源的漏斗。...这一步需要做市场调查才能得到相对准确的数据。计算公式是把一单位的收益除以其最大竞争对手的收益。 3. 表明各项业务在BCG矩阵图上的位置。...确定纵坐标“市场增长率”的一个标准线,从而将“市场增长率”划分为高、低两个区域。比较科学的方法有两种: A. 把该行业市场的平均增长率作为界分点 B....确定横坐标“相对市场份额”的一个标准线,从而将“相对市场份额”划分为高、低两个区域。 BCG的布鲁斯认为,这个界分值应当取为2。他认为“任何两个竞争者之间,2比1的市场份额似乎是一个均衡点。...F、G两个品牌市场销售下降严重,有被C、D品牌替代的趋势,且在竞争中处于下风,并出现了滞销和亏损现象。 针对上述情况,根据波士顿矩阵原理,采取如下措施: 1.

    3.5K31

    Kannada-MNIST:一个新的手写数字数据集

    TLDR: 我正在传播2个数据集: Kannada-MNIST数据集:28x28灰度图像:60k 训练集 | 10k测试集 Dig-MNIST:28x28灰度图像:10240(1024x10)(见下图)...虽然这些数字符号是坎纳达(Kannada)语言,但是Kannada-MNIST数据集是为了替代MNIST数据集。...此外,我正在分发一个用同一种语言(主要是该语言的非本地用户)编写的10k个手写数字的额外数据集Dig-MNIST,可以用作额外的测试集。 资源列表: GitHub?...至于Dig-MNIST数据集,我们看到一些志愿者违反了网格的边界,因此一些图像要么只有部分字形或者笔划,要么从外观上可以说是它们可能属于两个不同类别中的任何一个。...通过训练Kannada-MNIST数据集并在Dig-MNIST数据集上进行测试而无需借助图像预处理来实现MNIST级的准确度。

    1.5K30

    使用Python从头开始手写回归树

    计算的平均值将数据分为两个的阈值。 首先让我们考虑随机阈值以演示任何给定的情况。...使用该阈值将训练数据分为两个(低和高部分),其中其中低部分将用于创建左子节点,高部分将用于创建右子节点。..., s = 3) plt.show() return thresholds[SSRs.index(min(SSRs))] 创建子节点 在将数据分成两个部分后就可以为低值和高值找到单独的阈值...这种树形结构远不止两个节点那么简单,所以我们可以通过如下调用它的子节点来检查一个特定的叶子节点。...更深入的模型 一个更适合回归树模型的数据:因为我们的数据是多项式生成的数据,所以使用多项式回归模型可以更好地拟合。

    1.6K10

    cypherhound:一个针对BloodHound数据集的终端应用程序

    关于cypherhound cypherhound是一款功能强大的终端应用程序,该工具基于Python 3开发,包含了260+针对BloodHound数据集的Neo4j密码。...除此之外,该工具还可以帮助蓝队研究人员显示有关其活动目录环境的详细信息。...功能介绍 cypherhound专为处理BloodHound数据而设计,并包含下列功能: 1、支持264种密码,可以根据用户输入(指定用户、组或计算机成员)设置要搜索的密码,支持用户定义的正则表达式密码...- 输出文件名称,不需要写后缀名 raw - 写入元数据输出(可选) example export 31 results export...- 用于显示此帮助菜单 (向右滑动,查看更多) 注意事项 1、该程序将使用默认的Neo4j数据库和URI; 2、针对BloodHound 4.2.0构建; 3、Windows用户必须运行:pip3

    32210

    多个单细胞数据集整合的另外一个选择conos

    但是如果你选择:单细胞降维聚类分群的另外一个工具选择Pagoda2,其实也有一个配套的单细胞数据集整合的算法选择conos,让我们来一起看看吧。...Conos对象 # 2.加载数据 #### ## 2.1 测试数据 ---- library(conosPanel) panel <- conosPanel::panel # panel是一个List...个单细胞表达量矩阵,经过了 basicSeuratProc 的处理,其实就是针对每个矩阵都独立的降维聚类分群啦,感兴趣的可以去看 basicSeuratProc 的源代码。...实例数据演示conos的整合 前面的包的安装和加载是一样的,这个时候不选择示例数据,而是 读取pbmc3k和5k数据集 : ## 2.1 读取pbmc3k和5k数据集 ---- library(conosPanel...pbmc3k和5k数据集 ,需要的两个文件 在我自己的电脑,不过如果你看完了以前的单细胞系列教程,应该是很容易自己去制作它。

    1.6K30

    使用一个特别设计的损失来处理类别不均衡的数据集

    :https://github.com/vandit15/Class-balanced-loss-pytorch 样本的有效数量 在处理长尾数据集(其中大部分样本属于很少的类,而许多其他类的样本非常少)...在这种情况下,唯一原型数N很大,每个样本都是唯一的。然而,如果N=1,这意味着所有数据都可以用一个原型表示。...类别均衡损失 如果没有额外的信息,我们不能为每个类设置单独的Beta值,因此,使用整个数据的时候,我们将把它设置为一个特定的值(通常设置为0.9、0.99、0.999、0.9999中的一个)。...类平衡提供了显著的收益,特别是当数据集高度不平衡时(不平衡= 200,100)。 结论 利用有效样本数的概念,可以解决数据重叠问题。...由于我们没有对数据集本身做任何假设,因此重新加权通常适用于多个数据集和多个损失函数。因此,可以使用更合适的结构来处理类不平衡问题,这一点很重要,因为大多数实际数据集都存在大量的数据不平衡。 ?

    36620

    使用一个特别设计的损失来处理类别不均衡的数据集

    :https://github.com/vandit15/Class-balanced-loss-pytorch 样本的有效数量 在处理长尾数据集(其中大部分样本属于很少的类,而许多其他类的样本非常少)...在这种情况下,唯一原型数N很大,每个样本都是唯一的。然而,如果N=1,这意味着所有数据都可以用一个原型表示。...类别均衡损失 如果没有额外的信息,我们不能为每个类设置单独的Beta值,因此,使用整个数据的时候,我们将把它设置为一个特定的值(通常设置为0.9、0.99、0.999、0.9999中的一个)。...类平衡提供了显著的收益,特别是当数据集高度不平衡时(不平衡= 200,100)。 结论 利用有效样本数的概念,可以解决数据重叠问题。...由于我们没有对数据集本身做任何假设,因此重新加权通常适用于多个数据集和多个损失函数。因此,可以使用更合适的结构来处理类不平衡问题,这一点很重要,因为大多数实际数据集都存在大量的数据不平衡。

    1.4K10

    如果你有一个很大的开发集,把它分为两个子集,只着眼于其中一个

    如果你有一个很大的开发集,把它分为两个子集,只着眼于其中一个 假设你有一个含有5000个样本的大型开发集,其中有20%的错误率。这样,算法对约1000个图片进行错误分类。...手动检查1000张图片是非常耗费时间的, 所以我们可能决定在错误分析中不使用所有的图片。 在这种情况下, 我会明确的将开发集分为两个子集,只看其中一个子集,另一个不看。...你可能会在你查看的那部分数据中过拟合,此时你可以使用那部分未使用的数据来进行调参。 继续上面的例子,在该例子中算法错误分类5000个开发集样本中的1000个。...(对于语音识别项目,你的数据集为语音,你需要一个一个听它们,你可以将它们称为Ear dev set)。因此,Eyeball开发集有500个样本,其中我们预计算法会错误分类约100个。...在这种情况下,你可能需要一个新的Eyeball开发集,将更多Blackbox开发集中的样本移至Eyeball中。也可以通过获取新的标注数据来获得。

    606100

    PyGWalker,一个用可视化的方式操作 pandas 数据集的库

    PyGWalker可以简化Jupyter笔记本的数据分析和数据可视化工作流程,方法是将panda数据帧转换为Tableau风格的用户界面进行可视化探索。...它集成了Jupyter笔记本(或其他基于Jupyter的笔记本)和Graphic Walker,后者是Tableau的另一种开源替代品。它允许数据科学家通过简单的拖放操作分析数据并可视化模式。...例如,您可以通过以下方式调用加载数据帧的Graphic Walker: df = pd.read_csv('....现在您有了一个类似Tableau的用户界面,可以通过拖放变量来分析和可视化数据。...若要创建由维度中的值划分的多个子视图的分面视图,请将维度放入行或列中以创建分面视图。规则类似于Tableau。 您可以查看表中的数据框架,并配置分析类型和语义类型。

    59510

    一个快速且易于使用的NGS数据集样本匹配检查工具

    高通量测序机器通量越做越大,单次上机可以做的样本越来越多,这也增加了样本搞混、搞重的概率,这时候需要有效的质控工具。 BAMixChecker是一个快速且易于使用的NGS数据集样本匹配检查工具。...它简单快速,但能准确检测来自同一个体的成对WGS、WES、RNA、靶向测序BAM/CRAM文件。 它一目了然地通知用户匹配或不匹配的样本。...肿瘤测序 通常对成对的 肿瘤组织 VS 癌旁组织(或全血淋巴细胞)进行测序,有的时候 因为样本众多,难免可能存在样本不匹配或者,样本与样本编号搞混的情况,BAMixChecker可有效排除这些情况。...在遗传病诊断和筛查领域也有可能存在一个样本被重复测序两次,或者怀疑样本搞错,对某个样本重采血和测序,需要分析重做的样本是否是原来检测的样本,这时候也可能需要用到BAMixChecker。

    11310
    领券