首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

概率统计——为什么条件概率的结果总和直觉不同?

我们知道,两个孩子的性别是独立事件,其中有一个为女孩的概率等于1减去两个都是男孩的概率,两个都是男孩的概率等于 ? 所以至少有一个女孩的概率等于3/4。同理,两个都为女孩的概率是1/4。...还是之前题目里的夫妻,还是那两个孩子(至少有一个是女孩)。不同的是,假设有一天我们在公园碰见了这一对夫妻。不过,与此同时,夫妻还带了一个孩子。...我们遇见一个女孩的条件下,两个都是女孩的概率是 ? 这里潜在的信息是,我们在公园遇见一个孩子,他是男是女的概率是不同的。我们遇见了女孩,会改变剩下一个孩子是女孩的概率。...这样理解都行得通,但还是没有解决我们之前的疑惑,为什么看起来完全一样的两件事,得到的结果不同呢?就因为我们看到了其中的一个孩子吗?可是我们看到孩子,与孩子的性别的概率应该无关才对。...我们看孩子之前,两个孩子是一体的,我们看了一眼之后,这两个孩子就区分开来了。我们看之前,这是两个孩子,看了之后,就成了我们看过的孩子和没看过的孩子。从物理学上来看,这两者的熵是不同的。

1.3K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Seurat软件学习8-不同细胞类型样本的分析流程

    我们引入新的 Seurat 函数用于: 计算每个细胞的干扰的特定特征。 识别并移除“逃脱”CRISPR 干扰的细胞。 可视化不同干扰之间的异同。...我们希望得到出现特定现象的细胞类群,但我们发现类群主要由细胞周期阶段和复制 ID 影响的。 我们只观察到一个包含细胞表达 IFNgamma 通路 gRNA 的扰动特异性簇。...我们进一步假设 NP 细胞的分布与表达非靶向 gRNA (NT) 的细胞的分布相同,并且我们尝试使用 mixtools 包中的函数 normalmixEM() 来估计 KO 细胞的分布。...接下来,我们计算一个细胞属于 KO 分布的后验概率,并将概率高于 0.5 的细胞分类为 KO。 应用这种方法,我们在 11 个目标基因类别中识别 KO,并检测每个类别中 gRNA 靶向效率的变化。...,我们可以使用下面的函数来查看目标基因类(例如 IFNGR2)内细胞的扰动分数分布和后验概率,并将其与 NT 细胞的那些进行比较。

    76330

    28个样本,4种不同分析方法的比较发了9分?

    Investigations of sequencing data and sample type on HLA class Ia typing with different computational tools 用不同的计算工具对...图1:HLA分型表现 移除28例样本中低表达的两例HLA基因的样本后,从RNA-seq数据中提取4位分辨率的 HLA分型的OptiType的准确性提高为98.72%,表明HLA基因的低表达可能降低...表1.不同方法下HLA分型的准确性 2、测序深度对准确性的影响 在不同的全外显子测序深度下,作者发现,基于WES数据,OptiType准确性不受影响, Phlat的准确性缓慢提高;Polysolver...图2:测序深度对准确性的影响 3、不同样本类型和计算机模拟后的准确性比较 将来自肿瘤组织和对照PBMC样本的WES数据的HLA 分型准确性比较(图a ),发现正常PBMC样本的准确性结果大多高于肿瘤组织...图3:不同样本类型和计算机模拟后的准确性比较 小结 本篇文章的研究思路和过程较为简单,作者对28例癌症患者进行FFPE肿瘤组织和匹配正常样本的全外显子测序和肿瘤样本的RNA测序。

    1.4K30

    比较不同的对单细胞转录组数据寻找差异基因的方法

    背景介绍 如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同的差异基因算法的表现。...对单细胞测序数据来说,通常需要先聚类之后把细胞群体进行分组,然后来比较不同的组的差异表达情况。当然,也有不少单细胞测序实验设计本身就有时间点,不同个体来源,不同培养条件这样的分组!...同时还有不少方法是不需要预先分类的,因为分类本身就会引入偏差。 跟bulk RNA-seq不一样的地方是,scRNA-seq通常涉及到的样本数量更多。...下面用一个测试数据来评价一下不同的算法的表现。处理同样的表达矩阵得到差异结果跟已知的差异结果进行比较看看overlap怎么样。...其次它对大样本量太敏感了,可能其实差异并不大,但是样本数量很多,也会被认为是显著差异。

    8.9K111

    数据分析师必须掌握的统计学知识!

    随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。 既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。...正态概率密度函数为: ? u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。...) ● z在给定的两个值之间的概率 如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735 ● z大于或者等于某个给定值的概率 如:P...2、抽样分布 其实当我们抽样的时候,我们抽取的每个样本的均值、方差、比率,可能都是不同的,如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是...● 使用判断或最优猜测作为计划值 ● 如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。 五、假设检验 何为假设检验?

    68631

    数据分析师必掌握的统计学知识!

    随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。 既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。...正态概率密度函数为: ? u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。...) 2. z在给定的两个值之间的概率 如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735 3. z大于或者等于某个给定值的概率 如...抽样分布 其实当我们抽样的时候,我们抽取的每个样本的均值、方差、比率,可能都是不同的,如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是...如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。 05 假设检验 何为假设检验?

    91720

    单细胞测序—不同格式的单细胞测序数据读写(多样本)

    单细胞测序—不同格式的单细胞测序数据读写(多样本)这里记录下不同格式的单细胞测序数据读写,存在5种常见的单细胞测序数据。...这里的 if语句检查 tmp 是否包含两个数据层:if(length(tmp) == 2):如果 tmp 的长度为2,说明它包含两个不同的数据层(如gene expression和 protein expression...sceList-1表示 sceList列表中除了第一个对象以外的所有对象。add.cell.ids = samples:为每个样本的细胞添加唯一的标识符,这样在合并后可以区分不同样本的细胞。...samples 是样本名称的列表,这些名称将作为每个样本细胞的前缀。合并后,sce.all 是一个包含所有样本的单个Seurat对象,包含所有细胞的基因表达数据。...Seurat对象可以包含多个数据层(如 counts、data、scale.data),不同的数据层表示数据在不同处理阶段的信息。

    85211

    DRL实验中到底需要多少个随机种子?

    极值的含义是远离零假设的数值,即 ? 的数值远离0。概率的值可以回答下面的问题:观测一个样本或更加极端的样本出现的概率,假设两个算法的表现没有本质的不同时。...的概率百分比 ? 之间(如α=0.05,范围则为2.5th和97.5th)。 Bootstrap的样本数量B 需要选择相对较大的值(如1000)。如果置信区间的范围不包含0,这就意味着置信为 ?...步骤2 - 选择样本大小 给定一个统计测试(如Welch's test),一个显著等级α(如 α =0.05)和Algo1、Algo2的经验估算标准偏差,可以计算得到β,通过基于样本容量 N 和影响因子...将样本容量提高到10时,原本在样本容量为5的情况下不能被识别的显著差异就显示出来了。有更多的随机种子,估算的 ?...首先,基于实验数据,需要计算第一种错误概率的经验评估,并展示:1)bootstrap测试对小样本容量极度敏感;2)t-test的结果可能会对非正太分布的数据有偏差。

    1.2K10

    强化学习实验里到底需要多少个随机种子的严格证明

    极值的含义是远离零假设的数值,即 ? 的数值远离0。概率的值可以回答下面的问题:观测一个样本或更加极端的样本出现的概率,假设两个算法的表现没有本质的不同时。...的概率百分比 ? 之间(如α=0.05,范围则为2.5th和97.5th)。 Bootstrap的样本数量B 需要选择相对较大的值(如1000)。如果置信区间的范围不包含0,这就意味着置信为 ?...步骤2 - 选择样本大小 给定一个统计测试(如Welch's test),一个显著等级α(如 α =0.05)和Algo1、Algo2的经验估算标准偏差,可以计算得到β,通过基于样本容量 N 和影响因子...将样本容量提高到10时,原本在样本容量为5的情况下不能被识别的显著差异就显示出来了。有更多的随机种子,估算的 ?...首先,基于实验数据,需要计算第一种错误概率的经验评估,并展示:1)bootstrap测试对小样本容量极度敏感;2)t-test的结果可能会对非正太分布的数据有偏差。

    1.6K30

    一文看懂数据预处理最重要的3种思想和方法

    从这个角度,聚集是删除属性(如商品类型)的过程,或者是压缩特定属性不同值个数的过程,如将日期的可能值从365天压缩到12个月。...由于抽样是一个统计过程,特定样本的代表性是不一样的,因此最好能做的就是选择一个抽样方案,以确保以很高的概率得到有代表性的样本。如下所述,这涉及选择适当的样本容量以及抽样技术。 1....另一种变种是从每一组对象抽取的样本数量正比于该组的大小。 例2.8抽样与信息损失 一旦选定抽样技术,就需要选择样本容量。较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。...然而,按照该方法,我们需要确定样本的容量,它以很高的概率确保得到期望的结果,即从每个簇至少找出一个代表点。 图2.10b显示了随着样本容量从10变化到60,从10个组的每一个组中得到一个对象的概率。...尽管预测模型的准确率随样本容量的增加而增加,但是在某一点准确率的增加趋于稳定。我们希望在稳定点停止增加样本容量。

    1.3K10

    强化学习实验里到底需要多少个随机种子的严格证明

    极值的含义是远离零假设的数值,即 ? 的数值远离0。概率的值可以回答下面的问题:观测一个样本或更加极端的样本出现的概率,假设两个算法的表现没有本质的不同时。...的概率百分比 ? 之间(如α=0.05,范围则为2.5th和97.5th)。 Bootstrap的样本数量B 需要选择相对较大的值(如1000)。如果置信区间的范围不包含0,这就意味着置信为 ?...步骤2 - 选择样本大小 给定一个统计测试(如Welch's test),一个显著等级α(如 α =0.05)和Algo1、Algo2的经验估算标准偏差,可以计算得到β,通过基于样本容量 N 和影响因子...将样本容量提高到10时,原本在样本容量为5的情况下不能被识别的显著差异就显示出来了。有更多的随机种子,估算的 ?...首先,基于实验数据,需要计算第一种错误概率的经验评估,并展示:1)bootstrap测试对小样本容量极度敏感;2)t-test的结果可能会对非正太分布的数据有偏差。

    83520

    【学习】数据挖掘中分类算法小结

    客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征...,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。...另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。...Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。...Bayes 方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。

    855110

    数据挖掘分类方法小结

    客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征...,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。...另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。...5、Bayes法 Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。...经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。 Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。

    1K70

    PQ-M及函数:实现Excel中的lookup分段取值(如读取不同级别的提成比例)

    小勤:我现在有个按营业额不同等级的提成比例表,怎么用Power Query读到营业额数据表里?如下图所示: 大海:这个问题如果是在Excel里的话,用Lookup函数非常简单。...,类似于在Excel中做如下操作(比如针对营业额为2000的行,到提成比例表里取数据): 那么,Table.SelectRows的结果如下图所示: 2、在Table.SelectRows得到相应的结果后...大海:这其实是Table.SelectRows进行筛选表操作时的条件,这相当于将一个自定义函数用于做条件判断,其中的(t)表示将提成比例表作为参数,而t[营业额]表示提成比例表里的营业额列,而最后面的[...营业额]指的是数据源表里的营业额,这里面注意不要搞乱了。...大海:PQ里的函数式写法跟Excel里的公式不太一样,慢慢适应就好了。

    1.9K20

    生成模型和判别模型

    基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。...判别方法的特点: 判别方法寻找不同类别之间的最优分类面,反映的是异类数据之间的差异; 判别方法利用了训练数据的类别标识信息,直接学习的是条件概率 或者决策函数 ,直接面对预测,往往学习的准确率更高;...由于直接学习条件概率 或者决策函数 ,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。...缺点是不能反映训练数据本身的特性 生成方法 由数据学习联合概率密度分布 ,然后求出条件概率分布 作为预测的模型,即生成模型: image.png 基本思想是首先建立样本的联合概率概率密度模型...生成方法的特点: 从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度; 生成方法还原出联合概率分布,而判别方法不能; 生成方法的学习收敛速度更快、即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型

    71130

    python数据分析——在数据分析中有关概率论的知识

    前言 参数和统计量在数据分析中起着至关重要的作用。参数是对总体特征的描述,如均值、方差等,而统计量则是基于样本数据计算得出的,用于估计或推断总体参数的值。...一、总体 在统计学中,总体是指包含所研究对象的全部数据(也称个体)的集合,它通常由所研究的数据记录组成,如由多个企业构成的数据集合,多个家庭构成的数据集合,多个自然人构成的数据集合。...由于样本来自于总体,但是要把零散的信息集中起来反映总体的特征,就需要对样本进行加工,一种有效的办法就是构造样本的函数,不同的函数反映总体的不同的特征。...寻找统计量的精确的抽样分布,属于小样本问题,对任意一个n,求出给定统计量的精确分布的问题。另外一个是大样本问题,当统计量的精确分布得不到时,设法求出它的极限分布的问题。...19.2样本比例的抽样分布 样本比例函数是指从总体中随机抽取容量为n的样本,某一特征出现次数占样本容量n的比例,其抽样分布就是样本比例函数的概率分布。

    23810

    没有最好,只有AB测试!

    比如我们常说 z 检验适用大样本而 t 检验适用于小样本。实验组的样本容量 > 30,所以我们这里采用 z 检验。...z 检验统计量: z 检验虽然能够进行样本统计量的差异性检验,但是它要求样本容量足够大,这是不一定能够做到。...统计量好理解,比如上面的实验统计量为:[0, 0.28],如果你的实验的统计量为 [0.2, 0.48],自然范 II 类错误的概率会小很多; 增加样本容量可以同时减少两类错误,这个也很好理解; 与 I...增加样本容量可以同时减少两类错误,那么我们应该需要多少样本容量呢?...实际 A/B 测试中,我们关注的较多的一类是比例类的数值,如点击率、转化率、留存率等,也就是说结果非 A 即 B。比例类数值的假设检验在统计学中叫做两样本比例假设检验。

    1.6K30
    领券