今天审一个稿子,谈到了使用数据挖掘中的关联强度作为研究疾病问题的方法,由于本人不大熟悉,就查了一下这篇文章的前一个文献,那是2013年发表在《中国卫生统计》杂志上的一篇文章,这个方法其实关键就是三个指标:1)规则支持度,就是疾病A与疾病B的联合概率;2)置信度是A下的B的条件概率;3)提升比,即B的条件概率比上B的非条件概率。
文章就是通过算得这几个指标,描述疾病间的相关,比如高血压与高血脂等等。看了文章后,我有点疑惑,很可惜,如果那篇文章也是我审的,我一定会向作者好好学习一下。可是现在,我只好发布在这里,盼望有缘人帮我一把。
在那篇文章里有几件事是困惑我的:
一、为啥要用这个关联强度而不直接用回归呢?我觉得可以使用普通的相关系数来解决呀?可以采用回归呀?最起码回归有更完善的处理共线性等问题的手段;
二、无论该文献还是现在审的这篇,都提到了用随机样本,那我就想问一下,既然是样本,难道不存在一个样本推断总体的问题么?可以直接就用这几个度说事么?文一点的说法就是:光有点估计,没有区间有意义么?
三、也是最关键的一点,疾病的相互关系与购物不同,甚者发病的先后次序你都搞不清楚,那么你又怎么来使用条件概率呢?
因此,真心希望懂的人赐教一二,就此谢过!
领取专属 10元无门槛券
私享最新 技术干货