首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

怎样计算专利检索结果的查准率与查全率?

这几天连续收到好几个人私信问我关于专利检索的查全率和查准率的问题。很好奇竟然这么多人对这个概念感兴趣。

查全率与查准率是信息检索领域的基本概念,具体的定义大家可以直接在搜索引擎上查到。通俗地说,专利检索的查准率(precision)就是检索出的专利文献中相关专利的比例。例如检索的目标是查出计算机视觉相关的专利,检索式输入到系统中,找出来100篇专利文件,其中20篇是与计算机视觉相关的,我们就说这次专利检索的查准率是20/100=20%。专利检索的查全率(recall)就是检索出的相关专利文件中占所有相关专利文件的比例。还以上述例子来说明,如果整个数据库中的计算机视觉相关的专利文献是200篇,这次检索到20篇相关的,那么这次检索的查准率就是20/200=10%。

检索的查全率和查准率是衡量专利检索的重要指标。很多人会觉得,专利检索只要找到合适的结果就成,为什么还要计算查全率和查准率?

这实际上要从专利检索的类型与目标来看,专利检索和分析涉及的类型非常多,具体可以参见我以前写的文章企业常用的十八种专利检索分析报告,你需要哪种?。

每种专利检索对应的场景与解决的问题都不同,对查全率与查准率的要求也不同。例如在做新颖性检索与无效检索的时候,关键是要查准率,就是找到能够破坏新颖性、创造性的对比文件,至于数据中还有多少相关文件则无关紧要。但是在做专利风险分析(FTO)检索时,专利查全率就变得非常重要。再比如,检索的目标是查出竞争对手的所有相关专利,就要求很高的查全率。检索需要把竞争对手的所有可能的子公司或者实际控制的专利都查全。

那么如何计算查全率与查准率呢?查准率的计算非常简单,直接拿找到的相关文件与检索的总文献量做个小学生的除法即可。但是计算查全率就要相对麻烦一点,因为你不知道整个数据库中到底有多少专利是相关的。

查准率就相当于在水库钓鱼,我的目标是钓几条鲫鱼上来做一碗糖醋鲫鱼,只要钓到几条鲫鱼上来即可,而不用管整个水库中的鲫鱼总数是多少?假如现在钓鱼的目标发生变化,水库中被人放养了几条雀鳝鱼,这是一种外来入侵物种,如果不将它们清理掉,可能会破坏整个水库的生态,因此我们的目标就是把散落在水库中的几条雀鳝鱼一网打尽,这时候要的就是查全率。那问题是怎么知道已经把水库中的雀鳝鱼都钓上来了?如果你不把水库的水彻底抽干的话,是很难知道最终答案的。对于这个问题我们可以有个间接的办法来测算。这就是抽样测试的方法,例如对在水库中曾经抓到过的三条雀鳝鱼做过标志,比如尾巴上打个孔,然后放到水中,再重新开始钓鱼,结果钓上来了20条雀鳝鱼,之后再也钓不到雀鳝鱼了,把这20条雀鳝鱼拿出来数一数,发现原来做过标志的三条雀鳝鱼都被抓上来了。这时候我们就可以推断雀鳝鱼都抓上来了。如果我们只抓上来了两条有标志的雀鳝鱼,说明还有漏网之鱼,要继续改变检索的策略进行检索。

那么对于一次专利检索,如何计算检索查全率?道理其实一样,就是找到这个样本。一般以自己公司的的相关专利为样本,比如检索计算机视觉领域的相关专利,自己的企业就是从事这个领域的,肯定知道自己申请了多少专利,比如说确定了自己公司有100件计算机视觉相关的专利,那么计算查全率时,看检索的结果中,命中了自己公司的相关专利有多少件?假如检索找出了一万件相关专利,但是命中自己公司相关专利只有50件,那么说明还是未查全的,这个检索式就需要做调整。

查全率与查准率有时候是一对矛盾体,不同的检索类型和场景有不同的要求。查全率与查准率也是检验检索式是否合适的重要标准,计算检索查准率与查全率在专利检索中非常重要。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190911A05IQF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券