我正在编写csv文件,以便在沃森检索和等级服务中训练一个ranker,其中包含多行查询、"id_doc“、"relevance_score”、.
关于这个文件的结构,我有两个问题:
- the body and the title of the first document contain "manager"
- the body and the title of the second document contain "not manager"
因此,如果查询是“我是经理,我如何.?”那么第一份文件是正确的,而不是第二份文件。如果问题是“我不是经理”那么第二份文件是正确的,但不是第一份。
是否有任何特定的语法可用于以适当的方式编写查询?也许用布尔运算符?这个文件是应用这种过滤器的合适位置吗?
谢谢!
发布于 2017-04-27 14:30:22
是否有任何特定的语法可用于以适当的方式编写查询?也许用布尔运算符?这个文件是应用这种过滤器的合适位置吗?
正如您所暗示的,这个文件并不完全适合使用过滤器。培训数据将用于确定在优化Solr搜索结果的排序时应注意哪些类型的词汇重叠特性(有关更多信息,请参见这里的讨论:watson retrieve-and-rank - manual ranking)。
也就是说,您当然可以将至少两行数据添加到您的培训数据中,如下所示:
有了足够数量的这样的例子,希望评级者能够学会注意双字词的重叠特征。如果这不起作用,您当然可以使用预检测管理器与而不是管理器,并应用适当的筛选器,但我相信这是通过一个单独的参数(fq
?)...so完成的,您可能需要修改train.py
以适当地传递过滤器查询(默认train.py
接受完整的查询,并通过q
将其传递到/fcselect
端点)。
该文件中使用的相关性评分是否与网页界面相同?
不完全是这样,web界面使用1-4星级等级来改进数据收集的UI,但是在生成ranker的培训数据时,将星等压缩到一个较小的相关标签标度。我认为压缩给出了一个0
的相关性标签(即星等< 3),并通过了较高的星级等级,因此实际上有3个等级(尽管UI团队中的某个人可以在需要的情况下对细节进行澄清)。对于底层的排序算法来说,是非常重要的,因为糟糕的答案会得到0
的相关标签。
https://stackoverflow.com/questions/43630438
复制相似问题