首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Mahout对多因素隐式数据的推荐

Mahout对多因素隐式数据的推荐
EN

Stack Overflow用户
提问于 2014-10-17 17:04:58
回答 1查看 205关注 0票数 1

您能为我提供一些使用多因素数据的mahout建议的详细信息吗?我有用户id,书籍,语言,类别等数据。假设,一个人读了一本类别为惊险小说的书,用法语写的。现在,考虑到所有这些事实,我需要向他推荐一本书。你能给我一些关于选择正确道路的见解吗?

EN

回答 1

Stack Overflow用户

发布于 2014-10-19 00:54:40

在Mahout 1.0中,我们为搜索引擎创建索引和查询的模型。

这些模型称为指标,是每个项目的相似项目列表。相似之处在于它们是由相同的人购买的。这就是同现推荐器的本质。

协同过滤数据是图书阅读量或ID。如果您推荐一本书,您可以为多种格式(电子书、录音、平装等)显示具有相同标题的其他ID。元数据可用于将recs向某个类别倾斜。语言可能是一个过滤器,除非你认为你的受众通常是多语种的。

通过向Mahout 1.0 spark-itemsimilairty提供购买信息来创建CF类型指示器。每本书都会有一份类似书籍的清单。在搜索引擎中索引这些内容。那么最简单的查询就是用户购买图书的历史记录。这将以有序的图书列表的形式产生无偏差的推荐。

现在,为了使结果偏向于用户最喜欢的类别索引,在索引中的单独字段中列出每个项目的类别。因此,该索引有一个“指标”字段和一个“类别”字段。"docs“实际上是目录中的项目/书籍。倾斜的查询是(伪代码):

代码语言:javascript
运行
复制
query:
   field: indicators; q: "book1 book2 book3 book10" //the user's purchase history
   field: categories; q: "user's-favorite-category user's-second-favorite-category"
   field: language; filter: "list-of-languages-of-books-the-user-has-purchased"

您可以将任意多个类别放入该字段的查询中,可能是用户购买的所有类别。注意语言过滤器的使用,您可能希望将其用作偏斜因子,而不是过滤器。通过这种方式,您可以无缝地集成由元数据倾斜或过滤的协作过滤recs,以获得更高质量的recs。可以使用任何您认为有用的元数据。

顺便说一句,如果你添加了你已经记录的其他动作,比如查看图书详细信息,你将获得更好的recs。这将需要一个特殊处理的指示器,称为交叉共现指示器,也是通过spark-itemsimilairty计算的。事实上,您可以包括用户采取的几乎任何操作--整个点击流作为单独的交叉同现指示器。这将大大增加协作过滤数据的数量,您可以在制作recs时使用,从而提高质量。

这个想法甚至可以扩展到对非书籍的项目的操作,比如类别。如果用户购买了一本书,在某种意义上,他们也购买了一个类别。如果您将这些“类别采购”记录为次要操作,并使用它们创建交叉同现指标,则可以使用它们来歪曲结果,并将其用作采购指标。查询将如下所示:

代码语言:javascript
运行
复制
query:
   field: indicators; q: "book1 book2 book3 book10" //the user's purchase history
   field: category-indicators; q: "user's-history-of-purchased-categories"
   field: categories; q: "user's-favorite-category user's-second-favorite-category"
   field: language; filter: "list-of-languages-of-books-the-user-has-purchased"

在这里阅读spark- index相似性:http://mahout.apache.org/users/recommender/intro-cooccurrence-spark.html这包括一些关于如何使用搜索引擎(Solr,Elasticsearch)进行索引和查询部分的讨论。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26421554

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档