首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第二期:冷启动、模型算法选择、信息茧房、离线实时等

作者 | gongyouliu

编辑 | auroral-L

大家好,我是强哥。一个热爱暴走、读书、写作的人!

粉丝问题及解答

Q1

教育题库推荐系统的标签应该怎么打,使用什么策略?

答复:

这个应该需要根据教育行业制定一套具体的标签规则体系,在该体系下人工打标签或者将打标签作为一个分类问题,采用规则或者机器学习算法将物料映射到具体的标签。

具体的标签类别可以采用平展化的形式(所有标签是同一级的)或者递进的类目关系(标签有大类,每一大类下面还有小类)。标签的维度可以是从各个角度来描述物料,比如科目、知识点、难易程度等。

Q2

如果是新用户的冷启动场景,有比较好的建议吗?

答复:

新用户可以利用热门推荐或者编辑精选推荐,或者可以先将物料分类,从每个类别中挑选有代表性的作为推荐候选。也可以在用户注册使用时让用户选择自己的兴趣(比如如果是视频推荐,可让用户在使用之前勾选自己喜欢的视频)。冷启动用户也可以采用基于内容的推荐算法,这样只要用户有1个操作行为就可以为他做推荐了。另外迁移学习的技术也可以使用。具体可以参考我之前写的文章《推荐系统冷启动》(点击红色字体可以跳转阅读,下同),里面有非常多的介绍解决冷启动的方案。

Q3

如果内容库的内容比较少(但是流量很大),用什么模型比较有效?

答复:

常规的基于内容的推荐算法,协同过滤都是可以的。内容少,这样整个样本空间的稀疏度没有那么稀疏,矩阵分解等算法应该比内容多的情况更好一些。

Q4

构建内容库和特征库怎么选择算法呢,有什么标准和建议吗?

答复:

基于内容的推荐可以建议采用标签的推荐算法,这样实现也比较简单,基本所有业务场景都是有标签的,没有的话也可以利用NLP技术从描述文本中提取标签。

关于特征选择这个是比较依赖具体的模型的。建议可以从用户维度、物料维度、行为维度、场景维度、特征交叉维度等5个维度来构建特征。这里可以参考我写的这篇《推荐系统与特征工程》。

Q5

随着推荐系统越来越成熟,关于信息茧房等问题如何解决呢?

答复:

主要从两个方面吧,一是用户自身要有这种意识,二是企业维度。从用户维度,我们需要点击更多多样性的内容,这样驯化的推荐系统不至于陷入信息茧房的漩涡。二是企业也需要多为用户考虑,不能一味满足用户的兴趣,需要在推荐列表中增加一些探索性的用户没有接触到的内容形式。随着国家对算法的管控,未来企业评估推荐价值的目标会更加多元,这从某一方面也可以缓解信息茧房的情况。并且有了法律的保护用户未来也会更有控制权,企业也不敢太得罪用户。我觉得未来这种形式应该是可以缓解的。

Q6

离线算法和在线与离线结合的算法,这两种对服务器的投入各有何要求,对于初创企业的话至少需要投入多少?

答复:

离线算法是可以采用T+1的方式的,也就是按天计算,对企业要求相对较小。实时计算对数据处理及算法能力有更多的要求。主要还是看企业的产品吧,如果产品是那种快消类的(比如短视频、音乐、电商、新闻资讯类的)是有必要在一开始就构建信息流推荐的。

具体投入多少还得看你的用户规模。如果用户不多,我建议开始可以用单机搞定,没必要用Flink等分布式技术,先做出来是最重要的。然后随着用户规模的增长再采用分布式的技术重构。这样资源也比较可控一些。

Q7

推荐系统冷启动如何处理?

答复:

前面第2个问题已经讲解了冷启动了,这里不赘述。

Q8

推荐系统学习路线可以提供一点指导意见吗?

答复:

具体可以参考我之前写的一篇文章《从零开始入门推荐算法工程师》,或者根跟进我正在更新的一个新的系列《从零入门推荐系统》。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211015A01ER900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券