1、 艾漫数据坚持做这件事,就是为了剔除娱乐圈的“刷量及灌水行为”,无论是雇佣的职业发帖者刷出的无效声量,还是粉丝为爱豆过度刷数据的带来的虚高热度,都可能被认为是“灌水行为”。这一观点从去年315我们开始发该榜时就公开强调过,并不存在今天所谓的“偷换概念”。
2、脱水数据榜单,打击了“灌水行为”,势必伤害了部分粉丝的情感和某些人的利益,所以站在这一方立场,被骂、被怼是必然,我们接受。毕竟粉丝对爱豆狂热的爱应该珍视这是娱乐生态,这个不否认,它也恰恰反映了明星另外一个“粉丝忠诚度”的评估指标,今天暂且不论。但是如果站在广告主、影视方、演出商等所有与“明星市场转化”相关联领域的立场,他们是否更愿意看到真相,难道说要凭借无数小号、软件机器刷出来的热度去评判明星的价值?“明星的市场转化根本是计算明星背后有多少独立真实用户数,刷热度的机器不算有效用户,利用十几个、几十个小号刷热度的一个粉丝,也只能算一个有效用户。从某种意义上,雇佣的水军灌水与粉丝疯狂灌水造成的结果是一样的,这不是花不起花钱的问题。我们要做的就是通过脱水评估明星背后有多少真实活跃粉丝。
3、关于算法中网传“每月20条”完全是断章取义,从去年发布该榜,以及之后每月的榜单发布中,艾漫多次强调“条数”只是动态参数之一,是在进行了大量数据抓取和海量用户特征分析之后,利用通过机器学习和统计学算法计算得出的动态阈值。每隔一段时间,系统会根据现阶段“水军”发布的行为特征进行更迭,一年以来,随着平台管理政策的调整,水军发帖方式的升级,这一参数一直在动态变化中。
在算法中最重要的是识别灌水行为,指单日或者一定时间间隔内发布大量重复或者相似度很高的内容、某个时间段内密集连续发布信息、非常态时间段有规律发布信息、非正常粉丝社交关系等行为。我们采用文本去重算法来判断水军的这种现象,为达到在海量的数据中寻找相似文本的目标,利用改进后性能更优的最长公共子序列算法得出水军的相似内容。没有公布具体识别规则是基于很多规则在公布之后成为钻规则空子或打擦边球的标准。
这个算法重点意义是,去除掉灌水所带来的多余的水,这其中包含明显的机器或软件批量灌的水和粉丝抡出来的水,但是如果你的概念是,数据应该集中在哪些水军行为是花钱的,哪些水军行为是自发的,那很抱歉,这个不是大数据应该做的,其实雇佣水军和使用软件,可以是经纪公司行为,也可以是粉丝的行为。这是两个意识形态,意识形态不同的情况下,所有的算法都是错的。
4、网络生态,各个平台有各种数据,大家各有参考,当然更多是展现繁荣、火爆之势,放眼望去,明星刷数据已成为一种行业潜规则,一种标配,却鲜有人愿意去揭开背后的哪怕一点点真实,而艾漫所要做的就是“脱水”,给行业另一种参考值指标,当然站在某种立场,你可以不信,可以不接受,甚至各种谩骂、攻击,但我们相信行业需要这样的数据声音和参考指标,艾漫数据打击娱乐圈的“刷量及灌水行为”是现在坚持并一直会坚持的事情。
领取专属 10元无门槛券
私享最新 技术干货