首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >聚合百分比所需的算法帮助

聚合百分比所需的算法帮助
EN

Stack Overflow用户
提问于 2014-08-21 21:41:09
回答 1查看 77关注 0票数 2

我正在试图弄清楚如何构建一个特定的算法(最终是用PHP实现的,但这并不重要),但我很难想出最好的数学方法。这里我将使用一个疯狂的比喻,而不是定义一个复杂的特定于行业的流程(数学才是重要的)。想象一下,你正在尝试根据商店内售出的物品来确定特定品牌的汽车停在商店停车场的可能性有多大。首先,你对100,000个商店停车场进行了实际调查,记录了外面发现的每个独特的汽车品牌,商店内出售的每个独特的物品,以及该物品与商店的固定百分比相关性(例如:木材与家得宝的相关性为89%,但铅笔与沃尔玛的相关性仅为23% )。

我试图解决的问题有两个部分。首先,我试图找出将这些数据汇总到特定项目的最佳方法,同时尊重每个相关百分比和确认观察的数量(因此,一次发现并不等于100%的机会,类似于http://www.evanmiller.org/how-not-to-sort-by-average-rating.html )。换句话说,如果一家全新的、前所未见的商店出售沃特福德眼镜和羊绒毛衣,我们可以从这些商品中预测有89%的可能性是一辆奔驰车停在停车场。

所以重述一下:每件商品在商店里都被看到了特定的次数。对于每一次,都有不同的产品/商店相关性百分比和停车场中所有汽车制造的列表。我如何才能最好地计算出一个特定的人在一家全新商店的停车场上的机会百分比,只基于里面的物品?

现在,通过添加另一个抽象层,第二部分变得有点复杂。如果一个人访问了50家商店,我们汇总了所有这些商店的所有商品,我们可以预测他们开的是什么类型的汽车(例如:很多露营和徒步旅行商店,所以他们开吉普车的可能性为67% )。然后,如果他们访问一个新的商店,并接触到一个全新的商品,我们没有数据,我需要将67%的吉普车应用到新商品上(仍然考虑该商品与商店的相关性)。然后使用该项目的不确定吉普统计数据来影响我们对包含该新项目的停车场的预测(这从未被直接测量)。也许这需要我们添加某种置信区间?或者,如果我们分析的数百万项中的每一项最终都平均为50%,我们如何表示这种不确定性?

我真的很感谢你在这方面的帮助!

EN

回答 1

Stack Overflow用户

发布于 2014-08-22 00:04:26

我认为,你需要建立交叉相关矩阵,其中行是商品,列是汽车类型。每个单元格都包含归一化系数,一些好的(即钻戒)如何与车型(Geo或Mercedes)相关。

详情请参阅此处:

http://en.wikipedia.org/wiki/Cross-correlation

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25427894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档