首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >概率逻辑统计

概率逻辑统计
EN

Stack Overflow用户
提问于 2011-11-09 04:16:47
回答 1查看 65关注 0票数 0

我不确定这是否是提出这个问题的合适地方。因为这更像是一个逻辑问题..但是,嘿,问问也没什么坏处。假设我有一个巨大的数据(客户)列表,他们都有一个data_id,现在我想选择,比方说按比例拆分数据,比方说10:90拆分。现在,而不是陈述一个条件(示例)

代码语言:javascript
运行
复制
the sum of digits is even...go to bin 1
the sum of digits is odd.. go to bin 2
or sum of last three digits are x then go to bin 1
sum of last three digits is not x then go to bin 2

现在,这可能会导致不均匀的数据collection..sometimes,它可能能够找到数据。更多(这很好),但有时可能无法找到足够的数据

有没有一种方法(从概率上讲)说..样本大小始终大于x%

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-11-09 04:40:20

您希望按均匀分布的特征对数据进行分区。哈希函数被设计为具有此属性...因此,如果您计算客户ID的散列,然后按前n位进行划分以获得2^n个bin,则每个bin应该具有大致相同的项目数量。(然后,您可以选择,比方说,90%的回收站,以获得90%的数据。)希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8056557

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档