我不确定这是否是提出这个问题的合适地方。因为这更像是一个逻辑问题..但是,嘿,问问也没什么坏处。假设我有一个巨大的数据(客户)列表,他们都有一个data_id,现在我想选择,比方说按比例拆分数据,比方说10:90拆分。现在,而不是陈述一个条件(示例)
the sum of digits is even...go to bin 1
the sum of digits is odd.. go to bin 2
or sum of last three digits are x then go to bin 1
sum of last three digits is not x then go to bin 2
现在,这可能会导致不均匀的数据collection..sometimes,它可能能够找到数据。更多(这很好),但有时可能无法找到足够的数据
有没有一种方法(从概率上讲)说..样本大小始终大于x%
谢谢
发布于 2011-11-08 20:40:20
您希望按均匀分布的特征对数据进行分区。哈希函数被设计为具有此属性...因此,如果您计算客户ID的散列,然后按前n位进行划分以获得2^n个bin,则每个bin应该具有大致相同的项目数量。(然后,您可以选择,比方说,90%的回收站,以获得90%的数据。)希望这能有所帮助。
https://stackoverflow.com/questions/8056557
复制