我有超过20K个样本的gwas微阵列实验数据结果。每个样本具有大约1.000.000个标记的数值输出值。所以我有一个20000 x 1000000的理论表。我有几十个变量来构建查询。我的问题是如何以一种有效的方式创建这种数据库。对于这么大的数据量,MySQL是最好的选择,还是只依赖于服务器硬件?
提前谢谢。
我正在抓取一个包含2M数据的网页,用Watir滚动页面,而不是用Nokogiri获取数据。我可以通过一次请求获取所有数据。或者首先,将数据存储在散列中,然后保存到数据库中?textend
# User.import(users, batch_size: 1000) -> i can use batching
我应该将其直接保存到<e