Intro 引例
在爬虫入门的时候, 我们爬取豆瓣电影Top250这些数据量并不是很大的网页时(仅计算文本数据量), 通常无需考虑数据存储的效率问题, 使用MySQL这些关系型数据库, 或者用TXT,...CSV等文本格式存储, 都可以很快地存储完毕, Spider也可以跟着快速关闭....起初, 我爬的数据量在几千条时, 我选择用MySQL作为数据存储的数据库, 爬取结束时, 存储的时间花了几秒, 我还没有太在意.
?
但是当我爬取的数据量到了200M左右时, 问题非常明显了....此时用MySQL存储, 半小时都无法关闭Spider! 如果添加了查重, 时间将会指数增长.
而使用CSV存储, 虽然关闭花不了特别多时间, 但是打开关闭文件所需的时间同样不少!...这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
What's MongoDB
MongoDB是一种非关系型数据库, 是一个面向文档存储的数据库,操作起来比较简单和容易.