在学习爬虫的过程中, 遇到过不少坑.
今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.
怎么个骤增法?...Intro 引例
在爬虫入门的时候, 我们爬取豆瓣电影Top250这些数据量并不是很大的网页时(仅计算文本数据量), 通常无需考虑数据存储的效率问题, 使用MySQL这些关系型数据库, 或者用TXT,...因此我们感觉不到上述方式的弊端.
起初, 我爬的数据量在几千条时, 我选择用MySQL作为数据存储的数据库, 爬取结束时, 存储的时间花了几秒, 我还没有太在意.
?...可以通过本地或者网络创建数据镜像,这使得MongoDB有更强的扩展性.
MongoDB支持RUBY,Python,Java,C++,PHP,C#等多种语言
Mongo支持丰富的查询表达式。...----
入门小白, 欢迎大家指出错误, 技术交流
部分资料来自百度百科, 菜鸟笔记, 维基百科
今日作者: 光光同学_
不爱看电影的摄影师不是好的程序员