介绍
在博客:Python爬虫——爬取中国高校排名前100名并写入MySQL中,我们利用Python来写爬虫,将http://gaokao.xdf.cn/201702/10612921.html 中的大学排名表格爬取出来,并存入到MySQL中。
本次分享将用Java的Jsoup API来实现相同的功能,并将爬取到的数据存入到MongoDB数据库中。
准备
我们将在Eclipse中写程序,因此,需要下载以下jar包:
bson-3.6.3.jar
jsoup-1.10.3.jar
mongodb-driver-3.6.3.jar
mongodb-driver-core-3.6.3.jar
新建webScraper项目和jsoupScraper包,并将以上jar包加入到项目路径中,如下图:
webScraper项目程序
在jsoupScraper包下新建JsoupScaper.java文件,其完整代码如下:
运行
运行上述程序,结果如下:
程序运行结果
前往MongoDB数据库中查看,如下图:
MongoDB数据库结束语
该爬虫其实并不复杂,实现的原理也很简单,我们已经用能Java和Python来实现了。希望以后能写一些关于Java爬虫的文章,欢迎大家交流~~
领取专属 10元无门槛券
私享最新 技术干货