为积极促进学术交流、分享经验、开拓视野、搭建丰富的学术交流平台,12月29日上午9点,管理学院在管理楼226教室举行知识讲座。由图书馆学教研室邀请大连理工大学WISE实验室的杨岳博士做题为《网络爬虫入门及Python实例介绍》的讲座。本次讲座由张文亮老师主持。管理学院科研团队成员、管理学院和政治学院的老师、研究生和部分本科生参加了本次讲座。
本次讲座以goosearch软件为依托、分为课程介绍和使用Twitter API下载社交网络数据两大部分。定向网络爬虫是一个向网页提交请求、获取网站服务器响应,获得网页数据的一个过程,分为获取和对获取内容的解析两个部分。在详细介绍了爬虫基本原理及Gooseeker后,大连理工大学情报学博士生杨岳与我们分享了如何使用Gooseeker爬取WOS数据,包括加载网页结构、建立标签+映射标签内容、单一页面规则制定:样例复制等六个步骤。最后,以爬取Baidu新闻页“十九大”相关内容作为实操练习。此外,使用Twitter API下载社交网络数据是作为网络爬虫的补充,API作为网络爬虫的补充,由第三方自动完成抓取过程和解析过程,定期进行更新,对待爬虫态度严谨,反爬虫技术好。
本次讲座使大家对网络爬虫有了更深层次的认识,提高了对goosearch软件的应用能力,也有利于培养大家潜心钻研、敢于探索、勇于创新的精神。学无止境,受益终身。希望大家能继续保持对知识的热爱之情,在前进的道路找寻更多美丽的风景!
文字:华梓茜
编辑:党思宇
审核:王文媛 华梓茜
领取专属 10元无门槛券
私享最新 技术干货