00:00
博主最近在做搜索引擎数据采集项目,根据关键词在搜索引擎检索数据并采集加工,每一种搜索引擎都需要单独写代码,由于工程大家反爬虫机制太严格,导致项目进展很慢,偶然发现量数据CPEPI可以实现搜索引擎实时数据采集后,没花多少时间就成功完成了任务,并且得到了领导的夸奖。接下来跟着博主一起来体验一番。介绍页面往下翻,我们先来到c epi测试环境,有4种搜索引擎可以选择Google b等。这里我们选择Google引擎来测试。这个输入框可以输入需要检索的关键词,Domain, 可以调整检索的域名范围,默认即可。Language选择语言找到中文简体country可以选择国家,搜索类型可以选择文本、图片、购物、新闻、视频。Maps选择好以后点击搜索即可,很快就采集成功返回Jason格式的数据了。
01:07
当然,我们也可以用代码使用serve API进行采集。这里我们来到登录后的管理页面,选择第二个代理抓取基础设施,然后选择搜索引擎爬虫CRP,点击create zone.再点击添加,确定。创建成功后,选择language为Python,直接拷贝代码到编辑器。点击运行测试,就能正常返回网页源码了。小伙伴要问了,怎么像测试环境一样自定义配置呢?不要着急,这里我们来到SAPPAPI说明文档,查看谷歌引擎的配置进行测试。GR用于定义搜索国家,HR用于定义页面语言的双字母语言代码,这里我们可以添加一下中文配置,Q代表搜索的关键词,我们修改为iPhone时期多个参数用进行隔开。
02:24
HR=ZHN设置为中文。TBM用于定义搜索类型。Start用于管理分页。Norm定义要返回的结果数,配置一下norm=50。
03:07
最重要的是解析设置BRD_Json=1,就可以返回Json格式的结果。还有地理位置、设备、酒店、图片搜索等等,大家可以自行研究一下。接下来我们运行代码。啊,可以看到,成功返回了数据只需要几行代码,调用CRPAAPI会自动解决反扒措施,困扰我很多天的难题,如此简单就解决了,非常适合于网页抓取、数据采集、市场调研、AI训练等场景。许多新手用户刚开始接触量数据的产品及价格,对于代理及数据抓取、网页解锁等相关技术不熟悉,一时不知如何操作。目前量数据官网首页内嵌了chat g BT的专用人工智能,如有不懂的问题可以直接进行提问,接下来我们来测试一番。
04:12
提问,怎么使用代理IP?对于新手用户非常友好,感兴趣的小伙伴可以自行尝试。量数据的CSDN企业号。开源中国专区。Github中文区。知乎账号。微信公众号会定期更新爬虫相关知识和粉丝福利,还有优惠活动,感兴趣的小伙伴们可以自行搜索关注。
我来说两句