首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用Scarpy框架简单的写个爬虫

    python提供了很多的框架供大家选择使用,今天给大家重点介绍下Python开发的一个快速、高层次的web数据抓取框架——Scrapy框架,它主要用于抓取web站点并从页面中提取结构化的数据。 Scrapy不仅在爬虫中应该广泛,优点也是很突出的,因为它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。 经常会在网上看到很多初学 Scarpy的小伙伴抱怨完全不清楚Scrapy该怎样入手,即便看的是中文的文档,也感到很难理解,这应该是大多数的学爬虫的困惑。我觉得大家之所以感到Scrapy难学,主要原因应该是其官方文档实在太过凌乱,又缺少实用的代码例子,让人看得云里雾里,不知其所已然。虽然有这样的困惑在,但依然阻挡不了他的吸引力,用过这个框架的都知道它应该是Python提供的框架中目前最好用的一个。其架构的思路、爬取执行的效能,还有可扩展的能力都非常出众,再配以Python语言的简洁轻巧,使得爬虫的开发事半功倍。 接下来我们就使用这个框架简单的写个爬虫,简单的获取下百度数据,代码如下所示:

    01

    Python脚本读取Consul配置信息

    先来说一下背景,为什么要写脚本去读Consul的配置信息呢?Consul是啥呢?consul是google开源的一个使用go语言开发的服务发现、配置管理中心服务。目前公司用的是这个东西去管理项目上的一些配置信息。公司的环境是通过docker镜像的方式去部署的,镜像是通过rancher去进行管理的。这一套东西面临的一个问题是:服务每次更新之后,服务对应的ip地址是动态变化的。每次需要使用swagger去测接口的时候,都要去rancher上去重新找新的ip地址,比较麻烦。正好呢,最近部门在考虑准备做接口自动化测试,到时候ip总是变的问题也是需要解决的,因此,就先写个脚本调接口获取配置信息,拿到某个服务的ip和端口信息。顺带的把swagger地址也打印出来,以后要访问某个服务的swagger地址就方便很多了。

    02

    听说你好不容易写了个爬虫,结果没抓几个就被封了?

    近来知乎上如雨后春笋般冒出了大把大把的爬虫教程。这是好事,学了 Python 基础的同学们可以很轻松地搜出许多练手的例子。不过我不是针对谁,我是说网上绝大多数的爬虫教程,其实都缺乏可操作性。 是的,也包括我自己写过的。 主要原因有两点: 教程是死的,网站是活的。页面会改版,接口会更新。一个爬虫教程的案例三个月之后还能有效已经是万幸了。比如我自己教程里的查天气案例,接口改动过很多次,数据也早就不更新。但发出去的文章被转发几次后就很难再维护更新了。我也只能在自己的论坛上发布更新消息和问题答疑。有需要的同学请在论

    09
    领券