使用scrapy python提取Href

Scrapy是一个开源的Python框架，用于快速、高效地抓取和提取网页数据。它基于异步IO框架Twisted构建，并使用了XPath或CSS选择器进行数据提取。

使用Scrapy提取Href（超链接）的步骤如下：

安装Scrapy：可以通过pip安装Scrapy，命令为pip install scrapy。
创建Scrapy项目：打开命令行，进入想要创建项目的目录，执行命令scrapy startproject project_name，其中project_name为你的项目名称。
创建Spider：进入项目目录，执行命令scrapy genspider spider_name domain，其中spider_name为你的爬虫名称，domain为要爬取的网站域名。
编写Spider代码：打开spiders文件夹下的爬虫文件，一般命名为spider_name.py，在parse方法中编写提取Href的代码。

示例代码如下：

import scrapy

class MySpider(scrapy.Spider):
    name = 'spider_name'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        hrefs = response.xpath('//a/@href').getall()
        for href in hrefs:
            yield {
                'href': href
            }

运行Spider：进入项目目录，执行命令scrapy crawl spider_name -o output.json，其中spider_name为你的爬虫名称，output.json为输出结果的文件名。
获取提取结果：在项目目录下会生成一个名为output.json的文件，其中包含了所有提取到的Href。

使用Scrapy提取Href的优势是：