Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >分布式爬虫部署[通俗易懂]

分布式爬虫部署[通俗易懂]

作者头像
全栈程序员站长
发布于 2022-11-17 02:56:05
发布于 2022-11-17 02:56:05
72800
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

服务器端】

1.下载redis ,Redis Desktop Managerredis。

2.修改配置文件(找到redis下的redis.windows.conf 双击打开,找到bind 并修改为0.0.0.0,然后 protected-mode “no”

3.打开cmd命令行 进入redis的安装目录,输入redis-server.exe redis.windows.conf 回车,保持程序一直开着。

如果不是这个界面,证明redis服务已经开启了,需要

redis-cli shutdown

重新输入一次redis-server.exe redis.windows.conf

4.主机开启redis服务之后,不要断开,切记!!! 进入redis安装目录,输入:redis-cli.exe -h 主机(或者别人的)ip地址(-p 端口号6379(可以不用写)),也可以直接redis-cli -h 主机ip 地址用来测试是否可以远程连接redis(如果回车之后没有出现如图效果,检查自己的bind是否修改以及redis服务是否被自己关闭)出现如下表示可以远程连接redis

如果想要操作数据库连接中指定数据库(默认的是数据库0),比如操作数据库5可以在命令行输入:redis-cli -h 192.168.0.1 -n 5

详情参考:Redis在命令行中操作指定数据库下的key – 简书

5在Redis Desktop Managerredis中创建连接,一定要HOST设置成本机的ip,不要是127.0.0.1,要不然分机程序一运行就会一直停顿。

6,向redis输入链接,lpush bole:start_urls 网址

模板:lpush redis_keys 网址

【爬虫端部署】

爬虫分两种流派,一种是有规则的,一种是无规则的。运行方式各有不通。

共同点:setting.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
LOG_LEVEL='DEBUG'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'dushu_redis (+http://www.yourdomain.com)'
#配置去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#配置调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
#setting.py 
ROBOTSTXT_OBEY=False
DOWNLOAD_DELAY = 1
REDIS_URL = 'redis://root:@192.168.0.105:6379/0'
ITEM_PIPELINES = {
    #'dushu_redis.pipelines.DushuRedisPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

(1)【有规则的爬虫】这里一定要开启爬虫过滤 ,否则在有些版本,无法过滤

def make_requests_from_url(self, url): return scrapy.Request(url, dont_filter=False)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import scrapy
from scrapy.spiders import Rule
#from scrapy_redis.spiders import RedisSpider
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider
class GuoxueSpider(RedisCrawlSpider):
    name = 'bole'
    # start_urls = ['http://blog.jobbole.com/all-posts/']  
    # 添加键
    redis_key = 'bole:start_urls'
    rules = (
        # follow all links
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )
    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(GuoxueSpider, self).__init__(*args, **kwargs)
    def make_requests_from_url(self, url):
        return scrapy.Request(url, dont_filter=False)
    def parse_page(self, response):
        aa=response.css('title::text').extract_first()
        print(aa)
        return {
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

运行方式 在爬虫的根目录运行scrapy crawl 爬虫名

(2)【无规则的爬虫】

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from scrapy_redis.spiders import RedisSpider

class GuoxuespiderSpider(RedisSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'myspider'
    redis_key = 'bole:start_urls'

    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(GuoxuespiderSpider, self).__init__(*args, **kwargs)
    def make_requests_from_url(self, url):
        return scrapy.Request(url, dont_filter=False)
    def parse(self, response):
        aa=response.css('title::text').extract_first()
        print(aa)
        return {
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

运行方式:

Redis DeskTop Manager 使用教程 – King-DA – 博客园

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/213742.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月26日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌宣布支持使用Rust开发Chromium
谷歌计划在其开源浏览器项目 Chromium 中支持使用第三方 Rust 库,这是对 Rust 编程语言及其安全特性的一次重大认可。
深度学习与Python
2023/03/01
6700
谷歌宣布支持使用Rust开发Chromium
【2023 Week-2】Rust视界周刊 | Google 官宣在 Chromium 项目中支持使用 Rust
Rust 1.66.1 修复了 Cargo 在使用 SSH 克隆依赖项或注册表索引时不验证 SSH 主机密钥的问题。此安全漏洞被跟踪为 CVE-2022-46176[1]。所有包含 1.66.1 之前的 Cargo 的 Rust 版本都容易受到攻击。
张汉东
2023/03/06
1.6K0
【2023 Week-2】Rust视界周刊   | Google 官宣在 Chromium 项目中支持使用 Rust
谷歌“宠爱”升级,Rust 大步跨入 Android 平台
作者|褚杏娟、万佳、王强 “很高兴看到 Rust 在越来越多的项目中发挥作用。” 近日,谷歌宣布 Android 开源项目(AOSP)现已支持使用 Rust 编程语言来开发 OS。这一举动让正火的 Rust 语言热度再次上涨。 要用 Rust 解决什么问题? 目前,Android 项目主要用两种语言构建。Java(以及最近出现的与 jvm 兼容的语言,如 Kotlin) 已被用于操作系统的上层部分,如 UI 部分;在内核、驱动程序等 OS 的基础层面,则通常用 C 编写,有时也会使用 C++。 为了更适合
深度学习与Python
2023/04/01
1.8K0
谷歌“宠爱”升级,Rust 大步跨入 Android 平台
Android 平台基础支持转向 Rust(zdnet)
2021 年 4 月 7 日,zdnet 发布文章:Android 平台基础支持转向 Rust。2021 年 4 月 6 日,谷歌宣布,Rust 可以在 Android 开源项目内部使用。
niqin.com
2022/06/30
4790
Android 平台基础支持转向 Rust(zdnet)
【五万言】Rust 2022 生态版图调研报告(上)
去年我写了 2021 年 Rust 生态版图调研报告 | 星辰大海(上)[1] 和 (下)[2] ,大家能看到 Rust 在各个行业领域中开始暂露头角。2022 年,在政治动荡、经济下行和疫情肆虐的世界大环境下,Rust 却迎来了高质量的发展。2022 年,我愿称之为 Rust 发展元年。
张汉东
2023/03/06
1.2K0
【五万言】Rust 2022 生态版图调研报告(上)
Android 团队宣布 Android 开源项目(AOSP),已支持 Rust 语言来开发 Android 系统本身
Android 平台中,代码的正确性,是每个版本 Android 系统的安全性、稳定性,及其质量的重中之重。C/C++ 语言中的内存安全漏洞,仍然是最难解决的错误来源。我们投入了大量的精力和资源来检测、修复和缓解这类 bug,这些努力有效地防止了大量 bug 进入 Android 系统。然而,尽管做出了这些努力,内存安全漏洞仍然是稳定性问题的主要原因。并且,在 Android 系统高严重性的安全漏洞中,其始终占据大约 70% 的比例。
niqin.com
2022/06/30
1.8K0
Android 团队宣布 Android 开源项目(AOSP),已支持 Rust 语言来开发 Android 系统本身
抛弃 C / C++!微软官宣:请用 Rust 编写 Windows 驱动!
在这众多大厂之中,微软对于 Rust 的重视与支持力度也一直未减。继 5 月效仿 Linux 用 Rust 重写部分 Windows 内核后,近来微软在拥抱 Rust 上又进了一步:微软在 GitHub 中发布了一系列开发工具包,让开发者可以使用 Rust 语言来编写 Windows 驱动程序。
C语言与CPP编程
2023/10/09
7200
抛弃 C / C++!微软官宣:请用 Rust 编写 Windows 驱动!
RUST 编程语言使构建更安全的软件变得更加容易。RUST ALL THE THINGS 需要什么?
给各位分享一篇关于GitHub上的rust风格的开发人员如何可以使开发更加安全的博客,我已经帮大家翻译了
人不走空
2024/05/11
1210
RUST 编程语言使构建更安全的软件变得更加容易。RUST ALL THE THINGS 需要什么?
「快讯」Android 加入了对 Rust 语言的支持
Android 平台中代码的正确性是每一个 Android 版本安全性、稳定性和质量的重中之重。C 和 C++ 中的内存安全漏洞仍然是最难解决的不正确性原因。我们投入了大量的人力和物力来检测、修复和缓解这类 bug,这些努力有效 ¢¢ 地防止了大量的 bug 混入 Android 发行版中。然而,尽管做出了这些努力,内存安全漏洞仍然是造成稳定性问题的首要因素,并且一直占到 Android 高严重性安全漏洞的 70% 左右。
用户1250838
2021/05/31
9590
「快讯」Android 加入了对 Rust 语言的支持
呼吁停用 C/C++,微软 Azure CTO 更青睐 Rust
9 月 20 日,微软 Azure 现任 CTO、Sysinternals 主要开发者 Mark Russinovich 在其个人推特账号发表动态称是时候停止使用 C/C++启动任何新项目,并建议在需要使用 noc-GC 语言的场景下使用 Rust 编程语言。 Rust 由 Graydon Hoare 设计,而后在 Mozilla 成型,Rust 设计时借鉴了许多 C++ 的设计思想如并发特性等,也以高性能著称,还实现了内存安全。2015 年 Rust 作为 C/C++ 的替代品开始引起人们的关注,正因如此
IT大咖说
2022/09/27
7330
呼吁停用 C/C++,微软 Azure CTO 更青睐 Rust
Rust 语言风靡学术界
AWS 将 Rust 编译器团队负责人收入麾下的新闻让开发者们再次聚焦于这门兼具安全性与高性能的编程语言。近日,著名科学期刊 Nature 刊登了一篇文章,表明 Rust 语言也正在成为学术界最受欢迎的编程语言之一。
章鱼猫先生
2021/10/15
6040
Rust 语言风靡学术界
Mozilla将会在Firefox 48版本中引入Rust Component
Mozilla近日宣布,将会在Firefox的正式版中首次引入Rust代码。而该版本(Firefox 48)将于在2016年8月2日发布。 Rust是一种可以更为安全地替代C++的编程语言,因为其独特架构架构,能降低基于Rust的应用中内存泄漏的风险。 内存泄漏问题(例如释放后重利用、缓存溢出等)是最近安全漏洞的根源。不止是Adobe Flash Player,Firefox和Chrome等浏览器也深受其害。 因为自身特性的需要,七年前Mozilla决定赞助这个项目,并最终将其作为自己的编程语言。 Fire
CSDN技术头条
2018/02/12
8540
造就 Rust 的无名英雄
看到社区有朋友对 Brain 这篇文章已经做了翻译,但是出于对 Rust 发展背后付出的无名英雄的敬意,我又认真翻译了一遍。这篇翻译得到了 Brian 本人的授权。
张汉东
2021/05/11
7070
造就 Rust 的无名英雄
什么是Rust语言?探索安全系统编程的未来
在本篇博客中,我们将全面深入探讨Rust语言——一种革命性的系统编程语言,旨在提供内存安全、并发性支持和高性能操作。通过详尽的历史背景、发展史、技术意义及其解决的核心问题分析,本文将带您详细了解Rust语言的优势和应用场景。文章特别适合编程新手和资深开发者阅读,涵盖了丰富的代码示例和操作命令,助您从理论到实践全方位掌握Rust。关键词包括:Rust编程、系统编程、内存安全、并发编程、Rust历史和发展、Rust应用实例。
猫头虎
2024/04/20
6870
【Rust日报】2022-02-12 Amazon:Rust的可持续性
Rust 是一种作为开源项目实现的编程语言。它结合了 C 等系统编程语言的性能和资源效率与 Java 等语言的内存安全性。Rust 于 2010 年作为 Mozilla 的一个研究项目开始,Rust 1.0 于 2015 年推出。2020 年,对 Rust 的支持从 Mozilla 转移到 Rust 基金会,这是一个由 Amazon Web Services, Inc (AWS) 、谷歌、华为、微软和 Mozilla 合作创建的非营利组织。基金会的使命是支持 Rust 的成长和创新,成员公司从创始的 5 家公司发展到第一年的 27 家公司。
MikeLoveRust
2022/03/24
2970
Facebook 是如何引入并使用 Rust 的?
Facebook 正在拥抱当今最受欢迎 、发展最快的一门编程语言——Rust。当前,Facebook 除了为公司内部的 Rust 团队引进人才,还正式加入了 Rust 基金会,与 Mozilla(Rust 的创造者)、AWS、微软和谷歌等其他成员一起,致力于维持和发展 Rust 的开源生态系统。
MikeLoveRust
2021/07/16
8120
Facebook 是如何引入并使用 Rust 的?
C和C++不安全?谷歌宣布Android加入对Rust语言支持
机器之心报道 机器之心编辑部 Rust 越来越流行,开始跨入 Android 领域。谷歌宣布 AOSP (Android Open Source Project) 现已支持使用 Rust 开发 Android 操作系统。 Android 系统涉及很多组件,开发者会根据正在开发的 Android 部分而选择不同的编程语言。对于应用开发者来说,Java 和 Kotlin 是比较流行的选择;而对于从事操作系统以及内部底层的开发人员来说,C 和 C++ 是比较好的选择。 近日,谷歌为操作系统开发者增加了第 3 个
机器之心
2023/03/29
6270
C和C++不安全?谷歌宣布Android加入对Rust语言支持
Docker 之父:Go、Rust 为什么会成为云原生的主导语言?
作者 | Justin Cormack 译者 | 核子可乐 审校 | 褚杏娟 Docker 公司 CTO Justin Cormack 在 InfoQ 的会议上与 Docker 公司创始人、Docker 之父 Solomon Hykes、Vitess 联合创始人 Sougoumarane 、Krustlet 主要作者 Matt Butcher 等人一起探讨了等各大云原生项目在最开始为何选择了 Go 和 Rust 语言,并对云原生项目如何选择编程语言提出了几点建议。我们将本次大咖们的对话进行了编译
深度学习与Python
2023/03/29
7310
Docker 之父:Go、Rust 为什么会成为云原生的主导语言?
Android 支持 Rust 编程语言,以避免内存缺陷(thehackernews)
谷歌周二(2021-04-06)宣布,其开源版本的 Android 操作系统,将增加对 Rust 编程语言的支持,以防止内存安全漏洞。
niqin.com
2022/06/30
1.5K0
Android 支持 Rust 编程语言,以避免内存缺陷(thehackernews)
Linux 基金会要接管 Chromium 了吗?
纵观浏览器的发展历程,有三个重要节点。第一个节点是网景公司成立,发布第一款商用浏览器 Netscape Navigator,拉开互联网走向大众的序幕。第二个节点是微软 IE 击败 Netscape Navigator,成为浏览器的新霸主,然后不思进取,拖慢了 Web 发展的进程。第三个节点是谷歌 Chrome 浏览器崛起,甚至微软也不得不屈服,放弃自家的浏览器引擎,基于 Chromium,开发新一代浏览器 Edge。
云水木石
2025/01/23
460
Linux 基金会要接管 Chromium 了吗?
推荐阅读
相关推荐
谷歌宣布支持使用Rust开发Chromium
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验