前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python多进程:如何在不依赖Queue的情况下传递结果

Python多进程:如何在不依赖Queue的情况下传递结果

原创
作者头像
jackcode
发布于 2024-07-31 03:21:18
发布于 2024-07-31 03:21:18
1800
举报
文章被收录于专栏:爬虫资料爬虫资料
爬虫代理
爬虫代理

随着数据的爆炸式增长,网络爬虫成为获取信息的强大工具。在爬取大量数据时,多进程技术可以显著提高效率。然而,如何在多进程中传递结果,而不依赖Queue,成为了一个值得探讨的问题。本文将以采集抖音短视频为案例,详尽讲解如何在Python中实现这一目标。

文章目录
  1. 简介
  2. 多进程与Queue的局限性
  3. 替代方案:使用管道、共享内存和临时文件
  4. 实战案例:采集抖音短视频
  5. 结论1. 简介在爬虫技术中,多进程可以显著提高数据采集效率。然而,传统的Queue在某些场景下存在局限性。本文将探讨如何在不依赖Queue的情况下,实现多进程间的数据传递。2. 多进程与Queue的局限性Queue是Python多进程模块提供的一种进程间通信机制,但它有以下局限性:
  • 性能瓶颈:在大量数据传递时,Queue可能成为性能瓶颈。
  • 复杂性:在复杂的多进程架构中,Queue的管理和维护较为复杂。3. 替代方案为了解决这些问题,我们可以使用以下替代方案:
  • 管道(Pipe):用于进程间的双向通信。import multiprocessing import requests import json import time from multiprocessing import Pipe, Process from bs4 import BeautifulSoup # 代理配置 爬虫代理加强版 proxy_host = "代理域名" proxy_port = "代理端口" proxy_user = "代理用户名" proxy_pass = "代理密码" proxy = { "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}", "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}" } # User-Agent 和 Cookie headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36", "Cookie": "your_cookie_here" } def timer(func): def wrapper(*args, **kwargs): start_time = time.time() result = func(*args, **kwargs) end_time = time.time() elapsed_time = end_time - start_time return result, elapsed_time return wrapper @timer def fetch_video_data(video_url): response = requests.get(video_url, headers=headers, proxies=proxy) soup = BeautifulSoup(response.content, 'html.parser') video_data = soup.find('script', {'type': 'application/json'}).string return json.loads(video_data) def worker(video_url, conn): result, elapsed_time = fetch_video_data(video_url) conn.send((result, elapsed_time)) conn.close() def main(): video_urls = ["https://www.douyin.com/video/1", "https://www.douyin.com/video/2"] processes = [] parent_connections = [] for url in video_urls: parent_conn, child_conn = Pipe() p = Process(target=worker, args=(url, child_conn)) processes.append(p) parent_connections.append(parent_conn) p.start() for p in processes: p.join() for parent_conn in parent_connections: result, elapsed_time = parent_conn.recv() print(f"Video Data: {result}") print(f"Elapsed Time: {elapsed_time}") if __name__ == '__main__': main()代码详解
  • 共享内存(Shared Memory):通过共享变量实现数据传递。
  • 临时文件:将数据写入临时文件,由主进程读取。4. 实战案例:采集抖音短视频环境配置在开始之前,我们需要配置爬虫代理IP和设置useragent及cookie,以提高爬虫的成功率。本文使用爬虫代理服务。代码实现
  1. 代理配置:设置爬虫代理IP,保证爬虫能够顺利访问目标网站。
  2. 请求头设置:通过设置User-Agent和Cookie,提高请求的成功率。
  3. 定时器装饰器:测量函数执行时间。
  4. 数据抓取函数:使用requests库抓取视频数据,并解析HTML内容。
  5. 子进程函数:每个子进程独立抓取视频数据,并通过管道发送结果。
  6. 主进程函数:创建多个子进程,并收集每个子进程的结果。5. 结论通过本文的示例,我们展示了如何在Python中使用多进程技术,并在不依赖Queue的情况下传递结果。采用管道、共享内存或临时文件等替代方案,可以有效地解决Queue的局限性。在实际应用中,根据具体需求选择合适的方案,能够显著提高数据采集的效率和可靠性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【prometheus】-02 一张图彻底搞懂Prometheus服务发现机制
Prometheus是基于Pull模式抓取监控数据,首先要能够发现需要监控的目标对象target,特别Prometheus最开始设计是一个面向云原生应用程序的,云原生、容器场景下按需的资源使用方式对于监控系统而言就意味着没有了一个固定的监控目标,所有的监控对象(基础设施、应用、服务)都在动态的变化。而对于Prometheus而言其解决方案就是引入一个中间的代理人(服务注册中心),这个代理人掌握着当前所有监控目标的访问信息,Prometheus只需要向这个代理人询问有哪些监控目标控即可, 这种模式被称为服务发现(service discovery)。
Reactor2020
2023/03/22
8960
【prometheus】-02 一张图彻底搞懂Prometheus服务发现机制
【云原生 • Prometheus】图解Prometheus数据抓取原理
discovery模块利用各种服务发现协议发现目标采集点,并通过channel管道将最新发现的目标采集点信息实时同步给scrape模块,scrape模块负责使用http协议从目标采集点上抓取监控指标数据。
Reactor2020
2023/04/20
1.4K0
【云原生 • Prometheus】图解Prometheus数据抓取原理
prometheus 服务发现原理
如上图,Prometheus核心功能包括服务发现、数据采集和数据存储。服务发现模块专门负责发现需要监控的目标采集点(target)信息,数据采集模块从服务发现模块订阅该信息,获取到target信息后,其中就包含协议(scheme)、主机地址:端口(instance)、请求路径(metrics_path)、请求参数(params)等;然后数据采集模块就可以基于这些信息构建出一个完整的Http Request请求,定时通过pull http协议不断的去目标采集点(target)拉取监控样本数据(sample);最后,将采集到监控样本数据交由TSDB模块进行数据存储。
Reactor2020
2023/03/22
5620
prometheus 服务发现原理
构建企业级监控平台系列(十三):Prometheus Server 配置详解
更多关于企业级监控平台系列的学习文章,请参阅:构建企业级监控平台,本系列持续更新中。
民工哥
2023/10/23
1.7K0
构建企业级监控平台系列(十三):Prometheus Server 配置详解
​修改prometheus实现数据库存储报警规则和收集目标
prometheus本身报警规则及服务发现策略基于文件配置很不方便,对于非K8S服务监控经常需要操作配置文件,不利于管理系统平台化建设。实现思路:将相关配置信息存储在MySQL里,加入新的逻辑,实现保留文件加载配置的同时,加载MySQL中的信息, 动态生成 static_config及 alert_rule从而实现报警及监控目标的配置UI化.
有点技术
2020/07/14
1.3K0
prometheus内核
这篇文章会着重分析 其中的 discovery => scrap => storage 的流程
王磊-字节跳动
2019/12/29
2.5K0
初试 Prometheus + Grafana 监控系统搭建并监控 Mysql
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/aixiaoyang168/article/details/81354059
哎_小羊
2019/05/25
2.1K0
Prometheus +VictoriaMetrics+Granafa安装部署
https://github.com/prometheus/prometheus/releases/download/v2.54.1/prometheus-2.54.1.linux-amd64.tar.gz
授客
2025/01/19
1960
Prometheus +VictoriaMetrics+Granafa安装部署
运维实战来了!如何构建适用于YashanDB的Prometheus Exporter
小崖又收到用户投稿啦。今天分享的是构建YashanDB Exporter的核心设计理念和关键方法,希望也能为你的运维实战加分!
qiaoyikefu
2025/01/09
830
运维实战来了!如何构建适用于YashanDB的Prometheus Exporter
新功能:Prometheus Agent 模式上手体验
Prometheus 几乎已经成为了云原生时代下监控选型的事实标准,它也是第二个从 CNCF 毕业的项目。
Jintao Zhang
2021/12/01
1.4K0
新功能:Prometheus Agent 模式上手体验
【prometheus】-08 图解云原生服务发现机制
分析过云原生监控接入方案,下面开始看下云原生服务发现机制。Prometheus本身就是作为云原生监控出现的,所以对云原生服务发现支持具有天然优势。Kubernetes 服务发现协议允许使用Kubernetes Rest API检索出Prometheus需要监控的targets,并且跟着集群状态进行同步变更。
Reactor2020
2023/03/22
3960
【prometheus】-08 图解云原生服务发现机制
《Prometheus监控实战》第3章 安装和启动Prometheus
第3章 安装和启动Prometheus ---- 3.1 安装Prometheus 如果要将Prometheus部署到生产环境或进行扩展,则应该始终选择配置管理工具作为安装方法 下载地址:https://prometheus.io/download/ 3.1.4 在Mac OS X上安装Prometheus $ brew install prometheus 3.1.5 通过监控套件安装Prometheus 使用Docker Compose安装Prometheus、Node Exporter和Grafan
yeedomliu
2019/12/19
1.3K0
打造云原生大型分布式监控系统(三): Thanos 部署与实践
上一篇 Thanos 架构详解 我们深入理解了 thanos 的架构设计与实现原理,现在我们来聊聊实战,分享一下如何部署和使用 Thanos。
imroc
2020/04/20
6.3K5
在 Kubernetes 上手动部署 Prometheus
我们知道监控是保证系统运行必不可少的功能,特别是对于 Kubernetes 这种比较庞大的系统来说,监控报警更是不可或缺,我们需要时刻了解系统的各种运行指标,也需要时刻了解我们的 Pod 的各种指标,更需要在出现问题的时候有报警信息通知到我们。
CNCF
2021/02/23
8440
在 Kubernetes 上手动部署 Prometheus
Prometheus监控学习笔记之Prometheus如何热加载更新配置
当 Prometheus 有配置文件修改,我们可以采用 Prometheus 提供的热更新方法实现在不停服务的情况下实现配置文件的重新加载。
Jetpropelledsnake21
2019/10/10
7K0
Prometheus监控学习笔记之Prometheus如何热加载更新配置
prometheus告警规则管理
Prometheus支持用户自定义Rule规则。Rule分为两类,一类是Recording Rule,另一类是Alerting Rule。Recording Rule的主要目的是通过PromQL可以实时对Prometheus中采集到的样本数据进行查询,聚合以及其它各种运算操作。而在某些PromQL较为复杂且计算量较大时,直接使用PromQL可能会导致Prometheus响应超时的情况。这时需要一种能够类似于后台批处理的机制能够在后台完成这些复杂运算的计算,对于使用者而言只需要查询这些运算结果即可。Prometheus通过Recoding Rule规则支持这种后台计算的方式,可以实现对复杂查询的性能优化,提高查询效率。
没有故事的陈师傅
2021/09/09
1.9K0
初玩prometheus
因为Prometheus是基于GoLang编写,编译后的软件包,不依赖于任何的第三方依赖。用户只需要下载对应平台的二进制包,并解压添加基本配置即可正常启动Prometheus server。
张琳兮
2019/11/04
8970
初玩prometheus
运维实战来了!如何构建适用于 YashanDB 的 Prometheus Exporter
小崖又收到用户投稿啦。今天分享的是构建 YashanDB Exporter 的核心设计理念和关键方法,希望也能为你的运维实战加分!
用户10349277
2025/02/21
1320
如何使用Prometheus配置自定义告警规则
Prometheus是一个用于监控和告警的开源系统。一开始由Soundcloud开发,后来在2016年,它迁移到CNCF并且称为Kubernetes之后最流行的项目之一。从整个Linux服务器到stand-alone web服务器、数据库服务或一个单独的进程,它都能监控。在Prometheus术语中,它所监控的事物称为目标(Target)。每个目标单元被称为指标(metric)。它以设置好的时间间隔通过http抓取目标,以收集指标并将数据放置在其时序数据库(Time Series Database)中。你可以使用PromQL查询语言查询相关target的指标。
CNCF
2020/03/25
6.1K0
如何使用Prometheus配置自定义告警规则
prometheus使用总结(2)
建议使用第五步启动方式,找到配置文件加上--web.enable-lifecycle,此参数的意义在于我们修改了prometheus.yml后直接远程热加载即可,不用重启服务,使用下面的命令即可。
Bob hadoop
2021/04/01
1.5K0
推荐阅读
相关推荐
【prometheus】-02 一张图彻底搞懂Prometheus服务发现机制
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档