腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如,股票价格的变化)。我已经有了负责解析数据的python爬虫,但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)? 下面是我的系统的示例用法 用户登录和订阅网站/数据他们很感兴趣 我的爬虫将每1小时解析该网站并将数据更新到数据库。 用户可以从数据库中看到网站变更的摘要。 我想到的一个选择是在本地机器上运行爬虫,并使用REST将解析的数据更新到firebase数据库。然而,这似乎是一种非常低效/天真的方法,
浏览 0
提问于2018-01-25
得票数 3
2
回答
使用python提取网页上的URL列表的简单方法是什么?
、
我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易?感谢您提供的任何知识。
浏览 5
提问于2010-11-10
得票数 1
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
如何将Python Scrapy扩展的数据插入到MySql数据库表中?
、
、
、
我正在为Python Scrapy构建一个扩展,以获取爬虫相关的详细信息,如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗?我需要一个代码来连接MySql数据库从剪贴画代码,并做数据库相关的查询,如插入,选择等。谢谢..
浏览 3
提问于2013-10-14
得票数 0
2
回答
Python的地址解析器,如何拆分地址
、
我对Python非常陌生,但似乎相处得很融洽。我正在用Python写一个网络爬虫。 我已经让爬虫使用Beautiful Soup库工作,并希望找到最好的库来解析或拆分地址到它的组成部分。 以下是要解析的文本的示例。 ['\r\n\t \t\t \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t (828) 505-1638\t
浏览 2
提问于2015-02-18
得票数 0
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用Python构建一个web爬虫,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。每当工作人员完成URL抓取时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。 我的问题是,既然会有多个爬虫,我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
3
回答
Perl或Python SVN Crawler
、
、
、
有没有一个SVN爬虫,可以遍历SVN存储库,并吐出所有现有的分支或标记? 最好是用Perl或Python ...
浏览 1
提问于2011-08-02
得票数 0
1
回答
docker:在完全初始化依赖MySQL容器之前依赖容器运行
、
、
我有一个码头-撰写文件如下所示,它有2个容器。一个是Python,另一个是MySQL爬虫应用程序,它可以读取/写入数据库。当我做docker-compose up时,我看到: 数据库容器构建,然后构建应用程序容器,然后运行app容器上的CMD (例如启动爬虫),然后根据停靠-组合文件中的环境变量在DB容器中初始化数据库。<code>g 210</code> 我的问题是,为什么在DB容器中创建数据库之前,我的爬虫脚本还在运行?如何确保在运行爬虫脚本之前已经创建了数据库? version: '3.7' services: db:
浏览 5
提问于2020-02-05
得票数 1
2
回答
在两个共享数据库的独立程序中使用ORM
、
我有一个应用程序,分为两个主要部分: 用Python编写的网络爬虫 用Golang编写的REST 他们共享一个MySQL数据库,该数据库主要由web爬虫填充/更新,然后通过REST读取。 我想在双方都使用ORM,以使与数据库的交互更容易,但现在我不确定这是否是一种好方法。 在Python方面,我考虑使用小淘气,而对于Golang,我将使用戈姆。 维护两组ORM模型文件似乎不是个好主意,每当我想要更改数据库的某些属性时,都必须更改每组文件。此外,我担心两个or在争夺数据库的结构时,可能会出现冲突,或者模型可能与实际的db结构不同步。 在这种情况下,使用ORM会带来比其价值更大的麻烦吗?或者我应该
浏览 0
提问于2015-10-13
得票数 2
3
回答
Python web crawler与MySQL数据库
、
、
、
、
我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接,收集元标签和元描述,网页的标题和网页的网址,并将所有的数据放入一个MySQL数据库。 有谁知道可以帮助我的开源脚本吗?此外,如果有人能给我一些关于我应该做什么的建议,那么他们将非常受欢迎。
浏览 4
提问于2011-08-11
得票数 6
回答已采纳
1
回答
使用预训练的手套向量
、
我使用的是Python2.764位,我想在spacy.By中使用预先训练好的维基百科语料库的词向量,默认在glove.can的普通爬虫语料库上训练,任何人都可以提供相同的代码片段。
浏览 0
提问于2017-04-27
得票数 0
1
回答
在绑定DNS缓存上阻止错误配置的DNS条目
、
、
、
我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析,并使用Python的请求库发出GET请求。 问题是许多FQDN配置错误,它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此,我们的爬虫试图连接这些it,并以来自数据中心的扫描报告结束。 我们对爬虫进行了更改,现在它首先为FQDN解析ip,如果IP处于私有/回环/保留范围,则跳过它。 在对tcpdump进行嗅探之后,我发现仍然存在流向私有IP地址的流量。我认为它们的发生是因为HTTP重定向,因为我们检查了原始的FQDN,但是我们不检查重定向的主机,因为这个部分发生在P
浏览 0
提问于2015-12-30
得票数 2
回答已采纳
4
回答
python中的网络爬虫数据库?
、
、
嗨,我用python编写了一个网络爬虫,从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的数据库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
2
回答
Pycharm不能导入Beautifulsoup
、
、
、
、
OS: macOS Sierra Python版本:安装了2.7.10,然后安装了3.5.2。(默认设置2.7.10 ->有人知道如何卸载2.7或将默认设置从Python2.7更改为Python3.5?)Pycharm: 2016.2.3 (Project Interpreter 3.5.2) 我一直在开发一个基于BeautifulSoup库的网络爬虫,但有一个错误消息我永远无法摆脱。我在Pycharm中安装了beautifulsoup4库,它甚至可以加载库,但当它遇到"find“函数时,它总是回复错误消息,"NoneType‘对象没有’find‘属性”。 我附加了一条错
浏览 0
提问于2016-12-23
得票数 0
1
回答
使用Qt作为纯终端应用的Web爬虫
、
、
我在GUI环境中使用Qt创建了一个用于特定任务的简单web爬虫。现在,我想将它自动化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序,但没有成功。 我有一些问题: 在纯非GUI环境中使用QWebPage是可能的吗?( Linux终端)。我读过一些类似的问题,我认为这是不可能的,但我仍然有一些疑问。 如果不可能,如何使用Qt为非GUI应用程序编写web爬虫程序?我熟悉Qt (当然不是专家),如果可能的话,我想使用它 如果仍然不可能,您建议获得和解析HTML页面的库是什么?(多平台和C++,也是Python,但这意味着我还要做很多工作) 编
浏览 0
提问于2012-09-20
得票数 1
1
回答
在ubuntu的后台运行时,爬虫停止。
、
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个爬虫,现在正准备做另一个),以及它是否能解析图像之类的东西。我假设它是这样做的,b/c images.google.com中的图像都被调整了大小。如果它都是用Python编写的,如果他们使用自己的库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
1
回答
在python中连接到Mongo数据库
、
、
我必须做一个爬虫(我选择python)来填充在Symfony项目中创建的数据库(使用主义)。爬虫已经完成了,但当我尝试填充数据库时,它不工作... 因此,我在我的数据库(mtdbdd)中创建了一个新的test表,其中只有一个自动增量ID和一个标题。我尝试用下面的代码填充: from pymongo import MongoClient MONGO_URI = 'mongodb://root:root@127.0.0.1:8889' client = MongoClient(connect=False) client = MongoClient(MONGO_URI) db =
浏览 2
提问于2017-09-16
得票数 0
1
回答
如何提取我的爬虫目前所站的网址?
、
、
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
用机器学习理解Python中的网站结构
、
、
我一直致力于抓取网页和提取网站的元素。例如:给定一个网站-爬虫应该返回以下部分:页眉、菜单、页脚、内容等。 我在想,如果我能使用机器学习来训练代码来学习如何对网站进行分类,那就太好了。 我尝试查看Python机器学习库(例如: PyBrain),但示例非常复杂。有没有人可以向我推荐一个库和一些教程,告诉我如何通过一些简单的例子开始使用Python机器学习? 谢谢!
浏览 0
提问于2011-10-23
得票数 1
回答已采纳
1
回答
Python请求库的上限下载大小
、
、
我正在使用Python的请求库抓取一大堆网页,但偶尔爬虫会偶然发现一个绝对巨大的页面,无论是PDF、视频还是其他巨大的文件。有没有一个好方法来限制它将下载的文件的最大大小?
浏览 0
提问于2013-04-09
得票数 0
回答已采纳
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络爬虫程序,但现在我想知道:存储所有urls的最佳方法是什么,这样爬虫就可以一起工作,但不会干扰。 示例: 爬虫1找到一个包含100个URL的页面。 爬虫2找到一个没有任何URL的页面。 爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中 一旦Queue变得太大(例如,最大大小的80% ),就将URL外包给数据库 让Crawler保存Analyzer,并在之后
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
分布在不同地理位置的爬虫
、
、
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
、
、
、
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
1
回答
用于爬虫应用的数据库系统
、
我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能,用户可以在任何时候暂停爬虫,在他想要的情况下,爬虫崩溃的情况下,他应该能够开始从爬虫停止的点上一次爬行。 为此,我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统,因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。 很少有人建议我像mongodb那样使用no-sql,但我只想确保它是这类系统的最佳选择。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
如何使用Python在需要Google帐户登录的网站上进行web爬行?
、
我是Python的新手,我想使用Python来抓取几个需要Google帐号登录的网站。例如,我想爬一个网站xxx.appspot.com,我需要登录我的谷歌帐户访问它,因为这个数据库需要验证,我是授权人员。 当我做这样的事情: content=urllib.urlopen(target_url).read() 当然,我得到的“内容”只是一个登录页面。如何实现代码,以便爬虫在实际爬行之前可以在Google帐户中签名。
浏览 1
提问于2013-12-18
得票数 2
回答已采纳
2
回答
网络爬虫的最佳数据库设计
、
、
、
许多数据库系统适合与网络爬虫一起工作,但是有没有专门为网络爬虫开发的数据库系统(在.net中)。 我的经验告诉我,网络爬虫有许多部分和服务,每个部分都需要一些特定的功能。例如,要缓存网页,我们需要一些东西,比如sql server的。或者检查db中是否已经存在URL,最好的选择是。 事实上,我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么? 2)是否有涵盖所有功能的数据库系统!
浏览 2
提问于2011-07-05
得票数 1
1
回答
ImportError:没有名为html.entities的模块
、
、
、
、
我对蟒蛇很陌生。我正在使用python2.7.5。我想写一个网络爬虫。为此,我安装了BeautifulSoup 4.3.2。我使用以下命令安装了它(我没有使用pip) python setup.py install 我使用Eclipse4.2并安装了pydev。当我试图在脚本中导入这个库时 from bs4 import BeautifulSoup 我收到了这个错误 ImportError: No module named html.entities 请解释一下我该做些什么来纠正它。
浏览 4
提问于2013-12-12
得票数 1
回答已采纳
1
回答
PRAW:将注释和提交对象序列化为JSON
、
、
我目前正在使用praw开发一个reddit爬虫,用于数据挖掘。我想抓取来自subreddits的评论和提交,然后将它们保存在数据库或文件中,最好是以json格式保存,以便以后使用。在python中,我很难将注释和提交对象序列化为JSON对象。是否有一种现有的方法或方法来做到这一点?注意:我对python也很陌生。 提前感谢您的帮助!
浏览 0
提问于2014-07-15
得票数 1
回答已采纳
1
回答
Python-Selenium爬虫冻结,特别是在无头模式下(不可复制的bug)
、
、
、
、
我构建了一个爬虫,它获取用户输入的产品列表的产品信息。有时,爬虫会结冰,特别是如果产品列表很长,如果爬虫在无头模式下运行的话。 这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的资源利用引起的。 因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测爬虫已经冻结,然后再试一次? 下面是关于爬虫和bug的一些信息: 爬虫是使用Selenium和Python构建的。 这个错误发生在不同的网站和产品上。 该错误发生在“正常”模式,但更多发生在无头模式。 谢谢! 费利佩
浏览 2
提问于2019-05-21
得票数 1
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
客户端操作系统上的DNS查询是否序列化?
、
、
即使您在Linux或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去? 当我在一些地方读到gethostbyname或DNS APIs在最低层序列化时,甚至有人编写了这个async-dns python库来戏剧性地加速DnsResolve解析。 那么,是否有任何.NET应用程序接口或一般情况下,它可以并行工作,根据我的程序给出的请求数量? 想象一下一个网络爬虫场景,我需要每秒大量的dns查询,在一些早期的网络爬虫出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
Boto3启动胶爬行器与新的s3输入
、
、
、
、
我有一个亚马逊胶水爬虫,它查看一个特定的s3位置,包含avro文件。我有一个进程,它在那个位置的一个新的子文件夹中输出文件。 一旦我手动运行爬虫,新的子文件夹将被视为数据库中的一个新表,它也将是可从雅典娜查询的。 有什么方法可以使进程自动化,并以编程方式调用爬虫,但只指定新的子文件夹,这样它就不必扫描整个父文件夹结构了吗?我希望将表添加到数据库中,而不是将分区添加到现有表中。 我正在寻找Python选项,我确实看到了这样一个选项: import boto3 glue_client = boto3.client('glue', region_name='us-east-1
浏览 0
提问于2018-08-21
得票数 1
回答已采纳
1
回答
将默认表属性分配给爬虫创建的表
我试图将表属性分配给用爬虫创建的表。 这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。 我检查了爬虫创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的爬虫功能中是不可能的,那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么? 编辑:一个可能的解决方案是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
提问于2021-01-20
得票数 0
回答已采纳
3
回答
如何在Scrapy中的同一进程中运行多个爬行器
、
、
我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目,在运行"scrapy crawl ..“它只运行第一个爬虫。 如何在同一进程中运行所有爬行器? 提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
爬虫服务器端
、
、
、
我有一个关于特定服务器端功能的问题。 我有一个带有PostgreSQL数据库的服务器(Linux) (服务器端是用python开发的)。我想创建一个系统,以固定的间隔(一天一次..可能一夜之间)从数据库中删除所有过期信息。 实现这一目标的最佳方法是什么? 将这个系统称为“爬虫”正确吗?
浏览 2
提问于2013-05-30
得票数 0
回答已采纳
3
回答
网络爬虫与Django前端的接口
、
、
我试着做三件事。 第一:抓取和存档,至少每天,一组预定义的站点。 第二:对此数据运行通宵批处理python脚本(文本分类)。 第三:向用户公开一个基于Django的前端,让他们搜索抓取的数据。 我一直在使用Apache Nutch/Lucene,但当我可以使用另一个爬虫引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫,但我不确定该怎么做。 基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东西”,并编写一些胶水代码?或者,最后,我应该完全放弃Django吗
浏览 0
提问于2009-06-09
得票数 2
5
回答
如何在Python中从HTML页面中提取URL
、
、
我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢? 换句话说,有没有一个简单的python程序可以作为通用网络爬虫的模板?理想情况下,它应该使用相对简单的模块,并且应该包括大量的注释来描述每一行代码所做的事情。
浏览 2
提问于2013-03-20
得票数 17
1
回答
如何从网站的数据库中抓取链接?
、
、
我是搜索引擎新手,我发现googlenews非常有趣。 我想写一个简单的爬虫 只解析三个不同新闻网站的文章链接。 将链接保存在数据库(mysql)中,并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。 如您所知,新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接,还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。 我不知道我想爬的新闻网站使用的是哪个数据库,我也没有访问它的权限。 那么googlenews如何能够解析所有新闻网站的所有文章链接,包括很久以前生成的链接呢?googlenews可以访问
浏览 4
提问于2014-06-06
得票数 3
回答已采纳
2
回答
Elasticsearch HTTP API或python API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。 我已经编写了一个python模块爬虫,它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。 真正的问题如下所示。哪种技术更适合我的场合?elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
2
回答
如何在MySQL数据库中存储动态python字典?
、
、
、
我正在做一个小型项目的网页-爬虫+搜索引擎。我已经知道如何使用Scrapy框架刮取数据。现在我想做索引。为此,我发现Python字典是我最好的选择。我希望映射类似于对象(字符串)的名称/标题, -> 对象本身( Python对象)。 现在的问题是,我不知道如何在MySQL数据库中存储动态dict,而且我肯定想要存储这个dict! 一些关于如何去做的命令将是非常感谢的!
浏览 1
提问于2015-09-01
得票数 1
1
回答
在某个时间运行Python程序
、
我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度,但是我找不到从哪里开始。任何帮助都是非常有用的。
浏览 0
提问于2014-04-08
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫库-BeautifulSoup的使用
python爬虫基础——Webbot库介绍
Python爬虫基础——探索lxml库
Python爬虫库-Beautiful Soup的使用
Python爬虫学习(八)Requests库探探
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券