python反爬虫策略_php反爬虫策略_js反爬虫 - 腾讯云开发者社区

、、、、

我有一个运行多个Python爬虫实例的脚本，Crawler是int /root/crawler/batchscript.py 在/root/crawler/，我有一个刮擦的爬虫。爬虫工作得很好。 batchscript.py看起来像这样，(只发布相关代码) from scrapy.settings import Settings from scrapy.utils.project import get_project_settings from amazon_crawler.spiders.amazon_scraper import MySpider process = CrawlerPr

浏览 3提问于2016-11-17得票数 0

回答已采纳

2回答

大神有没有研究过美团的_token生成方法？

、、

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2249提问于2018-09-12

1回答

在绑定DNS缓存上阻止错误配置的DNS条目

、、、

我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析，并使用Python的请求库发出GET请求。问题是许多FQDN配置错误，它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此，我们的爬虫试图连接这些it，并以来自数据中心的扫描报告结束。我们对爬虫进行了更改，现在它首先为FQDN解析ip，如果IP处于私有/回环/保留范围，则跳过它。在对tcpdump进行嗅探之后，我发现仍然存在流向私有IP地址的流量。我认为它们的发生是因为HTTP重定向，因为我们检查了原始的FQDN，但是我们不检查重定向的主机，因为这个部分发生在P

浏览 0提问于2015-12-30得票数 2

回答已采纳

1回答

如何将python应用程序的两个组件解耦？

、、、、

我正在努力学习python开发，我一直在阅读关于体系结构模式和代码设计的主题，因为我想停止黑客攻击并真正开发。我正在实现一个see爬虫，我知道它有一个有问题的结构，正如您将要看到的那样，但是我不知道如何修复它。爬虫将返回用于在mongoDB实例中输入数据的操作列表。这是我的应用程序的总体结构： Spiders crawlers.py connections.py utils.py __init__.py crawlers.py实现了一个类型为Crawler的类，每个特定的爬虫都继承它。每个Crawler都有一个属性table_name和一个方法：crawl。在connections.py

浏览 1提问于2020-08-18得票数 0

回答已采纳

1回答

我是不是在我的防爬行保护白名单中覆盖了主要的搜索引擎蜘蛛？

、、、

我有一个系统，黑名单用户谁要求太多的网页太快，如果他们不在我的白名单。我们只是担心主要的搜索引擎，老实说，谷歌是我老板唯一担心的。白名单： crawler_name - crawler_host Googlebot - .googlebot.com 雅虎!Slurp crawl.yahoo.net MSNBot - search.msn.com 如果HTTP_REQUEST_HEADER包含crawler_name，主机名(IP的反向DNS查找)包含上述任何一个的crawler_host，那么我们会让它们请求任意多个页面。这张单子够好吗？这能覆盖主要的搜索引擎蜘蛛吗？或者我们可能不小

浏览 0提问于2011-06-08得票数 5

1回答

docker:在完全初始化依赖MySQL容器之前依赖容器运行

、、

我有一个码头-撰写文件如下所示，它有2个容器。一个是Python，另一个是MySQL爬虫应用程序，它可以读取/写入数据库。当我做docker-compose up时，我看到：数据库容器构建，然后构建应用程序容器，然后运行app容器上的CMD (例如启动爬虫)，然后根据停靠-组合文件中的环境变量在DB容器中初始化数据库。<code>g 210</code> 我的问题是，为什么在DB容器中创建数据库之前，我的爬虫脚本还在运行？如何确保在运行爬虫脚本之前已经创建了数据库？ version: '3.7' services: db:

浏览 5提问于2020-02-05得票数 1

1回答

C#.net中两种超文本标记语言文件的比较

、

有谁能帮我解决这个问题吗？我实际上正在制作一个爬虫，它可以从网站上获取单词，并将整个页面存储为html文件，但现在我想比较新的爬虫与旧的爬虫，即旧的html文件与新的，找出它们之间的差异，有多少单词被删除或插入？因此，基本上我需要c#代码或示例，它们可以帮助我找出两个html文件是如何比较的？我已经用过XmlDiff了但它对我不起作用

浏览 1提问于2011-12-23得票数 0

回答已采纳

1回答

Facebook请求出错失败

、、

我正在使用facebookAPI登录系统创建应用程序。我想把我的应用程序公之于众。当我添加应用程序隐私策略URL()时，引发了此错误。 “为了与Facebook平台兼容，您必须提交一个有效的隐私策略URL。请求失败:无法连接服务器:检查the服务器是否正在运行，并且没有防火墙阻止Facebook的爬虫。” 当然，我的服务器正在运行，我无法理解“检查没有防火墙阻止Facebook的爬虫”

浏览 1提问于2018-04-07得票数 0

回答已采纳

1回答

您能使用AWS摄取加密的S3对象(文本文件)吗？

、、、、

我在S3中有一个加密的文本文件。我希望使用AWS Glue将这些数据加载到RDS Aurora。我创建了一个爬虫来映射加密文本文件的架构，但是爬虫没有创建任何表。为了确定，我爬行相同的文件，但在一个解密的版本，它工作。我的问题是： AWS不能直接从S3中摄取加密文件吗？如果是，请告诉我我错过了什么？如果不是，什么最好的方式来摄取加密的数据到AWS胶，而不解密它。(我的数据非常敏感) 提前谢谢。

浏览 0提问于2019-04-30得票数 1

回答已采纳

1回答

如何将AWS胶表结构复制到AWS红移

、、、、

我在不使用爬虫的情况下使用AWS Glue创建了新的数据库和表结构，并且可以做同样的事情，我的意思是使用爬虫创建表结构。这不是问题，我想要的是基于AWS表元数据在AWS中创建相同的表结构。我用Python手工完成了Django，得到了表的元数据，并创建了"CREATE table .“命令并执行。我已经有了另一种解决方案。--我们可以从AWS端或者使用AWS (如Boto3 )--来做这件事吗？我不需要表中的任何数据，只想在AWS红移中创建空表。这个是可能的吗？我还检查了AWS红移光谱。如果我可以在AWS中创建这个表，那么我可以使用频谱命令从S3或任何其他资源中获取数据。所以我先要

浏览 4提问于2020-03-12得票数 2

回答已采纳

1回答

如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY

、、、

我将编写数百个爬虫来抓取不同的静态网页，所以我选择Scrapy来帮助我完成我的工作。在工作过程中，我发现大多数网站都很简单，不会防蜘蛛。但是我发现很难在scrapy.setting.py文件中设置一个套装DOWNLOAD_DELAY。有太多的爬行器要编码，为每个爬行器找到合适的DOWNLOAD_DELAY会耗尽我的时间。我想知道哪些型号的爬虫加载和使用DOWNLOAD_DELAY参数，以及如何编写程序在检测服务错误时自动增加DOWNLOAD_DELAY (爬虫请求太频繁)。

浏览 2提问于2019-01-17得票数 1

1回答

Python Scrapy代理在几轮之后就死了？

、

我想建立一个与scrapy亚马逊爬虫。它起作用了，但在经过大约10个好的代理之后，每个下一个代理都会获得Proxy <IP:PORT> is DEAD 我不明白为什么..。那是我的中间件 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400, 'rota

浏览 18提问于2019-11-07得票数 1

3回答

如何用python转换unicode格式的unicode字符串？

、、、、

我是一个学习蟒蛇抓取(爬虫)的学生。我希望在python中将unicode字符串转换为str。但是这个unicode字符串不是普通字符串。此unicode是unicode格式。请看下面的代码。 # python 2.7 ... print(type(name[0])) print(name[0]) print(type(keyword_name_temp)) print(keyword_name_temp) ... 当运行上层脚本时，我可以看到控制台如下所示。 $ <type 'unicode'> $ 서용교 ## this words is korean cha

浏览 0提问于2016-02-24得票数 0

回答已采纳

1回答

网络爬虫的BFS还是DFS？

、、、

我的任务是为搜索引擎创建一个简单的网络爬虫。现在，爬虫应该如何准确地映射网络呢？沿着他找到的第一个链接再也不回来，或者一些更高级的搜索方法，如BFS或DFS？

浏览 0提问于2012-08-02得票数 3

回答已采纳

1回答

附加AmazonS3FullAccess的AWS Glue Crawler访问被拒绝

、、

我刚刚设置了一个AWS爬虫来爬行一个S3桶。我为爬虫设置了一个IAM角色，并将托管策略"AWSGlueServiceRole“和"AmazonS3FullAccess”附加到角色中。我已经确保爬虫在使用这个角色。但是，每次运行爬虫时，我都会收到与日志中类似的错误消息： ERROR : Error Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: <omitted>; S3 Extended Request ID: <omitted

浏览 3提问于2020-03-17得票数 1

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

会发生什么事？我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。我做了什么/我有什么？我目前有一个远程分支，它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支，它们每天都会被执行。这个分支必须继续运作。对于远程分支，我有本地文件夹/分支，修复错误并创建新的。让我们把它叫做Local.，从主人那里，我推拉。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

在Python语言的词法分析阶段对f字符串进行标记

、、

我最近通过Aho的龙书了解到了编译器。据我所知，语言首先要经过词法分析才能进行标记化。对于像C/C++和Java这样的语言来说，这个过程似乎足够简单。但是对于Python，特别是Python3，f字符串应该如何表现呢？我不认为仅通过正则表达式或使用lex进行词法分析就可以像f"1+2 = {int(f'{1}') + int(f'{2}')}"那样对字符串进行标记化。我不认为正则表达式和状态可以识别{}中的部分不是字符串字符。我搜索了一下，找到了使用antlr https://github.com/antlr/grammars-v4/blob/

浏览 25提问于2021-08-30得票数 1

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好！有什么问题吗？这是关于网页的块吗？或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

2回答

AccessDeniedException帐户<ID>被拒绝访问

、、

当我试图在AWS Glue上创建一个爬虫时，我收到了这条消息： {"service":"AWSGlue","statusCode":400,"errorCode":"AccessDeniedException","requestId":"RequestIDNumber","errorMessage":"Account <AccountID> is denied access.","type":"AwsServiceE

浏览 11提问于2022-08-18得票数 0

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

分布在不同地理位置的爬虫

、、

我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

Web Crawler的常用输出格式

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

浏览 0提问于2012-08-20得票数 0

回答已采纳

1回答

亚马逊雅典娜不使用胶水目录

、

我使用aws胶水爬虫创建了一个带有表的数据库。在雅典娜，我不能选择数据库/表进行查询。我认为问题可能是在服务区的位置。我的设置是下一个： s3 csv文件位于爱尔兰。 aws胶爬行器创建时没有任何指向其位置的选项，但它可以通过下一个url - us-east-1访问。所以我认为它是在美国东部-1地区创建的，但我不确定。区域参数出现在我帐户的任何页面上。也请参阅附件

浏览 0提问于2018-03-03得票数 2

2回答

网络爬虫-忽略Robots.txt文件？

、、、

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

1回答

如何在我的CF模板中设置胶水爬行器RecrawlPolicy

、、

我希望将glue爬虫程序设置为仅爬行s3存储桶中的新文件夹。根据文档，看起来我想将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。这现在是我的爬虫程序的配置属性，但是我对RecrawlBehavior的使用是无效的： Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\"

浏览 59提问于2020-11-07得票数 2

回答已采纳

1回答

AWS雅典娜没有发现csv文件的记录

、、、

我在s3中得到了2Gb的csv文件(管道分隔)，在上面运行胶水爬虫，创建新表。当运行athena的查询时，它发现零条记录(尽管它正确地返回列)没有应用任何分区，只要尽可能默认地运行爬虫即可。有什么建议吗？注意-用于所有操作的aws consol

浏览 2提问于2019-04-04得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因

浏览 0提问于2013-05-23得票数 2

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

、

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。如果没有，任何建议是什么可以是一个良好的等待时间爬虫被认为是礼貌的。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

python中的Firefox + Selenium :如何交互式地获得元素html？

、、、

我使用Python + Selenium + Splinter + Firefox创建一个交互式web爬虫。 python脚本提供了这些选项，然后Selenium打开Firefox并发送一些订单。现在，我需要让python脚本知道用户希望与之交互的web元素。我目前使用的方法是：右键单击网站( Firefox )中的项目，单击“检查元素”，然后在Firefox检查器中单击“复制HTML”，然后手动将其提供给脚本，脚本就可以继续下去了。但出于明显的原因，我觉得这个过程还远远不够完美。我对javascript一无所知，但是在阅读了之后，我觉得javascript实际上可能是解决方

浏览 5提问于2014-01-22得票数 2

回答已采纳

3回答

如何管理爬虫URL边界？

、、、

伙计们下面的代码将访问的链接添加到我的爬虫上。在提取链接之后，我有一个for循环，该循环遍历每个单独的href标记。当我访问了一个链接，打开它之后，我将把URL添加到上面定义的访问链接集合变量中。 private final Collection<String> urlForntier = Collections.synchronizedSet(new HashSet<String>()); 爬虫实现是多线程的，假设如果我访问了10万个urls，如果我没有终止这个爬虫，它就会一天比一天长。它会造成内存问题吗？请注意，在不造成线程间不一致的情况下，我要刷新变量的选项

浏览 10提问于2015-11-18得票数 0

回答已采纳

1回答

SOLR索引中的重复记录

、

在CM中，我有一个项目(称为ItemA)版本1。当内容编辑器编辑ItemA时，版本增量为1。所以现在版本为2。然后内容编辑器通过工作流发布ItemA。现在，web数据库被更新为ItemA版本2。正确地说，当web数据库只有项目的最新版本时，索引也将被更新为只包含特定版本的项。目前，我有一个单独的SOLR索引核心的自定义爬虫。并且自定义索引总是被添加到新版本。当我在这个自定义SOLR索引中搜索ItemA时，它会返回2条记录，其中两条记录都指向同一项，但版本不同。 <doc><str name="_uniqueid">sitecore://web/{183

浏览 1提问于2016-08-05得票数 0

回答已采纳

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。这个bug似乎是随机的，也是不可复制的，这让我认为它是由被爬行的网站的资源利用引起的。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？下面是关于爬虫和bug的一些信息：爬虫是使用Selenium和Python构建的。这个错误发生在不同的网站和产品上。该错误发生在“正常”模式，但更多发生在无头模式。谢谢! 费利佩

浏览 2提问于2019-05-21得票数 1

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

3回答

如何在Scrapy中的同一进程中运行多个爬行器

、、

我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目，在运行"scrapy crawl ..“它只运行第一个爬虫。如何在同一进程中运行所有爬行器？提前谢谢。

浏览 0提问于2014-04-11得票数 2

1回答

将默认表属性分配给爬虫创建的表

我试图将表属性分配给用爬虫创建的表。这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。我检查了爬虫创建界面中的选项，但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值，这是我唯一想到的事情。如果这在默认的爬虫功能中是不可能的，那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么？编辑:一个可能的解决方案是创建一个lambda函数，检查胶水表中是否存在自定义参数，如果没有创建它们。

浏览 2提问于2021-01-20得票数 0

回答已采纳

1回答

没有标签的antlr4节点

、

我正在用Antlr 4解析语法(v4.9.2) 语法如下： grammar Test; start : command+ EOF ; command: commandType params ; commandType: 'DISPLAY' ; params: param (',' param)* | ;//parameter list param: ID; ID : [a-z]+[a-z0-9]* ; WS : [ \t\r\n]+ -> skip ; 语法的输入文本是： DISPLAY hello, really, sdfdsf

浏览 9提问于2021-12-27得票数 1

回答已采纳

3回答

网络爬虫与Django前端的接口

、、

我试着做三件事。第一:抓取和存档，至少每天，一组预定义的站点。第二:对此数据运行通宵批处理python脚本(文本分类)。第三:向用户公开一个基于Django的前端，让他们搜索抓取的数据。我一直在使用Apache Nutch/Lucene，但当我可以使用另一个爬虫引擎时，让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫，但我不确定该怎么做。基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗？或者我是否应该在第二步中加入“变成Django友好的东西”，并编写一些胶水代码？或者，最后，我应该完全放弃Django吗

浏览 0提问于2009-06-09得票数 2

2回答

Elasticsearch HTTP API或python API

、、、、

我是一个实时分布式搜索引擎elasticsearch的新手，但我想问一个技术问题。我已经编写了一个python模块爬虫，它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。真正的问题如下所示。哪种技术更适合我的场合？elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)？

浏览 4提问于2015-12-01得票数 1

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？理想情况下，它应该使用相对简单的模块，并且应该包括大量的注释来描述每一行代码所做的事情。

浏览 2提问于2013-03-20得票数 17

2回答

使用python提取网页上的URL列表的简单方法是什么？

、

我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易？感谢您提供的任何知识。

浏览 5提问于2010-11-10得票数 1

1回答

在某个时间运行Python程序

、

我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度，但是我找不到从哪里开始。任何帮助都是非常有用的。

浏览 0提问于2014-04-08得票数 0

3回答

上传文件到S3存储桶后，AWS胶水爬虫的基于事件的触发器？

、、

有没有可能在上传到S3存储桶中的新文件上触发AWS Glue爬虫，假设爬虫“指向”该存储桶？换句话说:文件上传会生成一个事件，导致AWS胶水爬虫对其进行分析。我知道有基于时间表的爬行，但从来没有发现过基于事件的爬行。

浏览 2提问于2018-02-16得票数 9

回答已采纳

1回答

关于搜索引擎中自动完成的问题

、、、、

搜索引擎是否在每次插入新字符以获得新建议时向服务器发送请求，以便使用自动完成功能？我指的是那些通过索引搜索的搜索引擎，而不是那些浏览网页的爬虫。

浏览 3提问于2020-09-16得票数 0

回答已采纳

1回答

使用多个EC2实例爬行

、

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳