python_ajax爬虫 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

无法在Lambda中创建AWS胶水爬行器，Lambda由Step函数触发

、、、、

该查询成功运行，并在给定的S桶中生成结果要在Lambda中创建AWS爬虫，下面是我在Lambda (NodeJS)中的代码： };}; Problem createCrawler是一个异步调用，La

浏览 2提问于2021-08-14得票数 1

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

EJB未注入

、、、

我的Java应用程序使用，它使用以下代码开始抓取：config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC

浏览 3提问于2012-07-01得票数 0

回答已采纳

1回答

使用noindex no追随者修复来自Google的移动可用性警告

、

我有一个移动网站，它确实显示使用是移动友好的，但我收到一条消息说，日历页面上有可用性错误，这是网站的一部分，但不是移动友好的。我最终将使这一页移动友好，但就目前而言，我只是希望谷歌，而不是将其视为移动网站的一部分。所以我的问题是，通过在页面上使用noidex，Google会忽略它，而不会对它的可用性进行评估。

浏览 4提问于2015-03-22得票数 0

1回答

AWS雅典娜分区键变成“varchar”

、、、

例如，我有两个分区键，account_id作为int，record_date作为date。当我执行一个查询时，雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么？

浏览 5提问于2022-09-29得票数 0

1回答

如何在一个python脚本中运行不同的scrapy项目

、、

我是Scrapy的新手，在同一个脚本中调用多个爬虫项目时遇到了一些困难。我有三个抓取项目，分别抓取不同的网页，并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。

浏览 3提问于2016-04-21得票数 0

1回答

爬虫和爬虫架构

、、、、

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4提问于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

、、

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

1回答

嗨，我有一个基本的蜘蛛，运行来获取给定的域上的所有链接。我希望确保它保持其状态，以便可以从它离开的地方恢复。当我第一次尝试时，我遵循了给定的url .But，它运行得很好，我以Ctrl+C结束它，当我试图恢复它时，爬行会在第一个url上停止。2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: 'downloader/request_count': 4, 'downloader/request_m

浏览 20提问于2016-08-30得票数 3

4回答

如何停止云主机上的爬虫？

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 485提问于2018-01-27

1回答

两个开放图形图像(facebook大小和google大小)

、、、

我如何包括开放图形图像(两个不同的；两个不同的大小)

浏览 0提问于2015-05-27得票数 1

回答已采纳

1回答

AWS Glue -在处理XML文件时保留前导零

、、、

我将XML文件存储在s3桶中，并运行爬虫来生成目录表中的模式。生成了目录表，但是当我在AWS Glue Studio中检查输出时，我可以看到以0开头的数据正在被删除。

浏览 4提问于2022-01-15得票数 2

1回答

如何为我的网站编制索引

、

我刚刚遇到了Elastic Search，我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此，如何为我的网站创建索引？我是否需要将整个网页内容存储为索引？？

浏览 0提问于2011-06-07得票数 1

回答已采纳

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

1回答

分布式系统中的任务分配

、

我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0提问于2013-05-23得票数 2

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我

浏览 0提问于2013-07-27得票数 1

2回答