python爬虫ua_爬虫 python_python 爬虫 - 腾讯云开发者社区

我见过一些网站隐藏了robot.txt文件。我也想隐藏文件robot.txt对访问者如何做呢？<meta name="ROBOTS" content="NOODP">所以我不明白代码的含义。谢谢!

浏览 4提问于2012-10-20得票数 0

回答已采纳

1回答

动态渲染实际上意味着什么？

、、、

让我解释一下情况。我不明白的是动态渲染和SSR有什么不同？使用动态渲染的整个想法是首先简化不使用SSR的过程，但是使用动态渲染仍然让我认为我们必须构建一个服务器，在那里创建html +异步调用，并返回SSR所做的最终html。它和SSR有什么不同？

浏览 0提问于2020-12-05得票数 1

3回答

从用户代理识别爬虫程序

、

但我想识别爬虫(因为它们不能被视为访问者)。那么有没有办法从用户代理中识别爬虫呢？爬虫的用户代理是否遵循任何常见的模式？

浏览 1提问于2012-06-12得票数 0

2回答

蜘蛛/机器人UserAgent检测C#

、、

我的目标是创建一个异常，根据它们的UserAgent字符串来检测它们是否是爬虫。

浏览 1提问于2013-11-08得票数 4

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

3回答

如何让爬虫忽略我的免责声明

、

问题是，我根本不想让爬虫遇到免责声明。它所做的就是忽略了Googlebot用户代理。这是唯一的解决方案吗？通过爬虫的UA来识别爬虫？如何检测cookie -如果我没有cookie，这意味着它是一个爬虫？谢谢

浏览 1提问于2011-12-14得票数 1

回答已采纳

1回答

用google bot掩码java jsoup爬虫来下载网页

、

我在我的网络爬虫里用Jsoup。这是我用来下载网页的代码。String ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; Document doc = Jsoup.connect(url).userAgent(ua).timeout(20000).get();

浏览 2提问于2013-08-27得票数 1

回答已采纳

2回答

如何将多个爬虫放在同一个文件中

、

我正在向我的scrapy程序中添加第二个爬虫，我想将它放在与我的其他爬虫相同的python文件中，并使用相同的设置和所有东西，但我很难弄清楚这一点，因为当我创建新的蜘蛛时，它会为新的蜘蛛创建新的设置，"], mode="r") as csv_file: # requests is a list of dictionaries like this -> {url: str, ua# Pair with user agent specified in csv file

浏览 30提问于2019-06-19得票数 0

回答已采纳

4回答

从PHP视图计数器中排除机器人和蜘蛛

、、

我已经为一个PHP网站建立了一个相当基本的广告管理器。它服务于我的低流量网站，尽管只是显示一个随机的横幅广告，计数印象浏览和点击。我注意到的一件事是，印象/视图计数器似乎经常被夸大。例如，如果有人从我的网站上的

浏览 4提问于2013-07-07得票数 8

回答已采纳

2回答

Selenium没有加载TikTok页面

、、、

我正在使用selenium和scrapy实现一个TikTok爬虫.... options = webdriver.ChromeOptions() ua= UserAgent() op

浏览 6提问于2019-12-10得票数 5

2回答

等待Thread::Queue完成的正确方式是什么？

、

我正在尝试构建一个简单的爬虫，但似乎所有的线程都不会完成，甚至队列都是空的：use warnings;use Thread::Queue;use HTML::LinkExtor; my %visited = (); my ($ua,next = $queue->dequeue)

浏览 0提问于2012-11-10得票数 1

回答已采纳

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

2回答

为什么我不能摆脱Facebook的用户代理？

、、、

爬虫没有被我的用户代理分离器捕获。我正在使用这个代码来检测Facebook爬虫。有办法解决这个问题吗？

浏览 1提问于2018-04-18得票数 0

回答已采纳

4回答

阻止facebook进入我的网站

、、、、

我有一个安全的链接方向服务，我正在运行()。如果我在php中更改标题以重定向访问者，那么当用户通过facebook发送链接时，facebook可以显示我要重定向到的网站的预览。我希望避免这种情况。现在，我正在使用AJAX调用来获取URL和javascript来重定向，但是它给不使用javascript的用户带来了问题。我曾经尝试过阻止facebook的机器人(facebookexternalhit/1.0和facebookexternalhit/1.1)，但它不起作用，我不认为他们是为了阻止facebook的IP地址而使用它们，但

浏览 21提问于2011-11-19得票数 9

回答已采纳

1回答

网站阻止Python爬虫。寻找要避免的想法

、

我想从 (在美国中)的对象站点抓取数据，比如：，但是如果爬虫试图启动页面，我只会得到下面的代码。我想几个小块爬虫，但我不知道如何和轮有一个可避免的方法。有什么主意吗？Python、请求、BeautifulSoup --与其他网站相比，它工作得很好。content="initial-scale=1.0" name="viewport"/> <meta content="IE=edge,chrome=1" http-equiv="X-

浏览 4提问于2018-12-28得票数 1

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

1回答

AWS Glue Crawler为每个文件定义一个模式

、、

1627978464738 "event": "x", "badgeId": null, "projectId": "x", "durationMs": 0, "responseCode": 200

浏览 5提问于2021-08-09得票数 0

回答已采纳

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

将数据从PHP脚本传递到Python* Web Crawler*

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何向游客隐藏robot.txt？

动态渲染实际上意味着什么？

从用户代理识别爬虫程序

蜘蛛/机器人UserAgent检测C#

Facebook Linter / Open Graph截取URL路径

如何让爬虫忽略我的免责声明

用google bot掩码java jsoup爬虫来下载网页

如何将多个爬虫放在同一个文件中

从PHP视图计数器中排除机器人和蜘蛛

Selenium没有加载TikTok页面

等待Thread::Queue完成的正确方式是什么？

弹性豆杆不运行的克隆约伯

为什么我不能摆脱Facebook的用户代理？

阻止facebook进入我的网站

网站阻止Python爬虫。寻找要避免的想法

将具有动态生成名称的DynamoDB表导出到S3

AWS Glue Crawler为每个文件定义一个模式

使用scrapy python的.net框架

将数据从PHP脚本传递到Python* Web Crawler*

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐