腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
PHPcrawler - tmp文件
我下载了最新版本的phpcrawler,并且可以访问自己的测试网站。 我只有一个图片和一些文本在这个网站上,我运行爬虫和我收到的文本减去图像,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i"); 我无法获得它来保存tmp文件。它不会在我运行爬虫的文件夹中保存唯一的tmp文件,我已经尝试保存一个命名的文件没有运气。 在所有php文件中的不同行中,我确实遇到了许多折旧错误,例如:@fopen,@在不同区域引起问题。我使用PHP,也可以执行Regex。大卫。
浏览 0
提问于2012-04-02
得票数 0
3
回答
web爬虫会在php密码保护页面中检测到这些jpeg吗?
、
、
、
如果出现以下情况,网络爬虫能够找到jpegs/映像吗? 页面使用php $_SESSION作为密码保护。 在页面加载之前,网页检查$_SESSION中的密码是否正确 如果密码正确,则加载页面,加载.jpegs 如果密码在$_SESSION页面中不正确,则使用if状态的METAREFRESH是否会加载.所以爬行器无法访问.jpgs。 我不希望这些图片能够出现在google/yahoo/bing/etc图像搜索中。我读了很多关于搜索引擎优化/机器人/爬虫,但我不确定这一点。 是这样的吗?
浏览 5
提问于2013-10-08
得票数 0
回答已采纳
1
回答
在scrapy下载图像时获取钩子失败
、
、
我正在尝试用爬虫从网站下载图片。 我的爬虫运行得很好,数据库里也有东西 这是scrapy的调试 2012-12-20 09:25:23+0800 [working] DEBUG: Crawled (200) <GET http://www.example.com/images/28_34.jpg> (referer: None) 2012-12-20 09:25:23+0800 [working] DEBUG: Image (downloaded): Downloaded image from <GET http://www.example.com/images/28_34.
浏览 1
提问于2012-12-19
得票数 0
回答已采纳
2
回答
基于PHP的Web爬虫或基于JAVA的Web爬虫
、
、
我对基于PHP的网络爬虫有些怀疑,它能像基于java线程的爬虫一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用php爬虫将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对php爬虫一无所知! 有没有任何php爬虫,它的性能良好,可以索引爬行网站到ElasticSearch? 帮助我为我的项目选择php爬虫,我可以将它与ElasticSearch集成。 我可以在php web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
1
回答
如何阻止Web爬虫下载文件
、
、
是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)? 我应该创建一个PHP脚本,使用cookie跟踪访问者,特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。 有可能阻止网络爬虫吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web爬虫上? 我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web爬虫呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。
浏览 0
提问于2013-07-27
得票数 1
1
回答
PHP在命令行上的性能与Ruby/Python/等
、
、
、
我最近意识到,使用wget调用php cron脚本与使用命令行调用它们之间存在巨大的差异。 php index.php controller function (在这里使用codeigniter ) 尤其是当脚本在后端进行大量处理时。 我意识到,如果apache从图片中删除,php的行为就像你在命令行上使用的任何其他脚本语言一样。 我的问题是,当命令行上的所有脚本语言在性能方面处于平等的地位时(比方说,如果我们正在构建一个网络爬虫),或者使用php与Ruby、Python或Perl相比,是否存在重大缺陷或性能缺陷。 谢谢!
浏览 0
提问于2013-09-21
得票数 0
1
回答
如何为web爬虫设置有效的cron作业
、
、
我已经写了一个php网络爬虫来索引只有180个特定来源的内容,但它平均每页需要2秒来分析,抓取和保存我想要的内容:图片,网址,标题,完整内容,摘录,标签。(有几种算法可以分析所有元标签以获得正确的数据) 我只抓取最新的9个文章页面,所以每个信息源需要18-25秒。 我创建了10个不同的cron作业(它们之间相隔6分钟),因此每个作业可以处理18个源(大约350秒)。 这似乎非常低效,特别是如果我想达到1000个源码的话。我应该修改什么? ps:我正在一个共享主机上测试它,一个专用的服务器会大大减少时间吗? cron作业类似于: lynx -auth用户名:密码website.com/crawl
浏览 0
提问于2012-09-26
得票数 1
1
回答
有没有免费的php爬虫?
、
过去我用过自己的爬虫,但现在我需要更健壮的爬虫,我想知道有没有什么好的免费的php爬虫?
浏览 0
提问于2010-11-21
得票数 3
2
回答
爬虫被卡在Drupal中的强制性agecheck页面上。
、
、
、
我们在drupal中建立了一个大型社区网站,在您访问该网站的内容之前,该网站有一个强制性的agecheck。 它检查一个cookie是否存在,如果没有,您将被重定向到agecheck页面。 现在我们相信爬虫者会被困在这个部分,他们会被重定向到阿格切克,永远不会爬上完整的网站。 以前有人吃过这个吗?处理这种事情最好的方法是什么? 砂光机 编辑 很抱歉,现在我要说的是,爬虫的一个问题是,当社区中的某个人在他的脸书上贴了什么东西时,facebook会把这个页面爬回来来获取图片和描述(这些图片和描述是在元标签中指定的),但是facebook也会被重定向到agecheck页面。如果我添加facebook
浏览 18
提问于2009-08-19
得票数 0
回答已采纳
4
回答
PHP警告: exec()无法分叉
、
这是关于我的设置的背景信息。使用apache和php 5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有爬虫脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个爬虫脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候,我有21个爬虫不断运行,以收集和更新这些网站的产品。每个爬虫都是一个php文件,一旦完成了php脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭。这有助于防止内存泄漏,因为每个爬行器在关闭之前重新启动。不过,最近我将检查爬虫脚本,并注意到其中一个脚本不再运行,
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
3
回答
如何修复或优化代码以忽略PHP中的内存大小错误
我用simple_html_dom库写了一个图片爬虫,我用这段代码来获取网站中的所有图片; include 'simple_html_dom.php'; $img_array = array(); if (isset($_POST['url'])) { $url = $_POST['url']; $html = file_get_html($url); echo $html->getElementByTagName('title')->innertext(); foreach ($htm
浏览 0
提问于2012-06-21
得票数 0
回答已采纳
1
回答
是否有一种以编程方式强制爬虫不索引特定图像的方法?
、
、
、
我想阻止爬虫索引特定的图片在我的网站上,但只有当他们是年龄超过一个特定的日期。但是,爬虫不应停止索引当前链接图像的页面。 我最初的方法是编写一个脚本,它将图像的URL添加到'robots.txt',但是我认为文件会变得很大,因为我们谈论了大量的潜在图像。 我的下一个想法是使用<meta name="robots" content="noimageindex">标记,但我认为这种方法很容易出错,因为我可以忘记将这个标记添加到模板中,在模板中我可能希望阻止爬虫对图像进行索引。这也是多余的,爬虫将忽略所有的图像。 我的问题是:如果某个条件(
浏览 4
提问于2017-09-18
得票数 0
回答已采纳
1
回答
从bing search下载图片
、
、
、
我正在试着写一个爬虫在狂欢下载图片从冰。除了bing在开始时只加载了30张图片(使用无限滚动)之外,一切都很好,因此我不能使用wget下载超过30张图片。 有没有办法一次从必应图片下载30多张图片? --谢谢你的帮助。:)
浏览 1
提问于2011-07-30
得票数 0
回答已采纳
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用php获取HTML页面的标题?
、
、
如何使用php获取HTML页面的标题?我已经做了一个php网络爬虫,我想在我的爬虫中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
1
回答
基于博客帖子项目更改开放图形图像标签
、
、
我正在维护一个wordpress博客,并且熟悉使用og:image元标签来设置当按下like按钮时包含的默认图像。我想知道的是,如果有一种方法,使该图像动态的基础上喜欢的项目。 我正在尝试构建它,以便在特定博客帖子中喜欢的第一张图片是推送到facebook feed帖子中的图片,只有在帖子中没有图片时才使用博客的默认图片。facebook是否提供了使用图形api来实现这一点的方法? 我尝试编写javascript来更改文章页面(而不是主页)上的meta标签,但后来发现爬虫不运行javascript,所以我现在考虑用PHP实现相同的服务器端。这仍然不能解决博客主页的点赞问题,尽管页面上有多个博客
浏览 1
提问于2011-11-08
得票数 0
回答已采纳
1
回答
如何使用漂亮的soup python检索最大尺寸的图像
、
、
、
、
我用python做了一个爬虫,我正在尝试下载这篇文章中的图片--。这个网站的问题是,它会自动调整大小,当我尝试下载文章的图片时,它给我的是320像素(太小)。发生这种情况的原因是爬虫进入url的源文件(view- source:),它有320个像素。有一种方法可以使图像最大尺寸,或者我如何在浏览器中看到它?这是获取图像的代码: r = requests.get("http://www.bbc.com/news/business-34958154") soup = BeautifulSoup(r.content) soupAllImgs=soup.findAll('img
浏览 0
提问于2015-11-30
得票数 2
5
回答
如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业php服务器中的php页面。 在这个php页面中,我将返回一个加密的json。同样在这个页面中,我有一段代码来跟踪哪个in正在访问这个php页面,并且我注意到有一个spyder/Nutch-2爬虫正在访问这个页面。 我在想,一个爬虫怎么可能找到一个没有在任何搜索引擎中发布的页面。我有办法阻止爬虫访问这个特定的页面吗? 我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
1
回答
/和index.php.如何消除这个重复的页面问题?
、
在我的网站根目录中,我有一个index.php,当然还有其他的页面。问题是,当我用爬虫或站点地图爬虫等爬行我的网站时,它会报告两个重复的链接。 www.domain.com/ www.domain.com/index.php 如何强制告诉我的爬虫没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?等等,我该怎么解决这个问题?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
1
回答
网络爬虫会遇到什么危险?
我刚写完一个爬虫,一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
1
回答
如何使用网络抓取从谷歌地图获取链接?
、
、
我用java创建了网络爬虫程序,它运行得很好,问题是我如何才能得到这些图片中的链接?
浏览 9
提问于2016-09-11
得票数 0
回答已采纳
1
回答
Google爬虫屏幕大小
、
、
假设一个我有两种类型的图像(A和AAA(更重))为同一网站:取决于屏幕的大小,它将显示一幅或另一幅。 现在我想知道什么图片(A或AAA)加载谷歌爬虫时,它访问我的网站。 换句话说:谷歌爬虫有“屏幕大小”吗? 我想,如果它加载A图像,那么页面速度会比加载AAA图像更好。
浏览 0
提问于2013-07-09
得票数 4
回答已采纳
0
回答
scrapy shell 调试返回200,但是在scrapy crawl启动爬虫返回443?
、
、
、
、
图片 图片 查了很多方法,添加r=requests.get(url,verify=False) 添加verify=False,依然无效。scrapy 自带可以访问https的验证,关闭SSL验证也是不起作用。为什么scrapy shell调试此网站没问题,用scrapy组件写爬虫执行就报错呢
浏览 108
提问于2023-04-25
1
回答
是什么阻碍了我的PHP脚本?
、
、
、
我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时,没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP),托管在同一台服务器上,停止响应。基本上,爬虫会阻止任何其他php脚本运行。 编辑: ** fsockopen用于将文件下载到crawler!**
浏览 3
提问于2010-05-11
得票数 0
1
回答
php - google爬虫能检测if语句中的元标记吗?
、
我有一个模板网页,有一个固定的页眉/页脚。根据要显示的主体内容,我需要更改头部中元标记的内容。 在谷歌搜索之后,我了解到google爬虫不会运行任何javascript代码,也不会在页面中读取php变量。如果是的话,google爬虫会不会忽略If语句来检测到下面的元标记? <?php if(about page) ?> <meta ...> <meta ...> <meta ...> <?php } else if(contact page) { ?> <meta ...> <
浏览 0
提问于2014-04-27
得票数 0
回答已采纳
1
回答
基于PHP crawler的IP切换
、
、
、
、
我正在寻找一个解决方案,以切换IP时自动运行PHP爬虫。我有一个自定义的爬虫,它运行100个线程,但由于油门限制,我经常被阻塞。因为PHP不支持多线程,所以我设置了windows调度程序来并行运行PHP应用程序。 我想为每个线程分配一个不同的IP地址,并欢迎任何建议来克服这个问题。
浏览 1
提问于2014-04-14
得票数 0
1
回答
crawler JMeter中出错
、
我在JMeter中有一个爬虫测试(爬虫)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数 我只需要绕过这个参数,然后我将我的代码留在Java中,根据您的意见,爬虫(爬虫)会更可行。 在此处输入图像描述 public static void main(String[] args) { try { Connection.Response loginForm = Jsoup.connect("http://appware-sst.com/elegancia-ejecutiva"
浏览 2
提问于2017-04-06
得票数 0
2
回答
使用noscript优化SEO
、
、
我有使用ajax加载帖子的新闻门户,以获得更好的用户体验。Web爬虫看不到javascript生成的链接和文本,所以我读到了关于为爬虫使用noscript标记的文章。在noscript部分中,我以正确的方式(在我的php代码中)使用标题标记来呈现标题、字幕、描述和链接到post。许多SEO分析器网站现在看到了这些内容,但我不知道真正的爬虫像谷歌和其他。他的这是一个很好的方式,使我的内容可见的爬虫?我知道这很容易..。
浏览 0
提问于2015-04-22
得票数 3
1
回答
将.htaccess更改为工作?_escaped_fragment_= URL
、
、
我有一个阿贾克斯网络应用程序,我需要谷歌索引。所以我使用了hashbang,并且我需要将?_escaped_fragment_=传递给一个单独的爬虫PHP。 目前 DirectoryIndex index.php RewriteEngine on RewriteCond %{QUERY_STRING} ^_escaped_fragment_=(.*)$ RewriteRule ^$ crawler.php?cat=%1 [QSA,L] 重定向到像这样的url /crawler.php/m/GkQs6Mw4W8。如何将爬虫重定向到这样的URL, crawler.php?cat=m&
浏览 0
提问于2014-11-10
得票数 0
2
回答
我需要为特定的用户代理编写一个网络爬虫
、
我需要编写一个网络爬虫,并希望能够爬行使用一个已知的用户代理。例如,我希望我的爬虫程序充当iphone来抓取网站的移动站点,然后使用Mozilla PC代理再次抓取,等等。 这样,我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而,我也希望能够设置我的爬虫的用户代理,这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫,而不是真正的用户。 所以我的问题是,你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗?这有可能吗?
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
4
回答
用php编写客户端重定向服务器端
、
、
、
我正在寻找一个客户端重定向到另一个领域的PHP。 我不想做301 - 302 - 307等重定向的原因是因为我希望页面向爬虫程序发送一个200HTTP OK响应。 我通常使用混淆的JavaScript在静态use主机(如S3 )上执行此操作,但是,我意识到爬虫程序可能会拾取JS,因为它是客户端。 我使用的未被阻塞的JS代码示例; window.location.href = "http://yourURL.com"; 然而,爬虫很难找到PHP,所以我想做一个类似的重定向,但用的是PHP。 如果有人能分享他或她的意见,这将是最好的方式。 提前感谢!
浏览 0
提问于2015-07-29
得票数 0
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
6
回答
Tor网络爬虫
、
、
、
、
好的,这就是我需要的。我有一个基于PHP的网络爬虫。它可以在这里访问:现在,我的问题是我的爬虫需要在SOCKS端口9050上抓取页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。(仅以.onion结尾。)我使用php crawl.php从命令行调用此脚本,并添加适当的参数来抓取页面。我的想法是:有没有办法强迫它使用Tor?或者我可以强制我的整个机器通过Tor进行隧道操作,以及如何实现?(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置,php会尊重它们吗? 如果我的任何解决方案都有效,我该怎么做呢?(请按步骤说明,我是菜鸟
浏览 7
提问于2012-02-11
得票数 10
2
回答
如何建立一个基于Scrapy的网络爬虫来永久运行?
、
、
我想建立一个基于Scrapy的网络爬虫,从几个新闻门户网站抓取新闻图片。我想让这个爬虫: 永远跑 这意味着它将定期重新访问一些门户页面,以获得更新。 安排优先次序。 对不同类型的URL给予不同的优先级。 多线程取料 我读过Scrapy文档,但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗?或者给出一些想法/例子。谢谢!
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
0
回答
用于单页面应用的Facebook共享器
facebook链接共享机制如下:当您想要将网站链接共享到Facebook时,facebook爬虫将尝试识别您的网页,并确定head标签中是否存在Facebook Open Graph标记。如果存在,则在分享时将其提取为帖子中的材料。 问题是:如果这是一个单页面的React App,例如,我想分享一个商业产品,我想要我的帖子包含它的图片和品牌名称。但是,由于此类数据是异步检索的,因此facebook爬虫不会获取产品信息。
浏览 7
提问于2017-12-13
得票数 0
回答已采纳
1
回答
Crawler将参数从url添加到链接
、
、
、
、
我尝试了两种不同的网络爬虫(Sistrix和)。这两个爬虫都会报告有关/和/?katID=12等URL的重复内容的错误。 事实证明,如果爬虫调用url /projekte/index.php?katID=12,它会找到<a href="/">Home</a>并将其作为链接添加到/?katID=12。看起来url ?katID=12中的参数被添加到页面上没有参数的每个链接中。 如果我使用浏览器或wget,我会看到想要的到/的简单html链接。 我做错什么了吗?服务器配置? 这是爬虫中的bug还是一个特性?
浏览 5
提问于2013-04-02
得票数 2
回答已采纳
2
回答
为什么我不能摆脱Facebook的用户代理?
、
、
、
我想使用一些permalink片段,允许用户与它的Facebook图片、url、描述等共享链接(url.com/ users /songtitle)(它将用户重定向到url.com/#/artist/songtitle)。因此,我决定向Facebook用户代理展示OG,并将其与重定向器分开。 但是,当我使用并尝试获取时,问题就出现了。爬虫没有被我的用户代理分离器捕获。 我正在使用这个代码来检测Facebook爬虫。有办法解决这个问题吗? strpos($_SERVER["HTTP_USER_AGENT"], "facebookexternalhit/
浏览 1
提问于2018-04-18
得票数 0
回答已采纳
1
回答
php中的简单爬虫回显链接
我想用php做一个简单的爬虫,它可以让我获取网页中的链接,回显它们的url,然后爬行到其他页面,在某个特定的域名下做同样的事情。这里有必要使用cURL吗?Also..how会指定爬虫的深度。 到目前为止,我有这样的想法: $dom = new DOMDocument; $dom->loadHTML($html); foreach( $dom->getElementsByTagName('a') as $node ) { echo $dom->saveXml($node), PHP_EOL; }
浏览 1
提问于2011-07-06
得票数 0
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
、
、
我使用亚马逊云托管我的网站。在过去的三个月里,我收到了来自亚马逊团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌爬虫可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。请看图片。 。谁能让我确定这个附件是由于谷歌爬虫或不?
浏览 1
提问于2015-01-01
得票数 0
4
回答
回形针:如何在Rails控制台中存储图片?
、
、
、
我尝试在rails控制台中存储本地镜像。 因为我有许多图片在我的本地存储(我使用爬虫下载成吨的图片),我想将它们存储到数据库中,利用回形针的好处来做一些图像工作,如缩略图等。如果我使用网页将新图片逐个保存到数据库中,将花费大量时间。所以我想在rails控制台(一些代码)中找到一种可以批量将图片保存到数据库中的方法。
浏览 1
提问于2011-01-13
得票数 38
2
回答
当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么?
、
、
、
、
我想防止一个页面被索引,以及它的资产(图片)。 因此,如果我告诉爬虫程序跳过该页面,但该页面仍在sitemap.xml中注册,那么该页面上的任何信息会被索引吗?
浏览 13
提问于2017-06-29
得票数 0
5
回答
如何允许爬虫使用robots.txt只访问index.php?
、
、
如果我想只允许爬虫访问index.php,这行得通吗? User-agent: * Disallow: / Allow: /index.php
浏览 0
提问于2009-10-28
得票数 10
2
回答
PHP scraper脚本中的Useragent
我有一个PHP刮板脚本,我用它来刮我的网站上的一个页面。然后,该脚本将内容解析为HTML并将其输出给用户。我遇到过在PHP中使用useragent函数来假装你是一个爬虫,例如GoogleBot。我如何将我的两个脚本组合在一起,这样我抓取的页面就会认为我是一个爬虫? 我的抓取器PHP代码是: $query=$_REQUEST['q']; $html = file_get_contents("search.php?q=$query"); preg_match_all( '/<div class="cl1 cld">.*?
浏览 0
提问于2011-06-19
得票数 3
回答已采纳
1
回答
Web爬虫更新策略
、
我想抓取有用的资源(比如背景图片)。)从某些网站。这不是一项艰苦的工作,特别是在一些出色的项目,如刮刮的帮助下。 这里的问题是,我不仅要爬这个网站一次。我还想让我的爬行长时间运行,并抓取更新的资源。因此,我想知道,有什么好的策略,一个网页爬虫得到更新的网页? 这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为爬虫提供一定数量(比如,10000)的URL来进行抓取。然后下一轮。具体步骤如下: 爬虫将启动URL添加到URL存储库 爬虫要求URL存储库最多抓取N个URL 爬虫获取URL,并更新URL存储库中的某些信息,如页面内容、获取时间和内容是否已更改。
浏览 1
提问于2010-04-05
得票数 4
3
回答
如何使用PHP检测爬虫/蜘蛛?
、
如何使用PHP检测爬虫/蜘蛛? 我目前正在做一个项目,我需要跟踪每个爬虫的访问。 我知道您应该使用HTTP_USER_AGENT,但是我不太确定如何为此目的格式化代码,而且我知道用户代理可以很容易地更改,所以我也想知道是否可以添加更多的参数以避免欺骗? 我想要做的事情的样本代码。 <?php $user_agent = $_SERVER['HTTP_USER_AGENT']; if (strpos( $user_agent, 'Google') !== false) { echo "Googlebot is here"; } ?> 谢
浏览 3
提问于2013-11-14
得票数 8
回答已采纳
1
回答
TYPO3 9.5: indexed_search不可用
、
、
我想使用TYPO3 9.5.13向站点添加搜索功能。到目前为止,没有问题,只需执行composer require "typo3/cms-indexed-search" ^9,因为indexed_search支持9.5。 然后,文档告诉我安装爬虫扩展(据说是"aoepeople/ crawler ":"^6.7")。 问题是爬虫文档声明它支持最多8.7.99的TYPO3。 没有风险-没有乐趣,所以试着安装爬虫,即使它不明确支持TYPO3 9.5。 在页面上选择"info“时,它告诉我: Fatal error: Class 'TY
浏览 2
提问于2020-01-04
得票数 0
回答已采纳
1
回答
什么是"Parse error: example2.php中的语法错误,意外Parse= '>‘“
、
我不太擅长php,但我试图学习爬虫的功能。我试着把我学到的关于爬虫的东西应用到这个网站中 在我继续使用example2之前,一切都很好。我犯了这个错误 解析错误:第7行上example2.php中的语法错误,意外Parse> '>‘ 从这个代码 <?php include_once('simple_html_dom.php'); $target_url = “localhost/wordpress”; $html = new simple_html_dom(); $html->load_file($target_url); foreach($ht
浏览 0
提问于2013-05-03
得票数 0
1
回答
用于提取和解析数据并将其保存到数据库的Web爬虫
、
我希望将一些网站的内容复制到本地数据库中,以便进一步进行个性化搜索。我知道我必须使用爬虫,我找到了一些关于scrapy的很好的参考资料。 我的问题是,你知道有没有用PHP写的好的爬虫。
浏览 0
提问于2013-04-16
得票数 0
回答已采纳
5
回答
URL中的^符号是什么意思?
、
、
URL中的^符号是什么意思? 我需要从网页中抓取一些链接数据,我使用了一个简单的手写PHP爬虫。爬虫通常工作得很好;然后我找到了一个URL,如下所示: http://www.example.com/example.asp?x7=3^^^^^select%20col1,col2%20from%20table%20where%20recordid%3E=20^^^^^ 此URL在浏览器中键入时工作正常,但我的爬虫程序无法检索此页面。我收到一个"HTTP请求失败的错误“。
浏览 1
提问于2010-02-25
得票数 5
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
php如何控制用户对图片的访问 PHP禁止图片盗链
爬虫抓取页面图片
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券