腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2741)
视频
沙龙
2
回答
Asp.net Request.Browser.Crawler -动态
爬虫
列表?
、
、
我
学会
了为什么在C# ()中Request.Browser.Crawler总是假的。 有没有人使用某种方法来动态更新
爬虫
列表,所以Request.Browser.Crawler真的会很有用?
浏览 3
提问于2009-01-10
得票数 8
回答已采纳
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
2
回答
蜘蛛会使用哪个链接来搜索列表,静态链接还是RewriteRule url?
、
、
、
、
我是Apache重定向的新手,但我已经
学会
了如何处理由
PHP
在我的网站上生成的干净urls,它们工作得很好。RewriteRule ^([^
浏览 0
提问于2013-03-15
得票数 1
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
1
回答
有没有免费的
php
爬虫
?
、
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的
php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
3
回答
重定向爬行器
、
、
我想添加一个脚本来检查代理信息,如果它匹配其中一个
爬虫
的一部分,我想轻轻地将其重定向到另一个页面。在页面级别重定向,而不是在.htaccess文件中重定向的最好方法是什么?
浏览 1
提问于2011-06-25
得票数 0
2
回答
如何修复facebook的循环重定向?
、
、
我在一个网站上做了4个登陆页面,和一个
php
脚本随机化了不同的登陆页面。 但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据,因为在重定向路径之后有一个错误。
浏览 4
提问于2015-06-03
得票数 3
回答已采纳
3
回答
将数据从
PHP
脚本传递到Python Web Crawler
、
、
、
、
我有一个python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用
php
获取HTML页面的标题?
、
、
如何使用
php
获取HTML页面的标题?我已经做了一个
php
网络
爬虫
,我想在我的
爬虫
中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
1
回答
Robots.txt文件,允许除一个以外的所有根
php
文件,并且不允许所有子文件夹内容。
我希望所有根文件夹*.
php
文件都被索引,除了一个(exception.
php
),并且希望根文件夹的所有子目录中的所有内容都不被索引。我已经尝试过以下方法,但是它允许访问子目录中的
php
文件,即使子目录一般没有索引吗?……User-agent: *disallow: /*…… 有人能帮忙吗?
浏览 5
提问于2019-10-03
得票数 1
回答已采纳
5
回答
如何阻止
爬虫
(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业
php
服务器中的
php
页面。我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
2
回答
php
爬虫
检测
、
我正在尝试编写一个sitemap.
php
,它根据查看对象的不同而执行不同的操作。我想将
爬虫
重定向到我的sitemap.xml,因为这将是最新的页面,并将包含他们需要的所有信息,但我希望我的老读者在
php
页面上显示一个html站点地图。这一切都是在
php
头中控制的,我在网上发现了,从外观上看,它应该可以工作,但事实并非如此。有人能帮我破解这个吗?
浏览 0
提问于2009-07-24
得票数 2
回答已采纳
1
回答
PHP
网络
爬虫
、
我正在寻找一个
PHP
的网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
提问于2011-04-12
得票数 0
1
回答
/和index.
php
.如何消除这个重复的页面问题?
、
在我的网站根目录中,我有一个index.
php
,当然还有其他的页面。问题是,当我用
爬虫
或站点地图
爬虫
等爬行我的网站时,它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的
爬虫
没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
1
回答
爬虫
脚本
php
、
php
{ if/' . ltrim($href, '/'); crawl_page($href, $depth - 1); echo "URL:",$url,
PHP
_EOL
浏览 0
提问于2011-04-11
得票数 1
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用
PHP
或Java编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
1
回答
是什么阻碍了我的
PHP
脚本?
、
、
、
我们有一个
PHP
爬虫
运行在我们的web服务器上。crawler运行时,没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是
PHP
),托管在同一台服务器上,停止响应。基本上,
爬虫
会阻止任何其他
php
脚本运行。** fsockopen用于将文件下载到crawler!**
浏览 3
提问于2010-05-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
学会网络爬虫,数据轻松到手!
从零开始,学会 PHP 采集
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券