腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在性能方面,为什么facebook不一次加载所有的
JS
文件?
、
登录后,我查看了facebook中的html代码,他们似乎对
JS
文件做了很多请求(根据firebug,多达20个)。所以,虽然我知道facebook需要加载许多
JS
和CSS文件(而不是一个
JS
和一个CSS文件),但我的问题是更通用的网站和
网络
爬虫
的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响
网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/
js
/css)似乎是个好主意,但如果<e
浏览 2
提问于2013-03-18
得票数 3
2
回答
如何打开需要node.
js
的web应用程序
、
、
、
我必须运行微
爬虫
,这是一个
爬虫
网络
应用程序,与node.
js
运行。我不知道如何打开这个应用程序,我下载了node.
js
,当我在node.
js
命令行中编写install npm和install bower时,什么也没有发生。我也不知道如何在安装后启动web应用程序。
浏览 2
提问于2014-09-28
得票数 1
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
如何在Heroku上连续运行和托管Node.
js
脚本?
、
我目前想部署一个网站排名API,为此,我需要一个
网络
爬虫
。事情是,我想让
网络
爬虫
运行24/7,以便它可以不断更新网站。但是,对于Heroku这样的服务,一个小时后服务器就停止了。我如何宿主一个总是在Heroku上活动的Node.
js
脚本。如果不可能,我还能做些什么呢?
浏览 0
提问于2021-01-21
得票数 1
回答已采纳
1
回答
搜索引擎,它根据非结构化数据创建有关主题的信息表。
、
、
、
我正在寻找一个web应用程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要的列表,而是将结果转储到一个表中,试图从其内部索引中的页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared的
网络
应用程序。今天还有其他类似的工具吗?这是维基百科页面中的相关描述: Google从整个
网络
中提取结构化数据,并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表,其中有自己的一组列--与搜索主题相关联的公共属性。
浏览 0
提问于2023-02-07
得票数 2
2
回答
更新meta标签的content属性
、
我有这个:<meta name="keywords" content="" />谢谢
浏览 1
提问于2010-10-22
得票数 6
回答已采纳
1
回答
如何制作一个使用Javascript路由器的可索引网站?
、
、
、
、
我一直在开发一个使用Backbone.
js
路由器的项目,所有数据都是通过restful请求由javascript加载的。服务器使用可索引数据呈现此页面,当用户访问此页面时,我可以手动初始化Backbone.
js
路由器。当用户在某个地方共享该网站的网址时,它将不是一个可索引的页面,而且web
爬虫
可能无法识别该网址的内容。另外,
网络
爬虫
搜索页面中的额外字符串可能会让用户感到厌烦。我可以在服务器端从他们的用户代理中检测到流行的
网络
爬虫
,比如谷歌、雅虎、必应、Facebook,
浏览 1
提问于2013-01-06
得票数 2
回答已采纳
1
回答
爬取白页的可能解决方案
、
我正处于一个我必须编写的程序的开始阶段,该程序将从我拥有的大型数据库中提取用户,并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止,我只接触过Whitepages Pro,它提供了一个API,允许我对他们的数据库运行一些查询,并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址,因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较,以更正旧的数据。我的问题是,对于我的问题,这看起来是一个好的解决方案吗?Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元,但如果它
浏览 1
提问于2015-05-01
得票数 0
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
HTTP:“差异:用户-代理”标题的单一页面反应应用程序,为机器人进行SSR?
、
、
、
、
我有反应
网络
应用程序。这是一个单一的页面应用程序,所以基本上有一个“空”HTML文件和一个
JS
包来完成这一切。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的:ROBOT DESKTOP
浏览 0
提问于2021-01-07
得票数 0
回答已采纳
1
回答
node.
js
网络
爬虫
图像/视频
、
、
、
最近我一直在使用
网络
爬虫
,我已经想出了如何搜索文本,但有没有办法让我的
网络
爬虫
搜索其他东西,比如视频和图像,然后下载它们并组织它们。这是目前为止我的
网络
爬虫
:var cheerio = require('cheerio'); var URL = require('pagesToVisit.push(baseUrl + $(this).attr('href
浏览 3
提问于2016-09-04
得票数 0
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常的内容页面时,问题就开始了。尽管我已经三次检查了我的标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!页面上实际存在的og:url标记如下所示: 我怀疑这是FB缓存页面的问题,因为在我的About页面上,我进行了快速代码更改,更
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
5
回答
有哪些好的基于Ruby的
网络
爬虫
?
、
我正在考虑写我自己的,但我想知道是否有好的
网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的
网络
爬虫
,任何可能有助于构建
网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建
网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
1
回答
使用php检查AngularJS网页上是否存在某个字符串。
、
、
我看到这样的答案:检查网页中是否存在字符串-- ,它起作用了
浏览 17
提问于2017-02-24
得票数 1
1
回答
Web Crawler的功能
、
、
网络
爬虫
是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。
网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的
网络
爬虫
)?
、
或者,更普遍的是,高效的
网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发
网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix
网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
2
回答
建立一个自定义的网页
爬虫
的最佳方法,以便在URL中找到带有任意文本的站点?
、
但是,没有使用任何搜索引擎,这意味着,编写一个纯
网络
爬虫
。--很明显,它永远不会停下来运行.它甚至在碰到我想要的东西之前会遇到很多“垃圾”站点。
浏览 8
提问于2010-09-26
得票数 0
回答已采纳
2
回答
在MYSQL中删除非常非常相似的行
、
在PHPMYAdmin中,我正在运行一个
网络
爬虫
。
网络
爬虫
偶尔会拾取相同的urls。在
网络
爬虫
中,它已经索引了数千个链接,我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)
浏览 1
提问于2012-08-17
得票数 0
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于PHP的
网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个
网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
0
回答
如何在Azure函数中保存HTML中的PDF
、
、
、
我正在开发一个应用程序,这将有一些网站的
网络
爬虫
。到目前为止,一切顺利,但是,我们必须保存一些
爬虫
通过该站点的证据。我们正在考虑用
爬虫
经过的屏幕保存一个PDF文件,但是,由于Azure函数没有GDI+,它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有
JS
和CSS依赖项)保存到PDF文件中。
浏览 7
提问于2018-07-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网络爬虫
爬虫之旅(2)——网页知识储备html、css及js
网络爬虫简介
网络爬虫常用的几种技巧,三探爬虫,理解爬虫
什么是网络爬虫?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券