腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
是否
需
要为
每个
目标
站点
编写
抓取
器
?
、
、
、
、
我使用Python语言和BeautifulSoup来
抓取
存储。我想问的是,如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart),我
是否
需要定制我的代码,因为它们具有不同的HTML ( 和 名字是不同的,另外还有其他东西)。我想知道比价网站是如何从所有在线商店中
抓取
数据的?他们对不同的在线商店有不同的代码,还是有通用的代码?他们会研究
每个
在线商店的HTML模式吗?
浏览 40
提问于2014-12-28
得票数 7
回答已采纳
1
回答
将大量异构数据收集到结构化数据集中
、
、
、
、
我一直在评估网络
抓取
的科学。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多地围绕着基础知识。假设我必须
抓取
新闻内容。因此,我
抓取
一个页面,然后
编写
选择
器
来提取内容、图像、作者、发布日期、子描述、评论等。 问题是,我如何优化它,使其可扩展到大量数据源。例如,可能有数千个新闻
站点
,
每个
站点
都有自己的html/页面结构,因此我不可避免地需
要为
每个
站点
浏览 2
提问于2014-09-19
得票数 2
1
回答
在Apache Nutch中设置cookie标头
、
我想
抓取
一个特定的网站,其中使用cookies进行身份验证。我想在Apache Nutch提出的用于
抓取
站点
的
每个
GET请求中设置cookie和用户代理信息。如何在配置中指定cookie信息,或者
是否
需
要为
此
编写
自定义插件?
浏览 0
提问于2016-06-04
得票数 1
2
回答
如何处理在C#中查询
站点
外部IP时抛出超时错误的现有代码?
、
我正在修改一些C#代码,这些代码查询并从
站点
HTML派生外部IP。然而,这个特定的
站点
有超时的倾向,有时在Chrome或任何浏览
器
中访问它可能会产生连接重置错误。在查询
站点
以获取本地机器外部IP时,延长超时时间。
浏览 2
提问于2015-05-05
得票数 0
回答已采纳
1
回答
如何使用rspec测试抓屏?
、
、
、
我正在写一个网站,它将很大程度上依赖于屏幕
抓取
。因为我知道屏幕
抓取
很容易中断,所以我希望以某种方式得到通知,告诉我有问题。 我认为可行的解决方案是为我想要支持的
每个
站点
编写
一个rspec测试。测试将从
每个
站点
打开几个远程页面,并将它们与我期望从我的
抓取
器
中获得的输出进行比较。我还想在本地缓存的副本上运行相同的测试,这样我就可以知道我的代码更改
是否
破坏了
抓取
器
,或者远程
站点<
浏览 0
提问于2012-11-16
得票数 5
回答已采纳
1
回答
我需要
站点
的
每个
子域的
站点
地图吗?
、
、
我
是否
需
要为
每个
站点
提供单独的
站点
地图?其中一个较小的
站点
是WordPress博客,它可以很容易地生成网站地图。然而,其他一些网站没有网站地图生成器。 我真的需要
每个
站点
都有一个网站地图吗?或者只要至少有一个链接,我就能指望google
抓取
所有的页面吗?
浏览 2
提问于2012-04-23
得票数 1
1
回答
当我从6k+网站上
抓取
内容时,我应该考虑什么?
、
我正在考虑使用服务
器
/客户端模型,其中服务
器
负责
抓取
数据并在客户端访问数据时将其导入数据库。为了
抓取
数据,我正在考虑使用像HtmlAgilityPack这样的html解析
器
,在这个解析
器
中,我将根据
每个
网站分别获取我想要删除的数据的xpath。(这是一项艰苦的任务,欢迎任何更好的建议)这些
站点
不提供API,但是有些
站点
为我想要
抓取
的数据提供RSS提要。 “服务
器
”将在一个固定的时间间隔内从
浏览 0
提问于2016-06-04
得票数 -1
1
回答
Angularjs:爬行ajax
站点
、
、
、
我读过很多关于如何
抓取
ajax
站点
的文章,我读过一篇文档,为了使ajax
站点
可以爬行,我们必须提供页面的html快照,我使用Rails作为服务
器
端语言。我想知道google服务
器
是如何在url下面转换的。是option1还是option2。http://example.com/#!_escape_fragment_=program/Chronicle 此外,
是否
有必
要为
网站提供
站点
地图。
浏览 3
提问于2014-01-13
得票数 0
回答已采纳
1
回答
Branch.io:对没有网站的应用动态内容进行索引
、
整件事情是如何工作的,就像我们需
要为
db中的所有内容创建分支通用对象和分支链接一样&如果是的话,我们怎样才能增量地完成它,而不是再次完成整个过程。我们
是否
需要使用一些API来进行链接/对象生成,我们可以通过cron作业触发这些API来生成对象&每天为DB中的所有数据生成链接。如果我正确地理解了文档,一旦链接/对象被创建,分支将自动创建内部
站点
地图&将它提交给google索引,而无需我们去担心它,对吗?
浏览 3
提问于2018-08-07
得票数 0
2
回答
在C#中使用asp.net表单登录对
站点
进行屏幕
抓取
?
、
是否
有可能为一个受表单登录保护的网站
编写
一个屏幕
抓取
器
。当然,我可以访问该
站点
,但我不知道如何登录该
站点
并将我的凭据保存在C#中。 此外,C#中的任何屏幕
抓取
程序的好例子都将受到高度赞赏。
浏览 0
提问于2009-05-23
得票数 7
回答已采纳
1
回答
从第三方网站获取数据
、
、
我的任务是想办法输入医生的名字,然后在一个条目中返回所有网站的结果,以减少浏览
每个
网站所花费的时间。我熟悉javascript、php和ruby,但绝不是专家。我的问题是,我应该从哪里开始?
浏览 2
提问于2014-03-29
得票数 0
回答已采纳
1
回答
动态数据的新爬行
、
我正在尝试写一个爬虫从一个网站上
抓取
信息,其中包含大约15 GB的数据。我
抓取
信息并将其存储在我的数据库中。现在,每周都会有新的页面添加到
站点
,同时旧的页面也会更新。这
是否
意味着我必须重新搜索整个15 GB的数据,并在每次发生编辑时重新构建我的数据库。解决这个问题最简单的方法是什么?谷歌新闻是如何工作的,因为他们面临着全球信息更新的类似问题?到目前为止,我已经找到了关于这个主题的以下研究论文:
是否
总是有必
要为
此目的
编写
自定义爬虫?我不能用Scrapy或Nutch吗?
浏览 1
提问于2014-02-16
得票数 0
2
回答
简化代码以加快php
抓取
器
速度
、
、
代码简单地插入一个页面,从指定的表中获取所有表内容,将其插入到我的数据库中,并回显它。<?php$pagenumber = 1001; 获取内容$raw = file_get_contents($url); $newlines = array("\t","\n","\r",
浏览 0
提问于2011-10-10
得票数 0
回答已采纳
1
回答
Web从不同
站点
抓取
数据
、
、
编写
抓取
器
不是问题,匹配来自不同
站点
的数据(可能有很小的差异)才是问题。为了通用起见,假设我从两个或更多不同的
站点
上
抓取
了类似的东西: public int id; public String surname; }<em
浏览 6
提问于2014-05-31
得票数 0
1
回答
除了在线文档之外,
是否
有任何方法可以找到Android中给定类、方法等的最低api版本
、
、
、
我很乐意为.class文件或dex文件
编写
一个提取
器
。我只需
要为
这些数据找到一些机器可读的来源,而不是
抓取
文档。目前,我的选择包括解析
每个
应用程序接口版本的
每个
.class文件并进行比较,或者解析文档。 看起来都不是那么有趣,所以任何想法都会被感激地接受。
浏览 3
提问于2015-03-27
得票数 2
1
回答
是否
可以对
每个
输出使用具有不同超参数的MultiOutputRegressor?
、
、
我需要一个向量
目标
的scikit-learn组合估计
器
,但是我需
要为
每个
目标
定义不同的超参数。我的第一反应是定义一个虚拟估计
器
的MultiOutputRegressor,然后用所需的回归
器
覆盖estimators_属性,但这并不是因为只在构造时定义了基本估计
器
;然后在fit上复制它。我
是否
需要
编写
我自己的元估计类,还是有更好的解决方案我没有想到?
浏览 3
提问于2021-11-23
得票数 0
回答已采纳
1
回答
单次安装,子域用于管理,独立域用于
站点
。
我希望使用wordpress的单个安装,并实现以下
目标
:other-site1.com其他-sitex.com是其他网站,并显示他们的正面。登录访问应该被禁用/阻止--我想我可以使用服务
器
conf文件来完成这个任务。..。 adminx.site.com是上述
站点
的管理员。据我所知,我需
要为
子域使用wordpress多
站点
的组合,也可能需
要为
单独的域使用插件。或者,我可以为urls
浏览 0
提问于2015-12-22
得票数 0
2
回答
使用selenium获取数据
、
由于另一个应用程序没有从哪里获取数据的API,所以在Python的帮助下,我使用了web
抓取
,而则从
站点
中
抓取
数据。我用Node.js调用我的Python程序。我想问的是,这是一个机器人之间的连接,它发送请求到
目标
站点
是否
安全?selenium自动浏览
器
是否
向
站点
发送加密连接?或者,我
是否
必须连接到代理来保护我的连接。我不想泄露我服务
器
的IP。
浏览 4
提问于2021-05-31
得票数 1
回答已采纳
5
回答
正则表达式:从其他网站挖掘文本数据
、
、
、
我会给我的
目标
网站造成“流量负担”吗?如果我只是无害地爬行它们,会影响它们的功能吗?有关于如何使用解析DOM树的库的代码示例吗?我
是否
可以通过WebBrowser控件向特定
站点
发送请求并获得DOM形式的响应?
浏览 3
提问于2010-10-07
得票数 0
回答已采纳
3
回答
PHP MYSQL to XML高效文件生成
、
、
、
、
我们生成各种XML文件,
每个
产品一个,在产品数据中是我们从中获取数据的
每个
在线商店,以及它们的价格、链接、描述等。我们遇到的问题是,对于10,000个产品,生成XML几乎需要25分钟!XML生成过程不会考虑
是否
有任何数据实际发生了更改,这就是我所面临的问题。跳过没有任何数据更改的X
浏览 0
提问于2010-02-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
老铁SEO>服务>SEO软件>站群软件
百度发布《移动搜索建站优化白皮书》:更换域名、HTTPS改造等
scrapy官方文档提供的常见使用问题
百度移动搜索优化排名之建站白皮书
如何测试响应式网站
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券