腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(490)
视频
沙龙
2
回答
使用
Nokogiri
抓取
Reddit
(429个
请求
太多
)
、
、
我试着用
Nokogiri
刮
Reddit
,但是一次运行就告诉我我放了
太多
的
请求
。require '
nokogiri
'url = "https://www.
reddit
.com/r/all" OpenURI::HTTPError: 429 Too Man
浏览 5
提问于2016-08-17
得票数 1
回答已采纳
1
回答
如何在Heroku上
抓取
来自相同域的页面
、
、
、
我创建了一个Facebook风格的URL
抓取
器来发布内容。是否有某种来源规则
浏览 0
提问于2013-02-09
得票数 0
回答已采纳
2
回答
使用
Nokogiri
抓取
整个HTML标签
、
、
、
、
我到处都找过了,我找到的就是用
Nokogiri
做CSS选择,我想要的就是去掉所有的HTML标签。<li><a href="http://youtube.com">YouTube</a></li> <li><a data-category="news" href="http://
reddit
.com">
Reddit
</a
浏览 1
提问于2014-05-05
得票数 2
1
回答
如何用ruby机械化gem
抓取
需要先登录的网站
、
、
www.example.com#code to loginrequire 'logger'require '
nokogiri
result = form.submitputs "logged in" url = 'data_path_url' doc =
Nokogiri</e
浏览 5
提问于2016-07-04
得票数 4
1
回答
503
使用
ruby的open-uri访问特定站点时出错
、
、
、
、
我一直在
使用
下面的代码来
抓取
一个网站,但我想我可能
抓取
得
太多
了,导致我自己完全被禁止访问该网站。require 'rubygems'require '
nokogiri
' doc =
Nokogiri
::HTML(open
浏览 0
提问于2011-12-25
得票数 1
回答已采纳
2
回答
Rails 3从另一个站点拉取数据
、
、
、
、
我在我的一个项目上有一个客户
请求
,他们希望能够输入一个url,并让它从他们输入的网站的url中提取一些信息,并将其保存在数据库中。我应该
使用
一些rails命令来完成这项工作,还是
使用
其他命令,比如jQuery?
浏览 0
提问于2011-05-30
得票数 2
回答已采纳
3
回答
urllib2 HTTP错误429
、
、
、
所以我有一个子编辑的列表,我
使用
urllib打开它们。当我阅读它们时,urllib最终失败了:在进行一些研究时,我发现
reddit
通过IP限制将
请求
装载到服务器上:每两秒钟只提出一次
请求
。有一些突发的
请求
,但保持理智。一般情况下,请立即保持不超过30次
请求
。 上面的引
浏览 5
提问于2012-11-03
得票数 10
回答已采纳
1
回答
使用
Nokogiri
/Open URI获取动态生成的HTML
、
、
我试图通过在Chrome中查看网站的HTML并
使用
Nokogiri
抓取
数据来
抓取
网站。问题是有些标签是动态生成的,当
使用
open-uri时,它们不会与open(url)
请求
一起出现。
浏览 5
提问于2013-07-07
得票数 5
1
回答
为subreddits准备的美汤
、
、
、
我一直在尝试
使用
BeautifulSoup学习一些html解析,并尝试让它在
reddit
上工作。这是我的代码,for link in soup.findAll('a'): 但是代码仍然无法找到超链接。
浏览 2
提问于2014-07-31
得票数 0
1
回答
Google App Engine Go -
Reddit
API返回错误429
、
、
、
我正在尝试在Google App Engine中用Golang创建一个
Reddit
API。time") one, two:=Call(c, "http://www.
reddit
.comreturn nil, err req.Header.Add("User-Agent", "This is a very cr
浏览 1
提问于2013-05-23
得票数 1
3
回答
什么是延迟的后台作业?它怎麽工作?
、
、
我正在
使用
Heroku托管一个小应用程序。它为每个搜索
请求
运行了一个
使用
Mechanize和
Nokogiri
的屏幕
抓取
程序,这需要大约3秒的时间来完成。屏幕
抓取
程序会阻止任何其他想要访问这个应用程序的人吗?换句话说,它是处于仅供当前用户
使用
的保留模式,还是供所有人
使用
?
浏览 0
提问于2011-01-12
得票数 1
回答已采纳
1
回答
如何从其他电子商务网站获取和显示数据到我的网站?
、
、
、
我想从其他电子商务网站获得产品相关数据到我的网站。它只是一个过程,就像给特定的产品网址从其他电子商务网站,以显示产品信息在我的网站。对于ror有什么解决方案吗?如果你知道这件事,请分享你的想法。
浏览 3
提问于2013-10-04
得票数 1
1
回答
用
Nokogiri
抓取
JavaScript
、
、
、
、
我刚刚开始
使用
Nokogiri
,并且已经能够成功地设置HTML页面的外观。我现在正在尝试
抓取
某个
使用
大量JavaScript驱动的页面。 作为我上路的一个例子-我如何从上的一个蓝色框中
抓取
十进制值
浏览 2
提问于2017-03-31
得票数 1
1
回答
用Ruby获取完整的HTML页面(包括AJAX响应)
、
、
、
、
我正在尝试爬行一个电子商务目录,其中的产品数据是
使用
Ajax响应加载的。有没有什么方法可以让我发起一个
请求
,并在一段时间后记录响应?
浏览 16
提问于2016-09-20
得票数 0
回答已采纳
1
回答
从
Reddit
调出标题
、
什么是获得
Reddit
头版头条新闻的最佳方式?目前,我正在
使用
BeautifulSoup4来尝试
抓取
它们,但是
使用
Reddit
API似乎是一个可行的选择,但我在文档中找不到哪个URL可以
请求
标题标题。像http://www.
reddit
.com/r/frontpage/top.json?limit=10这样的东西是我的猜测,但这并没有在上产生任何标题。
浏览 2
提问于2015-01-19
得票数 1
回答已采纳
1
回答
使用
Java访问一次
Reddit
.json页面时
请求
过多
、
、
、
、
当我试图
使用
.json扩展
使用
Java访问任何
Reddit
页面时,会得到
太多
的HTTP429
请求
响应。 有人熟悉这件事吗?为什么我会犯这些错误?是否有
浏览 4
提问于2015-06-23
得票数 2
回答已采纳
2
回答
使用
Ruby从后javascript的登录可访问网页中提取值
、
、
、
、
我正在尝试用Ruby编写一个脚本,它允许我提取数字,然后在我的程序中
使用
它。在firebug中,标签看起来像这样,但只有在数字加载之后:我已经探索了hpricot和
nokogiri
等库,并尝试了类似以下代码:require "open-uri" doc =
Nokogiri
::HT
浏览 7
提问于2013-03-13
得票数 3
回答已采纳
2
回答
Nokogiri
可以解释javascript吗?-网络
抓取
、
、
、
、
我们正在尝试
抓取
这个页面上的可用性: 我需要
使用
我的爬虫来选择“所有楼层平面图”,并获取所有的可用性。但我相信数据实际上是通过Javascript
请求
发送的。有没有办法让我的
Nokogiri
爬虫渲染它?或者模拟点击按钮的过程?
浏览 1
提问于2015-06-10
得票数 4
2
回答
URI.open无法获取
reddit
JSON (错误429)
、
、
、
、
begin 'https://www.
reddit
.com/r/vintageobscura.json', "User-Agent
浏览 13
提问于2021-10-06
得票数 1
1
回答
BeautifulSoup有时只输出数据?
、
因此,我正在
抓取
上所有帖子的链接(特别是过去24小时的顶级帖子)。但是当我运行我的程序时,它有时输出所有的数据,而另一些时候则什么也不输出。同样的密码。它的工作时间大约是1/5。# URL of subreddit# the html of the
浏览 4
提问于2022-04-24
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
绝地求生国区外挂太多 Reddit请求进行锁区
使用JS和NodeJS爬取Web内容
Reddit 被曝屏蔽多个搜索引擎和 AI 爬虫,官方称与谷歌合作无关
“美版贴吧” 强制对 API 收费遭开发者反击:关闭第三方 App 开源代码、数千个子论坛改私有模式、直接搞崩官网!
Reddit CEO要求微软等公司为数据抓取付费
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券