腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
当
id
包含
特殊
字符
时
,
如何
使用
Nokogiri
抓取
URL
/
文本
、
、
、
、
我开始构建我的应用程序的结构:require 'open-uri' @page=
Nokogiri
::HTML(open(strona)) @page.css(css).text x = Scrape.new
包含
了像":"这样的
特殊
字符
,而我得
浏览 22
提问于2019-11-26
得票数 2
回答已采纳
1
回答
如何
保存
Nokogiri
的结果
、
url
= browser.htmlship = doc.css("#shippingCharges td").text
如何
保存
抓取
的结果?在SHELL中,我可以
使用
XPATH查看
抓取
值,如下所示。//*[@
id
='sectionPrice
浏览 3
提问于2012-10-06
得票数 1
回答已采纳
1
回答
使用
Nokogiri
抓取
汉字网页
、
、
、
、
我想要在维基百科页面上
抓取
一个汉字表,但我在
使用
带有
特殊
字符
的
Nokogiri
时
遇到了问题。下面是我的脚本:require '
nokogiri
'end y
浏览 3
提问于2010-06-26
得票数 1
回答已采纳
2
回答
使用
Nokogiri
和Ruby
抓取
iframe数据
、
、
、
这是我编写的
使用
Nokogiri
抓取
<iframe>标签中的数据的脚本:require 'restclient' doc.xpath('//iframe[@width="1001" and @height="973&
浏览 0
提问于2015-01-20
得票数 0
2
回答
我应该
如何
在我的webapp应用程序中存储被刮过的HTML?
、
、
我是一个网络开发的新手(和一般的开发),我正在开发一个rails应用程序,它可以从第三方网站
抓取
数据。我
使用
Nokogiri
解析我感兴趣的特定html元素,这些元素存储在数据库中。我应该将其作为
字符
串提取并放入数据库中,将其写入日志或
文本
文件,还是什么?我应该澄清一点。我每周在10K的网站上爬行,如果我重新定义我想要的数据类型的话,我只需要一次访问备份。我不太预期这种情况会发生(也许一个月会发生1-3次),但是
当
它发生的时候,我会想要在10K-100 K的列表中检索它。任务应该
浏览 4
提问于2012-11-30
得票数 1
回答已采纳
2
回答
如何
从urls的
字符
串数组中删除
包含
"#“等
特殊
字符
和".pdf”等
文本
块的urls?
、
、
、
如何
从urls的
字符
串数组中删除
包含
"#“等
特殊
字符
和".pdf”等小
字符
串的urls? 我在做一个网络蜘蛛。我们的目标是能够生成一个完整的网址列表,减去我不想要的东西。蜘蛛转到主页,
抓取
url
,然后访问每个
url
,然后访问那些它以前没有访问过的
url
上的每个
url
。我尝试
使用
以下if语句的一个版本来实现,这是它的简化版本,它假设有一个充满urls的
字符
浏览 36
提问于2021-10-18
得票数 1
2
回答
使用
ruby在
文本
中刮取子
字符
串
、
、
script>window.location.replace(\"https:\\/\\/www.facebook.com\\/myuserprofilename\");</script> 我需要得到
文本
浏览 2
提问于2014-12-02
得票数 0
回答已采纳
3
回答
用
Nokogiri
SAX解析器解析XML文件
、
、
、
、
数据如下: <Last_Name>LastName</Last_Name></Provider>0042100323, LastName, FirstName, Middle, M
使用
的方法如下def
浏览 0
提问于2014-11-10
得票数 1
回答已采纳
1
回答
将文件写入csv
时
的解码问题
、
、
使用
下面的代码,我试图从
url
中提取描述,该
url
包含
特殊
字符
。itemprop="name").string.strip()pd.DataFrame([description]).to_csv('file.csv') 在查看csv文件中的
抓取
数据
时
,我发现这些
特殊
字符
被问号替换。
如何
在csv文件中获取这些
特殊
<em
浏览 1
提问于2017-09-14
得票数 0
1
回答
Twitter -是否有从推特中检索刮过的
文本
和图像的方法?
当
某人发布一条只
包含
URL
的推文
时
,Twitter会在它从网页上
抓取
一些
文本
和图片时进行一些
抓取
。 有任何方法从Twitter中检索这些数据吗?我需要提供一些
特殊
的参数吗?还是说这只是不可能的事?
浏览 0
提问于2017-10-12
得票数 0
回答已采纳
1
回答
如何
使用
PHP Dom代码
抓取
(提取)
特殊
字符
、
如何
使用
以下代码
抓取
包含
特殊
字符
的内容?目前,代码对
特殊
字符
进行解码,并返回以下内容。["><font size="2">1</font></span>] $
url
= 'http://acbar.org/Managejob
浏览 3
提问于2011-12-24
得票数 1
回答已采纳
1
回答
Nokogiri
-解析多行`<link>`标记作为链接和
文本
、
、
我
使用
Nokogiri
解析播客的RSS提要。我试图获取
包含
指向该集的链接的特定数据,因此我
使用
Nokogiri
解析RSS提要的XML响应。
Nokogiri
::Node对象来获取,并且可以
使用
node.css('title').text获取标题,但是当我尝试
使用
node.css('link').text
时
,我得到了一个空
字符
串。/1\n 有什么方法可以帮助
Nok
浏览 0
提问于2018-05-22
得票数 3
回答已采纳
2
回答
Nokogiri
与brower检查的结果不同
、
、
、
、
在我的浏览器中,我得到了正常的链接,但是所有的HREF链接都变成了来自
Nokogiri
的javascript:void(0);。以下是网站:这是我的代码:response = open(
url
) rescue nild
浏览 3
提问于2016-11-09
得票数 0
回答已采纳
2
回答
清理刮过的<a href> rails
、
、
、
、
我已经从一个网站
抓取
了数据,并
使用
下面的代码将其输入到一个数组中: details_arraydetails_info = {} details_info[:
url
浏览 0
提问于2016-06-23
得票数 0
0
回答
使用
ruby
抓取
动态内容
、
、
我正在
使用
ruby gems (
nokogiri
& mechanize)来制作一个网站爬虫,但这个网站
包含
引导模式(弹出窗口),它是在点击按钮
时
动态生成的。这个(模态的)内容在按钮点击
时
显示,在一些
URL
上
使用
"get“方法。
如何
使用
"ruby“获取动态内容的内容?
浏览 13
提问于2018-07-16
得票数 0
回答已采纳
2
回答
PHP中的单词换行,但不要将
字符
串放在引号中
、
、
我试图缩小一个HTML
字符
串,但也包装在一个特定的
字符
计数
文本
。所以,
当
HTML
字符
串
包含
嵌入式CSS
时
,我需要一个
特殊
的函数。我试过
使用
php函数“we”,但是它的包装
文本
位于双引号(")和单引号(')中,这会破坏显示。Roman'font-family: Arial, 'Helvetica Nueue'
浏览 12
提问于2012-09-26
得票数 2
回答已采纳
2
回答
为什么我的提取/刮掉的HTML代码呈现为
文本
?
、
、
、
、
‘
url
= '’数据=
Nokogiri
::HTML(打开(
Url
)表单=表单) 类StaticPagesController < ApplicationController def home要求'
nokogiri
‘要求’open‘
url
= '’数据=<em
浏览 5
提问于2014-11-02
得票数 2
回答已采纳
1
回答
如何
在python中读取带有
特殊
字符
的文件
、
、
我
使用
Apache Tika
抓取
了pdf,html,doc文件,并将结构化
文本
存储为
文本
files.These
文本
文件
包含
一些不常见的
特殊
字符
,因为这些
特殊
字符
我无法读取这些
文本
文件。我得到了以下错误 UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid sta
浏览 0
提问于2013-08-02
得票数 0
1
回答
用
Nokogiri
解析HTML
、
、
我有一个html文档,我需要它来
抓取
某些
字符
串。这份文件是youtube播放列表。list=PL11CE9468C379D2C8"))
字符
串是data-video-
id
引号后面的
字符
串。在这个播放列表中有7个视频,所以这段代码有7个样本,每个都有一个不同的data-video-
id
。
如何
循环遍历这些
字符
串并将其保存到@scraped_<em
浏览 6
提问于2014-06-06
得票数 1
回答已采纳
3
回答
带
Nokogiri
的复回路
、
我很难用以下方法返回结果:
url
= "http://www.mollymaid.co.uk/counties/aberdeenshire.aspx" doc
浏览 4
提问于2014-10-01
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
wxBot 是用Python包装Web微信协议实现的微信机器人框架
微信全智能机器人测试,Python代码实现自动化操作!
如何编写和设置.htaccess文件
SQL注入最易懂系列教程
享学课堂浅谈Python3爬虫之入门和正则表达式
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券