腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何使用Mechanize读取每个HTML标记的
内容
?
、
、
、
我如何编写一个机械化的
抓取
器来从
网页
上的每个HTML标签中获取
内容
?或者,我是否需要将页面转换为字符串并使用
正则
表达式来获取\<.*?\>和\<\/.*?\>之间的所有
内容
浏览 1
提问于2015-07-07
得票数 0
1
回答
Apache NUTCH,相关爬行
、
、
我正在使用Apache NUTCH 2.2.1爬行网站,它为我提供了在SOLR上索引的
内容
。当NUTCH获取
内容
时,有上下文信息,如“联系我们”,“法律声明”或其他一些不相关的信息(通常来自上部菜单,左侧菜单或页面页脚),我不需要索引。其中一个解决方案是自动选择
内容
中最相关的部分进行索引,这可以由自动摘要生成器来完成。有一个名为"summary-basic“的插件,它是用来做这个的吗?如果是这样,它是如何配置的?
浏览 1
提问于2014-11-20
得票数 0
2
回答
使用C#
抓取
网页
(Html)
、
、
、
目前,我正在做
网页
抓取
使用
正则
表达式。但是我认为有时候弄清楚
正则
表达式太难了,所以我在想,XSL/XPath是C#中
正则
表达式的替代方案吗?另外,我想知道除了上面列出的两种技术之外,是否还有更先进的
网页
抓取
技术。谢谢。
浏览 0
提问于2011-02-17
得票数 4
回答已采纳
1
回答
从reddit URL获取原始URL
、
、
考虑这个链接:https://www.reddit.com/r/todayilearned/comments/6x6iz8/til_princess_diana_on_live_tv_shook_the_hand_of/?ref=share&ref_source=linkhttp://www.bbc.com/news/av/magazine-39490507/how-princess-diana-changed-attitudes-to-aids
浏览 0
提问于2017-09-01
得票数 1
1
回答
抓取
oddsportal信息
、
、
、
、
我使用的是Python3.5,实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5
抓取
我只是想用Python代码
抓取
我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中
抓取
信息。我最近也发现了如何从动态url中获取信息,使用Chrome的网络选项卡,并在XHR选项下查看出现的HTTPrequest。它通常会给我从
JS
生成的html代码,在这种情况下,我可以继续使用
正则
表达式,用BS4
抓取</
浏览 2
提问于2016-01-14
得票数 1
2
回答
为什么在获取
内容
时会有一个空的Array作为结果?
、
>如果能帮上忙,我们将不胜感激!
浏览 1
提问于2015-08-20
得票数 1
0
回答
web
内容
的Python
正则
表达式
、
、
我使用urllib来
抓取
网页
查询结果的
内容
(示例= )。但是,我需要一个
正则
表达式来查找以£为单位的价格。我没有尝试过太多(因为我不是很擅长
正则
表达式)。另外,urllib会检索
JS
和HTML吗?我知道我需要的一些信息包含在
JS
中。任何帮助都将不胜感激。
浏览 9
提问于2017-12-12
得票数 0
1
回答
Java和Heritrix 3.1.x: Web
内容
解析?
、
、
、
、
由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关,因为大多数类都已更改或代码已被显着重写/重构),有人能告诉我系统中处理实际
网页
内容
提取的相关类(或类)我想要做的是获取Heritrix将要
抓取
的
网页
的
内容
,然后将分类器应用于该
网页
的
内容
?(分析结构特征等)我认为这个功能可能分布在ContentExtractor类和它的许多子类中,但我要做的是定位
网页
内容
的完整位置或可读
浏览 8
提问于2013-07-19
得票数 0
2
回答
从
网页
中提取
内容
数据
我希望从
网页
urls获得结构化文章数据。到目前为止,我已经找到了这两个服务和。有没有更好的替代方案,或者自己写代码来做这件事值得吗?
浏览 2
提问于2014-10-07
得票数 0
1
回答
Regex -仅从
网页
上的urllist中
抓取
根域
我想要的
正则
表达式代码只
抓取
.com域,没有任何子文件夹或.com之后的任何东西。 例如:在包含urls列表的
网页
上,我想
抓取
和,但不想
抓取
或
浏览 5
提问于2013-01-25
得票数 0
2
回答
perl
正则
表达式查找和替换
、
、
我正在尝试删除4k+
网页
上的一些垃圾
js
代码。
网页
上还有其他的
js
,所以我只需要用一个名为clickIE的特殊函数去掉
JS
。在我引入
正则
表达式之前,我一直使用这个线性函数...我的
正则
表达式在测
浏览 4
提问于2011-12-18
得票数 0
回答已采纳
2
回答
抓取
网页
内容
我刚刚开始研究这个问题,我想把我的Netgear路由器()的统计数据放到一个csv文件中。
浏览 3
提问于2009-11-26
得票数 2
回答已采纳
4
回答
抓取
网页
内容
、
、
、
、
我正在开发一个项目,我想在后台
抓取
一个网站的
内容
,并从那个
抓取
的网站获得一些有限的
内容
。例如,在我的页面中,我有"userid“和"password”字段,通过它们,我可以访问我的邮件,
抓取
我的收件箱
内容
,并将其显示在我的页面中。 我通过单独使用javascript完成了上面的工作。
浏览 0
提问于2009-02-25
得票数 19
1
回答
在Python中爬行
网页
并调用javascript函数
、
、
、
、
我需要
抓取
一个网站,然而,它的
内容
是动态的。Python中有没有可以调用
js
函数的包?例如,假设我在
JS
中有一个链接和
JS
函数1、2和3,我应该在该
网页
上调用,并且在所有
JS
函数调用之后我需要最终的
网页
。
浏览 16
提问于2019-02-12
得票数 0
1
回答
关于在json中使用YQL获取html
网页
的初学者问题
我正在尝试使用yql
抓取
网页
。我认为将其输出为json会将所有
内容
作为一个对象。但是,如果有任何像< strong >这样的html标记,则该文本不会包含在"content“中。或者我应该把它作为xml来获取,然后
正则
表达式出标签?
浏览 2
提问于2011-02-12
得票数 0
5
回答
如何将Regex用于静态HTML代码(PHP)
、
我对
正则
表达式还不熟悉,只是还没有掌握它的诀窍。所以我需要抓住中间的任何东西如果我有$data,这是生成的$result,我如何将其放入
正则
表达式并回显作为
浏览 6
提问于2012-04-23
得票数 0
3
回答
加速Java
正则
表达式
、
我在java中有一个
正则
表达式,可以从我
抓取
的
网页
中提取特定的urls。这些urls基本上是javascript和样式表,它们包含在页面中。我选择使用
正则
表达式来提取这些
内容
,而不是解析文档,因为这应该更容易,而且解析文档对我没有任何附加价值。为了获得有效的urls (绝对或相对),我使用以下
正则
表达式:它提取'",(和url结尾之间的任何
内容
,在本例中为'/
浏览 2
提问于2017-01-20
得票数 1
1
回答
先进的
网页
刮除
我想刮一个网站的一部分,让我们说: www.mywebsite.com/x1/x2您需要先打开x1,然后单击按钮,x2将作为弹出窗口打开。如果关闭x1,则无法访问x2。该网站支持JavaScript。
浏览 3
提问于2015-07-20
得票数 0
1
回答
如何使用Node.
js
从HTML字符串中剥离所有脚本元素?
、
、
、
我正在使用Node.
js
和Puppeteer构建一个刮板机。在本例中,Puppeteer获取页面的主要
内容
,将其保存为字符串,Rss Parser将其转换为RSS提要,创建一个XML文件,该文件保存为包含
抓取
的
内容
的物理文件。问题是,如果
抓取
的
内容
包含像Adsense代码这样的脚本元素,它也会被
抓取
。我需要一个简单的
正则
表达式,将删除任何脚本元素,以及它的所有属性和之间的所有
内容
。我不能使用jQuery,因为这是一个不包含jQuery
浏览 1
提问于2021-03-20
得票数 1
1
回答
如何避免爬取CGI生成的日历
网页
、
网页
由CGI程序生成。大多数
网页
的URL都包含诸如?id=2323&title=foo之类的表达式。然而,我面临的一个问题是,这个网站有一个日历。也会生成一些类似日期的
网页
。这意味着纳奇将试图
抓取
一些无害的
网页
,如year=2030&month=12。如何在Nutch中避免这样的陷阱?编写很多
正则
表达式?
浏览 1
提问于2012-01-27
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网页视频抓取插件-免费网页视频抓取插件
如何抓取网页中的表格
JS的正则表达式
如何用java实现抓取网页图片
理解网页数据抓取的原理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券