腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
正则表达式
无法捕获来自我
的
网站
的
文本
、
Perl初学者,有一个关于
正则表达式
的
问题。use warnings;my
浏览 0
提问于2012-11-16
得票数 4
回答已采纳
3
回答
用于抓取pdf
的
Perl机械化模块
、
、
我想要做
的
是下载所有那些在网站上存在
的
PDF。为此,我首先需要提供用户名和密码
的
网站。经过一段时间
的
搜索,我发现了
WWW
::
Mechanize
包,它可以完成这项工作。现在问题出现了,我想在网站中进行递归搜索,这意味着如果
链接
不包含PDF,那么我不应该简单地丢弃该
链接
,而应该导航该
链接
并检查新页面是否有包含PDF
的
链接
。通过这种方式,我应该详尽地搜索整个网站,下载所有上传
的
PDF。对
浏览 4
提问于2011-05-11
得票数 1
2
回答
如何
使用
WWW
::
Mechanize
获得与
正则表达式
匹配
的
链接
?
、
我正在尝试
使用
正则表达式
来捕获
链接
,但做不到。我有所有的
链接
,但有许多
链接
是不想要
的
。use warnings;use
WWW
::
Mechanize
; use
WWW
::<em
浏览 0
提问于2010-07-08
得票数 1
回答已采纳
1
回答
ruby
正则表达式
使用
最后一个
匹配
来分隔字符串,但应该首先
使用
、
、
、
我正在解析一个网站
的
源代码,并且正在
使用
这个
正则表达式
:self.agent.page.content包含由
mechanize
获取
的
页面的源代码。
正则表达式
基本上可以工作,但在第二个
匹配
中,它确实
获取
了比它应该
获取
的
浏览 1
提问于2012-04-06
得票数 0
回答已采纳
3
回答
正则表达式
获得比可用文本更多
的
结果
、
我有一个非常奇怪
的
问题:我在html站点上搜索url,只想要url
的
特定部分。在我
的
测试html页面中,
链接
只出现一次,但我得到
的
不是一个结果,而是大约20个……perl -ne 'm/http\:\/\myurl\.com\/somefileand=evenmore">Somelinknme</a></body></h
浏览 0
提问于2012-05-11
得票数 1
回答已采纳
1
回答
ruby多连接和dns查询
、
、
criteria1/).each do |m| puts pagereq.call.scan(/criteria2/)我
使用
这个模板从网站收集
链接
或其他东西我感兴趣
的
是。解析一次主机名,建立连接,进行所有操作,关闭连接。
浏览 0
提问于2012-05-14
得票数 1
1
回答
上述
使用
Selenium驱动程序
的
代码可以在机械化中实现吗?
、
、
有人能帮我说一下
如何
用
Mechanize
编写下面的内容吗?我对宝石
Mechanize
完全陌生。rubygems"driver.get "https://
www
.example.com" element = driver.find_element :name => "btnSearch"
浏览 4
提问于2013-01-21
得票数 0
回答已采纳
1
回答
Ruby机械化:在不知道
链接
名称
的
情况下以编程方式单击
链接
、
以下是代码:page =
mechanize
.get('http://
www
.example.com/)文本“示例”((:text =>‘样例“)必须是页面上
的
链接
,代码才能正常工作。然而,问题是,当我进行网络搜索(bing、yahoo、google等)时,会出现数百个
链接
。
如何</e
浏览 2
提问于2014-12-25
得票数 2
回答已采纳
3
回答
如何
在Perl中从HTML页面上
的
链接
中提取文本?
、
./23:00:00/">23:00:00/</a>http://x.download.com/00:00:00.................."\n"; }打印:
浏览 0
提问于2012-11-27
得票数 1
回答已采纳
2
回答
如何
使用
WWW
::
Mechanize
和Perl从网页中
获取
链接
我对Perl很陌生,我试图在以http://开头
的
网站上获得所有
链接
,到目前为止,我编写
的
代码返回
的
值都是十六进制
的
。我想看看它正在返回
的
实际
链接
。我已经张贴了我
的
代码在下面,任何和所有的投入将不胜感激。use strict; my $url
浏览 2
提问于2014-03-14
得票数 1
回答已采纳
4
回答
Python机械化,通过url进行
链接
,nr参数是什么?
、
我很抱歉不得不问这样
的
问题,但python
的
机械化文档似乎真的很缺乏,我无法弄清楚这一点。他们只给出了一个例子,我可以找到一个
链接
:但是我不想
使用
正则表达式
,我只想根据它
的
url来访问一个
链接
,我该怎么做呢?另外,什么是"nr“,有时用于下面的
链接
? 感谢您提供
的
信息
浏览 1
提问于2010-08-26
得票数 22
回答已采纳
3
回答
如何
使用
Perl从网站下载
链接
目标?
、
、
我刚刚编写了一个脚本,从网站抓取
链接
,然后将它们保存到一个文本文件中。例如:
www
.example.com/site/admin/a_files.php?dl=33931 当你将鼠标悬停在网站上
的
dl按钮上时,它几乎就是你得到
的
地址。我只是想知道
如何
做到这一点,必须下载给定地址
的
内容,这将下载一个
浏览 4
提问于2010-07-06
得票数 5
回答已采纳
1
回答
如何
抓取公开共享秘密(secret.ly)帖子
、
Secret ()是一个匿名
的
社交网络,人们在这里以短信
的
形式分享他们
的
想法。时不时地,人们会在,和这样
的
社交媒体上分享他们
的
“秘密”,我正在尝试创建一系列公开
的
秘密,我想知道是否有一种方法可以爬行secret.ly域来提取所有这些公共秘密,尽管url是随机字符串。
浏览 0
提问于2014-07-18
得票数 1
3
回答
如果find_link找不到
链接
,返回什么?
、
在perl中,我
使用
WWW
::
Mechanize
>find_ link (text=>‘My _text’);如果找不到
链接
,我
的
问题是返回什么。我
的
目的是检查
链接
是否存在,然后是
Mechanize
::follow_link();; 非常感谢。
浏览 1
提问于2013-10-06
得票数 0
回答已采纳
2
回答
为什么这个ruby机械化代码抛出未定义
的
方法?
、
/usr/bin/ruby env require '
mechanize
' page/home/ubuntu/.rbenv/versions/2.2.3/lib/ruby/gems/2.2.0/gems/
mechanize
-2.7.4/li
浏览 3
提问于2016-01-29
得票数 0
回答已采纳
2
回答
使用
WWW
::机动在一个目录- Perl中刮取多个页面
、
、
、
、
因为我不想猜测什么时候一个新
的
采访发布,我希望能够刮一个网站,其中有一个目录列出所有的采访,并让我
的
程序自动
获取
的
内容上
的
新网址(新
的
采访)。同样,所讨论
的
站点在这里(向下滚动查看访谈列表): 我最初
的
想法是在上面
链接
的
末尾有一个.\
的
正则表达式
,希望它能自动搜索在该页面下找到
的
任何
链接
。然而,我似乎无法
使用
WWW</e
浏览 2
提问于2015-09-04
得票数 0
2
回答
在HTML中
获取
特定
链接
、
、
好
的
堆叠溢出的人。我正在尝试
获取
HTML文件
链接
到
的
文件
的
Perl数组。我对Perl还是很陌生
的
,我对HTML很不熟悉,所以请容忍我。有些文件在
链接
文本之外用星号(*)标记,表示文件定期更新。我尝试了以下基于
的
方法use warnings; my $page = "file://server/web/
浏览 4
提问于2013-12-20
得票数 0
回答已采纳
2
回答
使用
正则表达式
从html中提取facebook页面
、
、
我正在尝试获得一个facebook网页
的
地址
使用
正则表达式
搜索
的
html但有时地址将是http://
www
.facebook.com/some.other目前,我拥有的
正则表达式
是
浏览 5
提问于2012-10-16
得票数 0
回答已采纳
1
回答
为什么
WWW
::
mechanize
抱怨‘未知
的
submit_form参数“form_id”?
、
我在
WWW
::机械化中
使用
submit_form函数,如下所示: my $me = $
mechanize
->submit_form( form_id => 'signin',def'} );}; 尽管这会抛出Unknown submit_form parameter "form_id"
的
错误
浏览 0
提问于2010-10-19
得票数 0
回答已采纳
2
回答
使用
Chrome/Chromium从服务器
获取
“原始”jss和css代码,
使用
WWW
::
Mechanize
::Chrome
、
、
、
我正在尝试
使用
WWW
::
Mechanize
::Chrome下载css/js文件。是的,还有其他方法可以
获取
这些文件。但我
的
要求是这要用
WWW
::
Mechanize
::Chrome来完成。然后它会出现在浏览器窗口中,然后我可以
使用
$mech->content
获取
该窗口。问题是HTML实体是经过编码
的
,解码后得到
的
文件
与
原始文件不同(我对此进行了测试)。这是js文件<e
浏览 20
提问于2019-04-09
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫教程:抓取纯静态网站及其资源教程,干货
Python爬虫基础——模拟浏览器行为库Mechanize入门指南
python爬虫:散文网站内容抓取实战案例附源码
利用正则表达式从统计公报中爬取信息形成结构化统计数据
关于正则表达式的5个小贴士
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券