Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >有没有一种简单的方法可以让Mechanize获得一个网页的所有组件?

有没有一种简单的方法可以让Mechanize获得一个网页的所有组件?
EN

Stack Overflow用户
提问于 2013-05-02 17:58:00
回答 2查看 496关注 0票数 0

我的理解是,当我这样做的时候:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
agent = Mechanize.New
page = agent.get("http://www.stackoverflow.com/")

Mechanize将对text/html发出HTTP GET请求。然而,当我在一个完整的网络浏览器(如Chrome/Firefox)中导航到一个网页时,浏览器会读取Stackoverflow.com页面,并对相关的CSS、图像、JavaScript等进行后续的GET请求。

我可以想象解析Mechanize返回的初始HTML并识别任何CSS、图像等,然后发出后续请求,但是有没有一种更简单的方法让Mechanize自动抓取所有或指定的组,也许只抓取网页相关组件的图像?

EN

回答 2

Stack Overflow用户

发布于 2013-05-02 21:28:14

不,机械化不会这么做的。此外,机械化检索它无法解析的非文本内容的意义是什么?

相反,确定您想要的部分,并使用Net::HTTPCurbOpen-URITyphoeus或任何其他基于HTTP的工具来检索内容并将其保存到磁盘。

实际上,除非我需要机械化首先浏览一些表单,或者维护会话,否则我会编写一个小的Ruby脚本,它使用Nokogiri来提取所需的元素。如果您必须使用机械化进行初始导航,它将自动加载Nokogiri来处理其DOM解析,因此可以利用它提供的机械化页面,这是一个Nokogiri::HTML文档。搜索右侧的相关链接以了解更多信息。

票数 1
EN

Stack Overflow用户

发布于 2013-05-02 22:48:07

我会看一看可用的Mechanize::PluggableParser。他们中的一个可能会做你想要的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16344639

复制
相关文章
php-获得网页的所有链接
浏览量 1 <?php $url="http://www.baidu.com"; // 获取链接的HTML代码 $html=file_get_contents($url); // 创建DOMdoc
kdyonly
2023/03/03
2.3K0
一个简单完整的网页密码_简单的个人网页
https://github.com/suviwang312/SimpleFullPage
全栈程序员站长
2022/11/04
7510
3 种方法爬一个网页上的所有图片
然后等谷歌浏览器下载完成,接着你会看得一个 html 文件,当然,还有一个和这个 html 文件命名相同的文件夹。
伪君子
2019/08/14
15.3K0
3 种方法爬一个网页上的所有图片
如何制作一个简单的网页(二)_简单的个人网页
HTML负责描述了网页的整体骨架 CSS负责描述了页面样式 利用其完成一个简单的个人建立网页。
全栈程序员站长
2022/11/07
1.8K0
如何制作一个简单的网页(二)_简单的个人网页
VC Windows API获得桌面所有窗口句柄的方法
VC Windows API应用之GetDesktopWindow ——获得桌面所有窗口句柄的方法
全栈程序员站长
2022/07/15
1.7K0
这个dataframe,有没有好的方法,可以转化成这样一个dataframe
前几天在Python白银交流群【空翼】问了一个pandas处理Excel数据的问题,提问截图如下:
Python进阶者
2023/03/02
8170
这个dataframe,有没有好的方法,可以转化成这样一个dataframe
一个简单的表白网页
话不多说先看效果 NEW ﹀ ﹀ ﹀ 火狐 Google 怎么样好看吧,源码在下面> 9966999999669999996699666699666999966699666699</br> 9969999999969999999699666699669966996699666699</br> 9966999999999999996699666699699666699699666699</br> 9966669999999999966666999966699666699699666699</br> 99666
公众号爱国小白帽
2020/11/24
1.1K0
一个简单的表白网页
怎样才可以让别人搜索到自己的网页 --
以网站最重要的关键词在主要搜索引擎中排名领先,这是搜索引擎推广中最重要的策略。搜索引擎的"搜索机器人spiders" 会自动搜索网页内容,因此搜索引擎策略从优化网页开始。
书童小二
2018/09/03
2.6K0
静态网页制作方法_如何制作简单的静态网页
这里只展示了核心的html代码。 一些css样式表,静态资源(图片)没有展示,如果大家有想象力的话自己可以在此基础上进行深层次的打造,结合js,打造出属于你的网站。 需要在此基础上进行学习的新人们可以在百度网盘下载资源进行学习即可。
全栈程序员站长
2022/10/04
6.4K0
静态网页制作方法_如何制作简单的静态网页
一种TreeView组件分页异步加载的方法
笔者在工作中遇到了一个web环境需要展示100w级目录节点treeview的需求,本文重点介绍笔者设计的一种treeView分页的方法。 1、无限滚动长列表 前端的业务开发中会遇到数量很大的列表展示情况,一般的处理方法是使用某种方法分屏分页的加载数据。 通常的做法是检测是否滚动到底,然后进行网络请求操作。 const maxScrollTop = Math.max(document.body.scrollHeight, document.documentElement.scrollHeigh
腾讯VTeam技术团队
2020/10/14
1.7K0
简单的制作一个钓鱼网页游戏_简单网页制作代码
网络钓鱼,一个价值很高的词语!如果你曾读过我的一篇文章《价值30亿美元的资料被窃取,网络钓鱼到底有多可怕!》就会知道,网络钓鱼到底有多”值钱”!
全栈程序员站长
2022/09/22
2.2K0
简单的制作一个钓鱼网页游戏_简单网页制作代码
React一种少用的组件通信方式,但是简单
组件通信 通过父组件传递给子组件,如果是兄弟组件,则找到共同父组件,重新往下面传 通过redux,把数据放在redux,触发动作;实际上也是数据在根节点 观察者模式(发布订阅) 对于第一种,大家知道r
前朝楚水
2018/07/26
4050
React一种少用的组件通信方式,但是简单
简单网页的制作_html简单网页制作
响应式网站就是让网页自适应手机端和PC端,是一种网络页面设计布局,其理念是:集中创建页面的图片排版大小,可以智能地根据用户行为以及使用的设备环境进行相对应的布局,自适应不同设备中网页的高宽度!
全栈程序员站长
2022/11/08
3.3K0
简单网页的制作_html简单网页制作
【学术】从一个简单的模型开始,可以让机器学习更高效
AiTechYun 编辑:xiaoshan 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的细节之前都要先进行广泛的尝试。在物理学中,我
AiTechYun
2018/03/27
8650
【学术】从一个简单的模型开始,可以让机器学习更高效
这个网站,可以一键爬取网页上的所有图片!
今天给大家推荐一个网站,可以一键下载分析和获取网页上的所有图片,并且可以一键打包下载!
崔庆才
2023/01/04
4.4K0
这个网站,可以一键爬取网页上的所有图片!
写一个简单的轮播组件
直接上代码 App.js文件 let list = [ { id: 1, img: require('./static/image/one.jpg') }, { id: 2, img: require('./static/image/two.jpg') }, { id: 3, img: require('./static/image/three.jpg') } ]
柴小智
2020/02/13
5740
点击加载更多

相似问题

C++中与内存管理相关的查询

40

从设计模式获取与malloc相关的错误: malloc / free /malloc/ free

21

与C++中的指针相关

20

c++相关查询中的类原型

11

与活动相关的查询

23
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文