我的理解是,当我这样做的时候:
agent = Mechanize.New
page = agent.get("http://www.stackoverflow.com/")
Mechanize将对text/html
发出HTTP
GET
请求。然而,当我在一个完整的网络浏览器(如Chrome/Firefox)中导航到一个网页时,浏览器会读取Stackoverflow.com页面,并对相关的CSS、图像、JavaScript等进行后续的GET
请求。
我可以想象解析Mechanize返回的初始HTML并识别任何CSS、图像等,然后发出后续请求,但是有没有一种更简单的方法让Mechanize自动抓取所有或指定的组,也许只抓取网页相关组件的图像?
发布于 2013-05-02 21:28:14
发布于 2013-05-02 22:48:07
我会看一看可用的Mechanize::PluggableParser
。他们中的一个可能会做你想要的。
https://stackoverflow.com/questions/16344639
复制相似问题