我有一个项目,要求我使用JSOUP进行网络抓取。我能够从我想要刮的网站主页上得到数据。但是,当我通过循环进入超链接并访问它而在页面中更深入地抓取时,我会得到以下错误: at(TreeBuilder.java:46)
at org.jsoup.parser.Parser.parseInput(Parser.j
使用JSoup,我一直试图选择所有h2节标题节点(进入Elements列表):
Elements sectionheadings = dom.doc.select("h2[class=section-heading我知道它不是空的,因为我可以使用Firebug查看它。选择所有这类JSoup标题的适当h2语法是什么?(我在那里至少能看到4个)
我试图从网站上抓取一些内容,但您必须登录才能查看特定内容。我想使用用户id和密码进行登录,并将会话cookie保存在: m.amway.com上,我尝试使用Jsoup...然而,在使用下面的代码后,我意识到Jsoup无法读取网站所基于的javascript……有没有人有方法可以用来登录、保存会话cookie和抓取内容,使用的不是Jsoup?String User, String P