我正在尝试开发和应用与jsoup和java来报废一些网页。所以我希望做的是让jsoup先获取页面源代码,然后在页面源代码上让下面的javascript执行并返回一个结果。
$("body, body *").each(function(i, val) {
// do something and something more
});
我计划使用ScriptEngineManager来执行Java中的javascript代码。
ScriptEngineManager manager = new ScriptEngineManager();
ScriptEngine engin
在这段代码中,我试图解析url给出的网站的html代码。
我最初尝试使用jsoup.connect.get,但是在文档中加载的html代码不是我在浏览器中看到的。然后,我开始使用htmlunit,它基于网络中给出的反馈,即jsoup无法完全检索基于javascript/ajax页面的html代码。当我使用htmlunit包及其WebClient类时,我会得到以下错误:
2017年11月5日12:40:15 AM com.gargoylesoftware.htmlunit.javascript.StrictErrorReporter runtimeError runtimeError: run
我正在使用Jsoup库来读取URL。此url在几个<script>标记中包含文本。我可以获得每个<script>标记中的文本吗?请注意,我并不是要求解析Javascript文件,因为我已经知道JSoup不允许这样做。URL的实际源代码在脚本标记中有文本,我需要它。
doc = Jsoup.connect("http://www.example.com").timeout(10000).get();
Element div = doc.select("script").first();
for (Element element : div
我已经用我在intellij中设置jar文件的Jsoup做了我的程序。
当您需要cmd中的外部jar文件时,我遵循了有关如何编译java的说明。
javac -cp C:\Users\Gagak\IdeaProjects\Java\src\jsoup-1.11.3.jar ClanWarsHistory.java
编译工作得很好。
但是当我做的时候
java -cp C:\Users\Gagak\IdeaProjects\Java\src\jsoup-1.11.3.jar ClanWarsHistory
我把这个作为输出
Error: Could not find or load main c