这是一个简单的场景,在这个场景中,我尝试了多次,但没有收到我想要的数据。我使用的是一个导入的库JSoup,它可以解析超文本标记语言。
我收集网页html文档:
// url - The URL of the HTML document:
Document document = Jsoup.connect(url).get();
从那里我知道你可以从标签中解析数据。我想要此标记中的数据:
<pre>
示例场景:
<pre> This is the String data inside this tag I wish to collect </pre>
如果有人
有哪些好的开源java库可以搜索和抓取网页中的数据并将其放入数据库中。例如,假设我有一个页面,如下所示:
<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>
"Address:“是关键,但实际上我正在尝试获得"123 My Street”,它有一堆html标签和空格。理想情况下,我希望获取字符串"Address:“后面的td之间的值。似乎JSoup可以完成查找,但是我没有看到一个