我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要抓取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
而不是完整的HTML,它只显示这个注释。
我如何抓取数据,因为在inspect元素中我可以看到完整HTML。
如何绕过缺失的环节,继续抓取好的数据?
我使用的是Python2和Ubuntu14.04.3。
我正在抓取一个有多个链接到相关数据的网页。一些相关的链接丢失了,所以我需要一种方法来绕过丢失的链接并继续抓取。
Web page 1
part description 1 with associated link
part description 2 w/o associated link
more part descriptions with and w/o associcated links
Web page n+
more part descriptions
我