我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要抓取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
而不是完整的HTML,它只显示这个注释。
我如何抓取数据,因为在inspect元素中我可以看到完整HTML。
因此,目前我的代码打开一个网页,然后从我的电子表格输入一个产品代码到搜索栏并导航到下一个页面。从这里开始,宏从网页中获取一张图片,并将其放在我的电子表格中。
问题是当第二个网页打开得太慢时,我会从第一个网页得到一个图像。
我尝试过像下面的循环那样运行一个do while循环,但是它似乎不适用于第二个web页面。
在抓取图片之前,我能做什么使宏等待第二个网站加载?
With IE
.Visible = False
.navigate "https://www.genericwebsitename.com/"
Do While .Busy Or .read
我使用SimpleHTMLDOM从其他网页抓取东西,但我有一个问题,如何才能在图像ancor标记内获得urls,因为该网页包含链接锚标记以及图像锚标记!但是我只想在图片锚标签的边上得到href的值!
<a href="I DO NOT NEED THIS VALUE"><a/>
<a href="I NEED THIS VALUE"><img src="xxxx"><a/>
但是当调用DOM时,它会返回所有的href URL,包括链接锚URL!我只需要在图像锚标签内的网址!
我使用这