使用LXML.HTML和Xpath的WebScraping

文章/答案/技术大牛

发布

1回答

、、

我试图从网站上提取信息，但不幸的是，我只能获得有限的范围。对于接收整个表的第一个元素以外的其他元素的正确Xpath，我遇到了问题。为了显示Xpath，我使用了Chrome DevTools。如何使Xpath更通用以获得所需的结果？或者有谁知道我怎样才能更巧妙地做到这一点？我的目标是稍后获得一个json文件。import requests html

浏览 11提问于2019-05-03得票数 0

1回答

使用xpath提取值会产生一些不需要的字符串

、、、、

我正在从网页中提取值(webscraping)。我可以成功地获得包含所需值的行，但是，我希望的是值本身。我做得对吗?它真的需要额外的分条步骤吗？来自lxml.html的一些方法print (lh.tostring(title[0]))<span class

浏览 5提问于2019-07-21得票数 0

回答已采纳

1回答

webkitbrowser注入javascript修改输入文本值时出错

、、、、

我在使用Python2.7中的WebkitBrower从网页获取输入文本的值时遇到了问题。下面是示例代码：print token 该示

浏览 2提问于2015-01-01得票数 1

回答已采纳

4回答

使用BeautifulSoup或LXML.HTML的WebScraping

、、、、

我看过一些网络广播，需要帮助才能做到这一点:我一直在使用lxml.html。雅虎最近改变了网站结构。目标页面； //*[@id="main-0-Quote-Proxy"]/section/section/div[2]/section/section/table 然后更多的代码如何在所有月份的dates....And之间切换。

浏览 0提问于2011-03-31得票数 0

回答已采纳

1回答

python选择没有双斜杠的xpath

、、

然而，在python中尝试使用lxml.html不起作用：import lxml.htmlpage= s.get('http://lxml.de/')p=html.xpath('p') 这里，p是一个空列表。我需要用p=html.xpath('//

浏览 2提问于2017-09-17得票数 1

回答已采纳

1回答

如何使用lxml.html从HTML元素中获取文本

、、、

我一直在尝试从<div>页面中获取托管在web元素中的全文。的确如此，因为我的代码 print(div)Element div at 0x15480d93ac8但是，当我试图使用div.text方法获取全文本身时，它返回None 这是一个

浏览 3提问于2020-05-10得票数 1

回答已采纳

3回答

如何使用Python使用Selenium从多个div类中提取文本

、、

我试图从中获取文本类的价格值for ratevalue in rateText:未发现结果：回溯(最近一次调

浏览 11提问于2022-04-21得票数 1

1回答

在python 3中找不到含硒的元素

、、

我正在使用selenium做一些WebScraping，但是检测不到包含xpath、完整xpath、id或文本的元素。<ul></div> 我想从里面获取东西，但是不能，我可以用xpath和id定位到"cbp-vm-switcher“的东西。

浏览 10提问于2021-07-18得票数 0

1回答

带有type=html和html实体的xml的scrapy解决方案

、、

其中一个标签上写着：<p&gt Some text and stuff </p&gt此外，我还看到了img和一个标记的相同的是否有泛型xpath可以找到img标记或p标记，如：但是很明显，这并不适用于这些ht

浏览 3提问于2013-10-01得票数 2

回答已采纳

1回答

使用Xpath单击selenium按钮不起作用

、、、

我现在对Selenium和webscraping还不熟悉。我想点击页面上的按钮。但是，我的程序无法使用这个Xpath找到它：HTML代码：我的Xpath有什么问题吗？

浏览 2提问于2020-04-06得票数 0

回答已采纳

2回答

使用Python通过XPath获取元素内容的最简单方法是什么？

、

我需要获取此XPath的内容：它是从FireBug复制的。我该怎么做呢？我有一个非常大的HTML文档，所以我不想(也不知道如何：)对它进行grep。谢谢。

浏览 2提问于2010-12-24得票数 0

回答已采纳

1回答

美丽的汤虫？

、

") print type(url)<class 'bs4.element.Tag'> 这意味着，url是标签类的对象

浏览 0提问于2012-07-27得票数 0

2回答

如何使用选择器获取父标记？

、、、

以下是搜索的元素：<tr></tr>如果我考虑上面的元素，那么解析父名tr的css选择器应该是什么？from lxml.html import fromstringitem = root.cssselect("td")[0].text

浏览 2提问于2017-10-30得票数 3

回答已采纳

1回答

刮选器属性

、、

我使用以下网站进行测试：做些测试：response.xpath('//div//[@style]/input')[<Selector xpath='//div[@style]/inpu

浏览 0提问于2018-09-24得票数 0

回答已采纳

1回答

为什么不能用lxml.html解析target.html中的所有div元素？

、、

请下载dropbox中的文件并将其另存为/tmp/target.html。 >>> import lxml.html>>> d

浏览 0提问于2018-07-30得票数 1

2回答

使用lxml解析HTML数据

、、

我是一个编程新手，我的一个朋友告诉我使用BeautifulSoup而不是htmlparser。在遇到一些问题之后，我得到了使用lxml而不是BeaytifulSoup的提示，因为它的性能提高了10倍。<tr> <td><a href="website1.com">website1<

浏览 1提问于2011-12-26得票数 3

回答已采纳

1回答

如何使用python xml.dom.minidom进行getElementsByClassName？

、、

我想要获得具有特定类的所有元素的主体。 Python xml.dom.minidom有一个通过id获取元素的方法，getElementById()，但我需要获取所有具有特定类的元素。注意，如果使用minidom不能做到这一点，请提供一个简单的替代方案，让我能够获得这个类元素的完整内容。我所说的完整内容也是指所有的子节点和它们下面的文本，作为一个简单的字符串。

浏览 0提问于2013-06-18得票数 1

回答已采纳

2回答

比BeautifulSoup更快/更少资源-从大文件中删除html的方法？或者，使用BeautifulSoup的更好方式？

、、、、

目前，我在输入这个方面有困难，因为根据top，我的处理器是100%，我的内存是85.7%，所有这些都被python占用了。

浏览 7提问于2011-01-24得票数 5

2回答

XPath和html:合并tr-对？(或其文本())

、

这个是可能的吗？我有一个<tr>元素和XPath表达式//tr的列表。我不想单独返回/匹配每个<tr>元素，而是将第一个元素与第二个元素合并，第三个元素与第四个元素合并，等等。我正在使用lxml.html python包进行html解析和xpath计算。

浏览 17提问于2022-07-25得票数 2

1回答

AttributeError: Web_scraping对象没有属性“_Web_scraping__headless”

、、

我有一个attributeError AttributeError：'Web_scraping‘对象没有属性'_Web_scraping__headless’import osfrom selenium import webdriver from scraping.browser_manager.automate_browser import Bro

浏览 3提问于2022-09-11得票数 1

点击加载更多