pyquery (lxml)在结构良好的XML文档中找不到标记？

文章/答案/技术大牛

发布

1回答

、、

我有一个看起来像的XML文件。相关的比特是： <citation>Vander Wal JS, Gang CH, Griffing GT, Gadde KM.</citation></reference> from pyquery</e

浏览 14提问于2016-08-25得票数 3

回答已采纳

4回答

在windows上安装pyquery

、、

我想在windows上安装pyquery。但是我不能在命令行上运行setup.py安装。你有什么提示吗？

浏览 2提问于2009-12-28得票数 4

回答已采纳

1回答

将根元素作为变量传递

、

我有一个python函数，它接受部分xml字符串和根元素标记，并试图构造一个有效的xml。我很难把这件事办好。from lxml import etree root_element = 'TagStatus' partial_xml_contents = partial_xml_

浏览 3提问于2022-02-18得票数 1

2回答

h1-h6标签上刮擦xpath选择器的行为

、、、、

为什么下面两个代码段提供不同的输出？它们之间唯一的区别是，第一种情况下的h1标记在第二种情况下被替换为h标记。这是因为h1标签在html中有一个特殊的“意思”吗？

浏览 2提问于2016-12-09得票数 0

回答已采纳

2回答

像Python2.5中的PyQuery一样轻松地解析HTML

、、

我正在为GAE (Python2.5)写一个应用程序，我想知道是否有像PyQuery (在Python 2.6+上运行)这样的库。我所要做的就是加载一个超文本标记语言文件，并通过它的ID获取特定标签的内容。在PyQuery中，甚至在Python2.6的库中，比如lxml，这是非常简单的，但是我不知道如何在Python2.5<em

浏览 0提问于2010-08-29得票数 0

回答已采纳

5回答

使用regex或lxml提取Python中的HTML注释？

、

如何使用Python从文档中提取所有HTML样式的注释？text = 'hello, world '更新:我的文档实际上是一个XML文件，我正在使用pyquery (基于lxml)解析文档，但我

浏览 4提问于2016-07-27得票数 1

回答已采纳

1回答

如何在将pyquery对象转换为字符串时取消转义特殊字符

、、、、

我试图用python请求模块获取一个远程页面，重建DOM树，进行一些处理，并将结果保存到文件中。当我获取一个页面，然后将它写到文件中时，一切正常(我可以在浏览器中稍后打开一个html文件，并正确地呈现它)。具体来说，像&& and之类的特殊字符在保存的源的脚本标记中被修改(由pyquery的应用程序引起)，它阻止页面正确地呈现。这是我的代码： import requ

浏览 2提问于2012-11-18得票数 1

2回答

使用lxml解析带有多个xml文档的文件

、、

因此，我假设这是一个非常典型的用例，但我在lxml文档中找不到对此的任何支持。基本上，我有一个xml文件，它由许多不同的xml文档(特别是评论)组成，其结构大致如下： 基本上，我试着按如下方式读取该文件： import lxm

浏览 4提问于2015-07-13得票数 2

回答已采纳

1回答

Python3 html和lxml解析器编码问题

、、、、

当使用BeautifulSoup或PyQuery解析一些超文本标记语言时，他们会使用像lxml或html5lib这样的解析器。假设我有一个包含以下内容的文件在我的环境中，使用PyQuery对它们进行了错误的编码 >>> doc = pq(filename=PATH, parser="x

浏览 18提问于2018-09-01得票数 0

2回答

如何导航到BeautifulSoup对象中的特定标记？

、、

链接到我正在使用的url：response = requests.get(new_url)所有顶级标记(没有父标记的标记)似乎都是可访问

浏览 5提问于2021-04-28得票数 0

回答已采纳

4回答

涉及具有属性的HTML标记的Python web抓取

、、、

网页的框架结构如下：<body><div id="contents"><tbody><td class="authorBeautifulSoup和lxml来完成这项任务，但我不确定如何处理这两个div标记和td标记，因为它们都有属性。除此之外，我不确定是应该更多地依赖Beauti

浏览 0提问于2009-09-08得票数 8

回答已采纳

1回答

在带有python的html注释中获取表

、

我正试图解析一个在评论中有一个表的网页。我似乎不知道如何从注释中获取表中的列和数据。到目前为止，我从html中得到了一个PyQuery文档，如下所示：import requests table = doc('#all_info') 这使我获得了Py

浏览 1提问于2017-01-15得票数 0

回答已采纳

1回答

使用Python解析HTML，而不考虑正确的标记层次结构

、、、、

我想解析一个在语法上是html文档的文档(使用带有属性等的标记)，但在结构上不遵循规则(例如，在<html>标记中<div>标记中可能有一个<body>标记)。我也不想要XML的额外严格性。不幸的是，lxml只提供了document_fromstring()

浏览 4提问于2019-10-24得票数 0

回答已采纳

2回答

Python xml.dom.minidom模式验证

、、、、

是否有任何纯Python方法来使用XSD验证XML文件。我的python版本是2.x (2.6/2.7)，代码已经使用xml.dom.minidom进行XML解析。在StackOverflow上有很多答案，但大多数都使用ElementTree或lxml。有xml.dom.minidom的实现吗？

浏览 5提问于2013-09-19得票数 2

回答已采纳

1回答

如何用Python重命名节点？

、、、

如何使用LXML重命名节点？具体来说，如何在保留所有底层结构的同时重命名父节点(即<body>标记)？我正在使用lxml.html模块进行解析，但据推测，在lxml.html.HtmlElement和其对应的xml之间重命名方面，XML和html之间不应该有任何区别。我在站点上搜索了文档，但没有找到任何关于节点重命名的引用。

浏览 2提问于2016-04-06得票数 5

回答已采纳

2回答

使用DTD解析XML

、、、

我正在尝试解析托管的USPTO数据。我还检索了与这些文件相关联的DTD。我的问题是:是否可以使用它们来解析文件，或者它们只用于验证？我已经使用了一个作为解析某些文档的指导原则，但是按照我现在的方式，每个DTD都需要一个单独的解析器。下面是我目前正在做的一个示例代码片段。 data["Name"]= ref.find("name").text

浏览 1提问于2014-08-06得票数 1

1回答

在python中处理XML标记中的数据

、、、

我正在尝试使用python从XML文档中提取数据。</note><note> <to id="16" name="Tove"&#

浏览 4提问于2017-10-25得票数 0

回答已采纳

1回答

Python -漂亮汤-如何处理丢失的结束标记

、、

我想用漂亮汤从html代码中擦掉表。html的一个片段如下所示。当使用table.findAll('tr')时，我会得到整个表，而不仅仅是行。(可能是因为html代码中缺少了结束标记？)> 266,67 <TD>  <TD>12516714下面是我的

浏览 2提问于2017-04-07得票数 4

回答已采纳

2回答

解析HTML: Python中的lxml错误

、、

我正在编写一个简单的脚本来从中获取大的灰色表格。movies10.aspx").read() 但我在最后一条语句中得到了一个错误。most recent call last): root = etree.XML(html) File "lxml.etree.

浏览 2提问于2010-12-07得票数 3

回答已采纳

2回答

Urllib与elementtree结合在一起

、、、

在使用标准Python库中的ElementTree模块解析简单的超文本标记语言时，我遇到了一些问题。这是我的源代码：from xml.etree.ElementTree import ElementTree try:

浏览 1提问于2012-03-13得票数 1

回答已采纳

点击加载更多