从Beautiful soup输出中删除外部标记

、

它生成一个包含html和body标记的XML。我想从输出中删除html和body标记。我能知道我怎样才能达到同样的效果吗？代码：print("soup output : {}".format(soup.html))<html> <body>

浏览 13提问于2019-11-27得票数 0

回答已采纳

2回答

Python3:从字符串中移除超文本标记语言，所有的例子都是简单的“仅标签”移除

这是一个字符串： Blah Blah Blah <div><div>sometext</div></div> (我想要的)-删除所有HTML后剩下的内容，包括内部文本，以便我获得： Blah BlahBlah (我不想要的)我找到的所有示例都只是针对标签的，它是这样做的： Blah Blah Blah sometext 我需要任何曾经包装在HTML标签中的东西被移除，即使它是纯文本。

浏览 36提问于2021-02-06得票数 1

回答已采纳

2回答

Beautiful Soup的extract()出错

、

我使用的是python 2.4.3和Beautiful Soup 3.0.7a。<h1>foo</h1>和以下代码： bad_tags = soup.fi

浏览 0提问于2009-05-12得票数 0

回答已采纳

2回答

用美汤，在<li>和</li>之间抓东西

、、、、

]soup= BeautifulSoup(webpage) for li in soup.findAll('li'): print li.text.

浏览 2提问于2013-04-08得票数 0

回答已采纳

1回答

用BeautifulSoup分析和编辑html代码中的链接

、

我必须从它找到所有的链接，并用标记<can_be_link>替换它们。接下来的代码几乎可以做我想做的所有事情，但是它在位于某些行(而不是在一条线上)的链接上失败，而行以制表符开始(在我的示例中，这是的链接)。 </li> metka_link = '<can_be_link>'

浏览 1提问于2014-03-17得票数 1

回答已采纳

1回答

如何处理美汤4中的<br> </br>和<br/>？

、、、、

我正在尝试使用python和Beautiful Soup4来替换一些html中的每一个换行标记。文档中有<br>、<br/>和</br>标签，但由于Beautiful Soup处理标签的方式，每当它找到一个<br>时，它就会删除它与它看到的下一个</br>之间的所有内容。

浏览 3提问于2014-12-19得票数 1

2回答

在输入字符串中只保留一组html标记的Python代码

、

我有这样的文本： <script></script> <p> Description </p></div>def strip_tags(text, a_list_of_tags_to_not_remove) 使用下面的Beautiful

浏览 1提问于2018-10-16得票数 1

1回答

为特定文本抓取嵌套的网页

、、、、

from bs4 import BeautifulSoupimport re scraped= urlopen('http://www.example.org/inmates/').read() foritem in soup.find

浏览 3提问于2017-08-26得票数 3

回答已采纳

3回答

“汤”和“美汤”中的“汤”是什么意思？

、

“汤”和“美汤”中的“汤”是什么意思，为什么它被称为“汤”？

浏览 1提问于2014-05-19得票数 10

2回答

我正在尝试用Python和Beautiful Soup从网页上的一个表格中收集一些数据。然而，当我从页面中进行选择时，我得到的结果与在浏览器中得到的结果不同。具体地说，这些表完全缺失。这是我从Beautiful Soup得到的输出： ? 我尝试过使用urllib而不是request，也尝试过使用不同的超文本标记语言解析器(html.parser和lxml)。关于这里可能发生的事情以及我如何绕

浏览 15提问于2020-04-25得票数 0

回答已采纳

1回答

在Beautiful* Soup中，如何忽略写在其他HTML标签之间的HTML标签？*

、

我正在用Beautiful Soup解析HTML文档。我正在从文档中提取<p>标记。但是，在<p>标记之间还有其他标记，比如<a href = 'bla'> bla <a>。问题是，当我想忽略这些<a>标记时，我的代码也会提取它们。html = ['<p> text text text.(<a href = bla> bla </a>) <

浏览 18提问于2019-11-25得票数 0

2回答

在python中获取广告urls

、

有没有一种方法可以用python从网页中检索广告url？例如()，我想检索顶部和右侧的广告的url。这有可能吗？

浏览 0提问于2012-11-03得票数 0

1回答

BeautifulSoup不会删除i元素

、、

我正在学习如何使用html解析和操作beautiful soup，如下所示：import urllib2 elem.extract() formain_body in soup.findAll("d

浏览 4提问于2016-07-31得票数 1

回答已采纳

2回答

正在从GET请求中删除<br/>

、、

我使用get请求来获取一些页面数据，但需要从完成的文件中去掉中断标记。基本上，我要做的是获取get请求的输出并将其保存到一个文件中，但其中有许多我需要删除的中断标记。我可以在保存文件后运行批处理或vb脚本来删除标记，但我也不确定如何做。到目前为止，我看到的唯一解决方案是删除整行代码。

浏览 1提问于2011-01-18得票数 0

1回答

美丽的汤如何删除链接和链接文本从汤

、

目前我删除了实际链接，但文本‘这个文本是问题’仍然存在。理想情况下，我也希望删除该文本。

浏览 4提问于2019-11-08得票数 0

回答已采纳

1回答

BeautifulSoup :从html标记中提取/解析数据

、、、

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“</match> 因此，当我试图将内容输出</e

浏览 5提问于2021-04-08得票数 0

回答已采纳

2回答

Python - Beautiful* Soup -删除<br>标记前的值*

、

我有一个用br分隔的标记中的数据，我正在尝试如何删除br标记之前的所有值，这有点困难。下面是我的数据的一个示例：<td> <br></td>因此，我尝试保留'ValueToKeep‘，并为我正在处理的数据去掉TD标记中的前一个值另外，我的数据文件有数百个这样的TD标记需要清理，所以我也在寻找迭代解决

浏览 10提问于2020-11-15得票数 0

3回答

美丽的汤在使用get_text ()后不能使用

、

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，BeautifulSoup甚至在新的` `html中都无法识别它的主体。html，包括body标记，并且没有script和style标记:(现在我非常困惑为什么会发生这种情况，body为什么会出现，

浏览 20提问于2015-07-05得票数 3

回答已采纳

1回答

如何使用BeautifulSoup匹配嵌入了<a></a>的<div></div>中的文本？

、、

: set noexpandtab tabstop=2 shiftwidth=2 softtabstop=-1: soupsys.stdin.read(), 'html.parser', from_encoding='utf-8') from pprint import pprint pprint(soup.find

浏览 1提问于2016-01-03得票数 1

1回答

使用Selenium- PYTHON打开搜索结果

、

我似乎不能让它工作。代码运行时没有错误，但它不会打开浏览器，也不会问我要搜索什么。 import bs4, sys, webbrowser, requestsrequest= requests.get('https://google.com/search?q=' +''.join(sys.argv[1:]))link = bs4.BeautifulSoup(request.text

浏览 8提问于2020-10-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python3:从字符串中移除超文本标记语言，所有的例子都是简单的“仅标签”移除

Beautiful Soup的extract()出错

用美汤，在<li>和</li>之间抓东西

用BeautifulSoup分析和编辑html代码中的链接

如何处理美汤4中的<br> </br>和<br/>？

在输入字符串中只保留一组html标记的Python代码

为特定文本抓取嵌套的网页

“汤”和“美汤”中的“汤”是什么意思？

美汤找不到桌子

在Beautiful* Soup中，如何忽略写在其他HTML标签之间的HTML标签？*

在python中获取广告urls

BeautifulSoup不会删除i元素

正在从GET请求中删除<br/>

美丽的汤如何删除链接和链接文本从汤

BeautifulSoup :从html标记中提取/解析数据

Python - Beautiful* Soup -删除<br>标记前的值*

美丽的汤在使用get_text ()后不能使用

如何使用BeautifulSoup匹配嵌入了<a></a>的<div></div>中的文本？

使用Selenium- PYTHON打开搜索结果

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐