腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
Beautiful
soup
输出
中
删除
外部
标记
、
它生成一个包含html和body
标记
的XML。我想从
输出
中
删除
html和body
标记
。我能知道我怎样才能达到同样的效果吗?代码:print("
soup
output : {}".format(
soup
.html))<html> <body>
浏览 13
提问于2019-11-27
得票数 0
回答已采纳
2
回答
Python3:
从
字符串
中
移除超文本
标记
语言,所有的例子都是简单的“仅标签”移除
这是一个字符串: Blah Blah Blah <div><div>sometext</div></div> (我想要的)-
删除
所有HTML后剩下的内容,包括内部文本,以便我获得: Blah BlahBlah (我不想要的)我找到的所有示例都只是针对标签的,它是这样做的: Blah Blah Blah sometext 我需要任何曾经包装在HTML标签
中
的东西被移除,即使它是纯文本。
浏览 36
提问于2021-02-06
得票数 1
回答已采纳
2
回答
Beautiful
Soup
的extract()出错
、
我使用的是python 2.4.3和
Beautiful
Soup
3.0.7a。<h1>foo</h1>和以下代码: bad_tags =
soup
.fi
浏览 0
提问于2009-05-12
得票数 0
回答已采纳
2
回答
用美汤,在<li>和</li>之间抓东西
、
、
、
、
]
soup
= BeautifulSoup(webpage) for li in
soup
.findAll('li'): print li.text.
浏览 2
提问于2013-04-08
得票数 0
回答已采纳
1
回答
用BeautifulSoup分析和编辑html代码
中
的链接
、
我必须
从
它找到所有的链接,并用
标记
<can_be_link>替换它们。接下来的代码几乎可以做我想做的所有事情,但是它在位于某些行(而不是在一条线上)的链接上失败,而行以制表符开始(在我的示例
中
,这是的链接)。 </li> metka_link = '<can_be_link>'
浏览 1
提问于2014-03-17
得票数 1
回答已采纳
1
回答
如何处理美汤4
中
的<br> </br>和<br/>?
、
、
、
、
我正在尝试使用python和
Beautiful
Soup
4来替换一些html
中
的每一个换行
标记
。文档中有<br>、<br/>和</br>标签,但由于
Beautiful
Soup
处理标签的方式,每当它找到一个<br>时,它就会
删除
它与它看到的下一个</br>之间的所有内容。
浏览 3
提问于2014-12-19
得票数 1
2
回答
在输入字符串
中
只保留一组html
标记
的Python代码
、
我有这样的文本: <script></script> <p> Description </p></div>def strip_tags(text, a_list_of_tags_to_not_remove) 使用下面的
Beautiful
浏览 1
提问于2018-10-16
得票数 1
1
回答
为特定文本抓取嵌套的网页
、
、
、
、
from bs4 import BeautifulSoupimport re scraped= urlopen('http://www.example.org/inmates/').read() foritem in
soup
.find
浏览 3
提问于2017-08-26
得票数 3
回答已采纳
3
回答
“汤”和“美汤”
中
的“汤”是什么意思?
、
“汤”和“美汤”
中
的“汤”是什么意思,为什么它被称为“汤”?
浏览 1
提问于2014-05-19
得票数 10
2
回答
美汤找不到桌子
、
我正在尝试用Python和
Beautiful
Soup
从
网页上的一个表格
中
收集一些数据。然而,当我
从
页面中进行选择时,我得到的结果与在浏览器
中
得到的结果不同。具体地说,这些表完全缺失。这是我
从
Beautiful
Soup
得到的
输出
: ? 我尝试过使用urllib而不是request,也尝试过使用不同的超文本
标记
语言解析器(html.parser和lxml)。关于这里可能发生的事情以及我如何绕
浏览 15
提问于2020-04-25
得票数 0
回答已采纳
1
回答
在
Beautiful
Soup
中
,如何忽略写在其他HTML标签之间的HTML标签?
、
我正在用
Beautiful
Soup
解析HTML文档。我正在从文档中提取<p>
标记
。但是,在<p>
标记
之间还有其他
标记
,比如<a href = 'bla'> bla <a>。问题是,当我想忽略这些<a>
标记
时,我的代码也会提取它们。html = ['<p> text text text.(<a href = bla> bla </a>) <
浏览 18
提问于2019-11-25
得票数 0
2
回答
在python
中
获取广告urls
、
有没有一种方法可以用python
从
网页
中
检索广告url?例如(),我想检索顶部和右侧的广告的url。这有可能吗?
浏览 0
提问于2012-11-03
得票数 0
1
回答
BeautifulSoup不会
删除
i元素
、
、
我正在学习如何使用html解析和操作
beautiful
soup
,如下所示:import urllib2 elem.extract() formain_body in
soup
.findAll("d
浏览 4
提问于2016-07-31
得票数 1
回答已采纳
2
回答
正在从GET请求
中
删除
<br/>
、
、
我使用get请求来获取一些页面数据,但需要从完成的文件中去掉中断
标记
。基本上,我要做的是获取get请求的
输出
并将其保存到一个文件
中
,但其中有许多我需要
删除
的中断
标记
。我可以在保存文件后运行批处理或vb脚本来
删除
标记
,但我也不确定如何做。到目前为止,我看到的唯一解决方案是
删除
整行代码。
浏览 1
提问于2011-01-18
得票数 0
1
回答
美丽的汤如何
删除
链接*和*链接文本
从
汤
、
目前我
删除
了实际链接,但文本‘这个文本是问题’仍然存在。理想情况下,我也希望
删除
该文本。
浏览 4
提问于2019-11-08
得票数 0
回答已采纳
1
回答
BeautifulSoup :
从
html
标记
中提取/解析数据
、
、
、
我试图使用Python代码
中
的
Beautiful
从
url中提取体育数据。这个数据源的问题是数据出现在html
标记
中
。具体来说,这个标签的标题是"“</match> 因此,当我试图将内容
输出</e
浏览 5
提问于2021-04-08
得票数 0
回答已采纳
2
回答
Python -
Beautiful
Soup
-
删除
<br>
标记
前的值
、
我有一个用br分隔的
标记
中
的数据,我正在尝试如何
删除
br
标记
之前的所有值,这有点困难。下面是我的数据的一个示例:<td> <br></td>因此,我尝试保留'ValueToKeep‘,并为我正在处理的数据去掉TD
标记
中
的前一个值另外,我的数据文件有数百个这样的TD
标记
需要清理,所以我也在寻找迭代解决
浏览 10
提问于2020-11-15
得票数 0
3
回答
美丽的汤在使用get_text ()后不能使用
、
我正在做网络抓取,我只想从任何网站的文本,所以我使用的
Beautiful
Soup
。最初,我发现get_text()方法也返回了JavaScript代码,因此为了避免遇到应该使用extract()方法的问题,现在我遇到了一个奇怪的问题,在提取script和style
标记
之后,
Beautiful
Soup
甚至在新的` `html中都无法识别它的主体。html,包括body
标记
,并且没有script和style
标记
:(现在我非常困惑为什么会发生这种情况,body为什么会出现,
浏览 20
提问于2015-07-05
得票数 3
回答已采纳
1
回答
如何使用BeautifulSoup匹配嵌入了<a></a>的<div></div>
中
的文本?
、
、
: set noexpandtab tabstop=2 shiftwidth=2 softtabstop=-1:
soup
sys.stdin.read(), 'html.parser', from_encoding='utf-8') from pprint import pprint pprint(
soup
.find
浏览 1
提问于2016-01-03
得票数 1
1
回答
使用Selenium- PYTHON打开搜索结果
、
我似乎不能让它工作。代码运行时没有错误,但它不会打开浏览器,也不会问我要搜索什么。 import bs4, sys, webbrowser, requestsrequest= requests.get('https://google.com/search?q=' +''.join(sys.argv[1:]))link = bs4.BeautifulSoup(request.text
浏览 8
提问于2020-10-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Python做网页爬虫
Python爬取网站博客教程并制作成PDF
40行代码就能学会爬虫?有了这碗“汤”你也可以!
Python常用库二:Beautiful Soup
干了这碗汤,你也可以愉快地爬虫了
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券