腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Python
中
使用
lxml
从
html
中
提取
除
css
和
javascript
之外
的
所有
文本
?
、
、
、
如何
从
html
中
提取
除
css
和
javascript
之外
的
所有
文本
?我正在尝试以下代码: r = requests.get(website)
html
_text = tree.xpath('//text()') 但它也会
从
网站检索
所有</e
浏览 7
提问于2019-10-17
得票数 0
回答已采纳
2
回答
如何
使用
lxml
,XPath
和
Python
从
网页中
提取
链接?
、
、
、
、
我得到了这个xpath查询:它
提取
所有
带有标题属性
的
链接-并在
中
给出href。但是,我似乎不能在
lxml
中
使用
它。from
lxml
import etree parsedPage = etree.
HTML
(page) # Create parse tree fr
浏览 0
提问于2010-01-18
得票数 5
回答已采纳
2
回答
如何用
Javascript
以外
的
语言操作DOM?
、
、
、
因此,我一直在想,如
何在
Javascript
和
PHP
之外
的
语言中操作DOM。我总是可以
使用
Javascript
和
PHP在一个
HTML
文件与其他
HTML
和
CSS
代码。类似地,在
Javascript
中有多种方法,
如
document.getElemenyById()等。在PHP
中
,它基本上是一个超
文本
预处理器,因此它
浏览 6
提问于2017-05-01
得票数 1
回答已采纳
3
回答
如何
使用
JavaScript
和
BeautifulSoup调用BeautifulSoup函数
、
、
、
、
作为我
的
项目的一部分,我正在执行网页抓取从一个网站
的
数据。我可以提出请求并获取存在于dom
中
的
数据。但是,有些数据是在
javascript
onClick函数上呈现
的
。一种方法可以是
使用
selenium单击链接(它调用
javascript
函数)并获取呈现
的
数据,但是这个过程很耗时,我不想打开浏览器。在这个网页
的
课程部分,
所有<
浏览 0
提问于2018-02-04
得票数 11
回答已采纳
2
回答
使用
Beautiful Soup进行数据
提取
:数据在网站上可见,但在
HTML
标记
中
不存在
文本
或值
、
、
、
、
我正在尝试从一个网站中
提取
数据
使用
HTML
我无法
从
HTML
.I中
提取
文本
。我正在
使用
Python
,Selenium
和
Beautiful Beautiful来
提取
数据。我
使用
CSS
Selector
从
jquery
中
检查。 如
何在
jquery中
使用
python</em
浏览 1
提问于2018-01-19
得票数 1
1
回答
在
lxml
.htm.clean.Cleaner或任何其他
html
2plaintext
中
设置unicode声明
、
、
如
何在
lxml
.
html
.clean.Cleaner模块
中
设置Unicode字符串编码声明?我正在寻找一个网站
的
纯
文本
阅读,并在过去
使用
lxml
作为一种方式来做这件事,刮掉
的
html
和
javascript
。对于某些页面,我开始收到一些关于编码
的
奇怪错误,但是不知道如何正确地设置这个参数。import requests from
lxml
.
浏览 2
提问于2013-12-18
得票数 0
2
回答
如何
使用
lxml
删除
html
实体(以及更多)?
、
、
我有一个
html
文件,它
的
一些
文本
看起来如下(在通过
lxml
.
html
parse、
lxml
.
html
clean运行它之后,这是etree.tostring(table, pretty_print=True为了达到这个目的,我已经做了很多工作,但是我想要做
的
是去掉
除
<table>、<td>
和
<tr>
之外
的
所有
标记。我还想从这些
浏览 3
提问于2011-05-03
得票数 5
回答已采纳
2
回答
比BeautifulSoup更快/更少资源-
从
大文件
中
删除
html
的
方法?或者,
使用
BeautifulSoup
的
更好方式?
、
、
、
、
目前,我在输入这个方面有困难,因为根据top,我
的
处理器是100%,我
的
内存是85.7%,
所有
这些都被
python
占用了。 为什么?因为我让它通过一个250-meg文件来删除标记。250米,就这样!我在
python
中
使用
了许多其他模块
和
东西来处理这些文件;BeautifulSoup是第一个给我带来任何小问题
的
代码。近4G内存是如何用来操纵250兆
html
的
?我找到
的
(在堆栈溢出上)并一直
使用
浏览 7
提问于2011-01-24
得票数 5
1
回答
从
网页中
提取
主题/关键字
、
、
我正在寻找一个系统,以
提取
主题或简单
的
关键字从一个网页,只有
从
指定
的
网页,没有跟随所包含
的
链接。要分析
的
页面属于不同
的
站点,特别是我想分析一个人在Facebook上共享
的
链接,并从这些页面中
提取
主题或简单
的
关键字。非常感谢。
浏览 5
提问于2014-04-11
得票数 0
2
回答
使用
Python
阅读网页
、
我正在尝试读取
和
处理
Python
中
的
一个网页,其中
的
代码行如下: <div class="or_q_tagcloud" id="tag1611"></div></td></trtd><td class="or_q_ownership" id="ownership374717">CD</td>
浏览 0
提问于2010-08-09
得票数 0
回答已采纳
2
回答
使用
Selenium
从
网页
中
获取
所有
可见
文本
、
、
、
我正在尝试
从
大量不同
的
网站获取
所有
可见
文本
。原因是我想要处理
文本
以最终对网站进行分类。from selenium import webdriver filen = codecs.ope
浏览 0
提问于2011-10-31
得票数 12
回答已采纳
3
回答
使用
Python
和
lxml
从
HTML
div中
提取
文本
、
、
我正在尝试让
python
从
网站
的
一个地方
提取
文本
。我已经确定了
HTML
div:它位于:我尝试
使用
lxml
从
其中
提取
'76‘,但除了:[]
之外
,无法从中获得其他结果:[] 下面是我
的</e
浏览 0
提问于2016-02-03
得票数 2
1
回答
InternetExplorerDriver StaleElementReferenceException
、
apply(WebDriver driver) { }} 如果我在任何浏览器
中
运行这段代码但是,如果我在Internet
中
运行它,它有时会在它想要获得属性"class“
的
行崩溃。出现了一个StaleElementReferenceException。有趣
的
是,这个异常只出现在Windows7 IE9上,而不是Windows IE8上。我在谷歌上搜索了很多如何解决这个问题
的</
浏览 1
提问于2012-01-25
得票数 1
3
回答
有没有一种方法可以
使用
可读性
和
python
来
提取
文本
,而不是
HTML
?
、
、
、
我需要在运行时,在服务器端从一个随机网页中
提取
纯
文本
。我
使用
Google
和
Readability端口。有很多这样
的
情况。
和
minvolai一样,它依赖于
lxml
。还依赖于来检测编码。 我
使用
Yuri
的
版本,因为它是最近
的
,似乎正在积极开发。我
使用
Python
2.7成功地使它在上运行。现在
的
“问题”是它返回
HTML
,而我需要纯
文本<
浏览 1
提问于2012-06-22
得票数 6
回答已采纳
2
回答
Rails
HTML
清理
、
、
、
我正在尝试清理一个
HTML
文件,但它不能正常工作。我希望除了段落
和
换行符
之外
的
所有
内容都是纯
文本
。以下是我
的
清理代码(点表示我
的
类
中
与问题无关
的
其他代码):.include ActionView::Helpers::SanitizeHelper.def remove_
html
_2 = Nokogiri::
HTML
(sanitized_content_1)
浏览 1
提问于2011-06-29
得票数 0
回答已采纳
1
回答
如
何在
python
中
只丢弃
html
标记并
提取
相关
的
文本
、
、
、
我
使用
lxml
提取
与
html
标记相关联
的
文本
,但它也将<>括号
中
的
所有
内容作为标记并丢弃。除了标准
的
html
标记
之外
,还有什么方法可以保留
文本
中
的
所有
内容吗?from
lxml
import
html
data="<EXPE>(i)<i
浏览 2
提问于2020-01-12
得票数 1
1
回答
下载
文本
文件
中
的
目标链接
html
(Beautiful
Python
3)
、
、
我对
python
和
学习Web爬行完全陌生。到目前为止,我成功地
提取
了所需
的
所有
目标URL,但不知道如
何在
文本
文件中下载
所有
目标
HTML
文本
。谁能给我一个大致
的
想法。url = ""data = r.text soup = Beaut
浏览 3
提问于2016-11-06
得票数 1
回答已采纳
1
回答
如
何在
Javascript
/JQuery
和
CSS
中
隐藏
除
第一个孩子
之外
的
所有
子级?
、
、
、
HTML
: <tbody> <th>Heading</th> </tr> <td>Text</td> &l
浏览 6
提问于2011-08-10
得票数 5
回答已采纳
2
回答
如
何在
Vs代码中
使用
emmet for
Python
、
我如
何在
Vs代码中
使用
emmet
中
的
python
? ? 要为
python
和
其他语言添加emmet,我应该输入什么项
和
值?
浏览 21
提问于2020-10-27
得票数 1
3
回答
Python
有像LINQ to XML这样
的
东西吗
我需要解析XML文件并将结果放在
HTML
表单上,但我是
Python
新手。
Python
2.7有没有像C#
的
LINQ to XML这样
的
东西,或者有什么好
的
XML库可以推荐给我?
浏览 1
提问于2011-05-25
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用XPath进行网页爬取的Python实现
学习 requests
如果你正在对Python爬虫蠢蠢欲动?那么我现在带你彻底了解它!
享学课堂浅谈Python3中BeautifulSoup的使用方法
使用Python进行网页抓取的介绍
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券