腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
29
回答
使用
Python
从
HTML
文件
中
提取
文本
、
、
、
我想用
Python
从
HTML
文件
中
提取
文本
。我想要的输出基本上与
从
浏览器复制
文本
并将其粘贴到记事本
中
得到的输出相同。我想要一些比
使用
正则表达式更健壮的东西,因为正则表达式在格式不佳的
HTML
上可能会失败。我看到很多人推荐Beautiful Soup,但我在
使用
它时遇到了一些问题。首先,它会拾取不需要的
文本
,比如JavaScript源。而且,它不能解释
HTM
浏览 447
提问于2008-11-30
得票数 282
回答已采纳
3
回答
将PDF转换为.ipynb (
从
PDF
中
恢复木星笔记本)
、
、
我有一个PDF
文件
是
从
木星笔记本创建的,但是原始的.ipynb
文件
丢失了。有什么工具可以帮助将PDF转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
2
回答
使用
Beautiful Soup进行数据
提取
:数据在网站上可见,但在
HTML
标记
中
不存在
文本
或值
、
、
、
、
我正在尝试从一个网站中
提取
数据
使用
HTML
我无法
从
HTML
.I中
提取
文本
。我正在
使用
Python
,Selenium和Beautiful Beautiful来
提取
数据。我
使用
CSS Selector
从
jquery
中
检查。 如何在jquery中
使用
python
选择值
浏览 1
提问于2018-01-19
得票数 1
1
回答
用于处理非结构化数据源的Azure资源
、
、
、
我们需要从非结构化来源中
提取
暗数据,如信件、rad报告等,请建议azure资源
从
常见的文档格式中
提取
数据: DOC、DOCX、PDF、RTF、TXT、
HTML
等,然后对
提取
的数据进行分析。
浏览 4
提问于2019-03-14
得票数 0
3
回答
“汤”和“美汤”
中
的“汤”是什么意思?
、
“汤”和“美汤”
中
的“汤”是什么意思,为什么它被称为“汤”?
浏览 1
提问于2014-05-19
得票数 10
2
回答
从
html
文件
python
中
提取
文本
、
我写了一个代码
从
html
文件
中
提取
一些
文本
,这个代码
从
网页中
提取
请求的行,现在我想
提取
序列data.Unfortunately我不能
提取
文本
,它显示一些错误。response)print text
html
= response.r
浏览 0
提问于2016-03-07
得票数 0
1
回答
如何读取一些pdf
文件
中
除表格以外的所有内容?
、
我想
使用
python
读取pdf
文件
,但在阅读时,我不想将表格包含在pdf
文件
中
。我只想要除了那些表格之外的所有其他内容。我尝试过像PyPDF2和Tabula这样的库,但我只是找到了
提取
表格或读取包括表格在内的内容的方法。 我也不想创建一个新
文件
并在其中添加页面。
浏览 26
提问于2019-09-02
得票数 0
2
回答
安装用于PDF
文本
提取
的弹出器
、
、
我试图跟随这个博客,尝试
从
发票pdf
文件
中
提取
文本
。我的
文本
提取
需要
提取
发票的特定字段。 我不确定如何
使用
这个.tar
文件</
浏览 24
提问于2020-04-24
得票数 2
1
回答
将cp1251 pdf解析为
python
中
的
文本
、
、
、
有什么方法可以用俄文(cp1251)
从
pdf
文件
中
提取
文本
吗? 对于解析pdf
文件
,我
使用
pdfminer包。
浏览 7
提问于2015-08-26
得票数 1
回答已采纳
1
回答
使用
python
显示docx
文件
的内容
、
我正在读取docx
文件
并显示其数据。我需要显示数据,因为它是在docx
文件
在这里,我的表
浏览 2
提问于2019-09-23
得票数 1
3
回答
使用
python
regex
从
html
文件
中
提取
文本
时出现问题
、
、
我正在做一个项目,这个项目需要我写一些代码,以便用
python
从
html
文件
中
提取
一些
文本
。<tr><td class="right">Doc1.docx</td>^我感兴趣的
html
文件
的一小部分。 #!/usr/bin
浏览 1
提问于2010-07-31
得票数 0
1
回答
从
HTML
中
提取
文本
的速度快于NLTK?
、
、
、
我们
使用
NLTK
从
HTML
页面中
提取
文本
,但是我们只需要最简单的
文本
分析,例如单词计数。 是否有更快的方法
从
HTML
中
使用
Python
提取
可见
文本
?了解
HTML
(理想情况下是CSS)的一些最低水平,如可见/不可见的节点,图像的alt
文本
等,将是另外伟大的。
浏览 2
提问于2017-11-09
得票数 1
回答已采纳
2
回答
从
google学者中
提取
文本
、
、
我试图
从
google学者为特定查询提供的测试片段中
提取
文本
。我所说的
文本
片段是指标题下面的
文本
(以黑色字母表示)。目前,我正在尝试
使用
python
从
html
文件
中
提取
它,但是它包含了许多额外的测试,例如 /div><div class="gs_fl"...etc.有没有一种简单的方法或一些代码可以帮助我在没有这些多余
文本
的情况下获得
浏览 3
提问于2013-04-02
得票数 0
4
回答
如何
使用
python
从
docx
文件
中
提取
超链接
中
的url
、
我一直试图找出如何
使用
python
从
docx
文件
中
获取urls,但什么也找不到,我尝试过
python
-docx和
python
-docx2txt,但
python
-docx似乎只
提取
文本
,而
python
-docx2txt能够
从
超链接中
提取
文本
,而不是urls本身。
浏览 3
提问于2016-11-08
得票数 3
1
回答
有没有办法在
python
中
使用
可读性(
文本
提取
算法)和自定义算法
从
文本
中
提取
链接?
、
、
有没有办法在
python
中
使用
可读性(
文本
提取
算法)和自定义算法
从
文本
中
提取
链接?1.)我在
python
中
使用
可读性。2.)我想以某种方式将
提取
的
文本
与原始的
html
文本
进行比较,以便在文章的实际正文中
提取
链接。
浏览 0
提问于2011-01-04
得票数 0
回答已采纳
2
回答
如何
从
html
文件
中
删除所有不必要的标签和符号?
、
、
、
、
我正在尝试
使用
Python
的BeautifulSoup或HTMLParser
从
美国证券交易委员会的EDGAR系统上的10-K报告(例如公司的代理报告)中
提取
“唯一”
文本
信息。然而,我
使用
的解析器似乎不能很好地处理‘txt’格式的
文件
,包括很大一部分毫无意义的符号和标签以及一些xbrl信息,这些信息根本不是必需的。= BeautifulSoup(
html
.read()) bs_
html
_text = bs_
html
.g
浏览 2
提问于2017-05-09
得票数 2
1
回答
使用
python
从
html
中
提取
文本
、
、
我对
python
相当陌生,但我想从一个站点中抓取数据,不幸的是,这个站点需要一个帐户。虽然我无法
提取
日期(即2017-06-01)。
浏览 2
提问于2017-06-02
得票数 2
回答已采纳
1
回答
尝试
使用
python
解析
html
时重定向到主页
、
、
、
、
www.csgolounge.com/api/mathes"data = page.text我尝试
使用
此代码
从
获取
文本
,但每次尝试
从
页面获取
文本
时,我都会被重定向到主页,并且我的代码会
从
主页输出
html
。我试图抓取的页面是一个.php<em
浏览 0
提问于2016-11-02
得票数 0
3
回答
Sourceforge导出XML或
HTML
、
、
、
我一直在尝试
提取
和抓取有关为joda-time软件归档的bug的信息。但是,我发现没有好的方法可以
使用
自动脚本或其他方法将此信息导出到
文件
中
。我确实在网上找到了一些
python
脚本,但它们大多是关于将sourceforge票证转换为git或过时的。谢谢,Shivani
浏览 3
提问于2012-07-09
得票数 1
3
回答
在浏览器(由BeautifulSoup生成)中直接
从
Python
启动
HTML
代码
、
、
、
我已经
使用
Python
3.3的BeautifulSoup成功地
从
网页中
提取
了所需的信息。我还
使用
了BeautifulSoup生成新的超
文本
标记语言代码来显示此信息。目前,我的
Python
程序打印出
HTML
代码,然后我必须复制、粘贴并另存为
HTML
文件
,然后我可以在浏览器
中
测试它。所以我的问题是,有没有办法用
Python
语言在浏览器
中
启动由BeautifulSoup
浏览 2
提问于2014-01-30
得票数 26
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何用Python从PDF文件中提取文本词汇
简单几行代码提取html文件中全部指定标签内的文本
使用Python删除文本文件中特定内容的行
Python批量提取Word文件题库中的答案
Python视频处理案例:从视频文件中提取音频
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券