Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >只从HTML文件中获取脚本

只从HTML文件中获取脚本
EN

Stack Overflow用户
提问于 2017-07-17 08:29:18
回答 2查看 146关注 0票数 1

我有一个大的html文件,其中包含完整的代码从一个网站。我只关心<script>...<script/>内部的代码。有没有一种方法可以轻松地将这些行从html文件中删除?或者我必须将文件拆分为每个<script>?我想忽略第一个<script>之前的部分(比如head),我需要忽略文件末尾的标记,以及中间的标记,比如它从<head>切换到<body>的位置。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-07-17 09:18:52

如果要删除所有脚本标记:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from bs4 import BeautifulSoup
pagehtml = '''
<li> Text 1 </li>
<script>
<li> Text 2 </li>
<li> Text 3 </li>
</script>
<li> Text 4 </li>
<script>
<li> Text 5 </li>
</script>
'''
soup = BeautifulSoup(pagehtml, 'html.parser')
[s.extract() for s in soup.findAll('script')]
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> soup

<li> Text 1 </li>

<li> Text 4 </li>

>>>
票数 2
EN

Stack Overflow用户

发布于 2017-07-17 08:42:35

要解析html,建议使用像BeautifulSoup这样的html解析器库,这项工作并不难:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from bs4 import BeautifulSoup
pagehtml = '''
<li> Text 1 </li>
<script>
<li> Text 2 </li>
<li> Text 3 </li>
</script>
<li> Text 4 </li>
<script>
<li> Text 5 </li>
</script>
'''
soup = BeautifulSoup(pagehtml, 'html.parser')

现在,要返回一个包含所有script标记的列表(它是内部的),我们需要:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> soup.findAll("script")
[<script>
<li> Text 2 </li>
<li> Text 3 </li>
</script>, <script>
<li> Text 5 </li>
</script>]

因此,第一个问题是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> soup.findAll("script")[0]
<script>
<li> Text 2 </li>
<li> Text 3 </li>
</script>

第二个问题是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> soup.findAll("script")[1]
<script>
<li> Text 5 </li>
</script>
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45149279

复制
相关文章
根据bed文件从fasta文件中获取基因
第一次写博客,分享一个做的提取基因序列的程序,根据bed文件里的位置信息从基因组里提取序列
py3study
2020/02/10
2.7K0
java 获取_java中的html如何获取
UUID,通用唯一识别码,是由一组32位数的16进制数字所构成,可以产生一个号称全球唯一的ID,可以用来命名文件、变量以及数据库的ID主键等属于唯一的元素。
全栈程序员站长
2022/09/22
7.4K0
java 获取_java中的html如何获取
【python小脚本】从数据库获取文件路径通过scp下载本地
需要在mysql数据库中查到相关文件的在服务器的路径,然后通过scp来下载相关文件,之前是手动操作,我现在要写成一个脚本
山河已无恙
2023/03/02
2.2K0
从 GitHub 上获取文件内容
企鹅号小编
2018/01/04
4.8K0
从 GitHub 上获取文件内容
python 获取文件md5值脚本
import hashlib import os def md5(file_path): if os.path.isdir(file_path): return '1' read_file = open(file_path,'r') the_hash = hashlib.md5() for line in read_file.readlines(): the_hash.update(line.encode('utf8')) read_file.close() return the_hash.hexdigest()
用户5760343
2022/05/14
1.6K0
从 GitHub 上获取文件内容
我依稀记得 Java 的 Spring Cloud 中有一个重要的部分就是集中配置:
凌虚
2020/07/20
1.9K0
从 GitHub 上获取文件内容
PowerBI从Onedrive文件夹中获取多个文件,依然不使用网关
整个过程的PQ底层逻辑很清楚,使用一个示例文件作为函数,然后用这个函数遍历文件夹中的所有文件,最终将结果合并到一张表中:
陈学谦
2020/05/07
7K0
从 SAR 报告中获取平均 CPU 利用率的 Bash 脚本
大多数 Linux 管理员使用 SAR 报告监控系统性能,因为它会收集一周的性能数据。但是,你可以通过更改 /etc/sysconfig/sysstat 文件轻松地将其延长到四周。同样,这段时间可以延长一个月以上。如果超过 28,那么日志文件将放在多个目录中,每月一个。
用户4988085
2021/09/14
1.6K0
在shell程序里如何从文件中获取第n行
有没有一种“规范”的方式来做到这一点?我一直在使用 head -n | tail -1,它可以做到这一点,但我一直想知道是否有一个Bash工具,专门从文件中提取一行(或一段行)。
程序熵
2023/09/25
4670
在shell程序里如何从文件中获取第n行
使用 Bash 脚本从 SAR 报告中获取 CPU 和内存使用情况
大多数 Linux 管理员使用 SAR 报告监控系统性能,因为它会收集一周的性能数据。但是,你可以通过更改 /etc/sysconfig/sysstat 文件轻松地将其延长到四周。同样,这段时间可以延长一个月以上。如果超过 28,那么日志文件将放在多个目录中,每月一个。
用户8989785
2021/09/09
1.9K0
如何从列表中获取元素
观察URAM的物理管脚,不难发现A/B端口都有相应的地址、使能、读写控制信号。与BRAM不同的是URAM的读写使能信号是同一个管脚RDB_WR_A/B,其为0时执行读操作,为1时执行写操作,这意味着一旦A/B端口独立,同一端口的读写操作就无法同时发生,因此,如果采用上一篇文章中介绍的方法将其配置为两个独立的单端口RAM,其读写行为与常规的单端口RAM是不同的,进一步而言,此时的读写行为类似于NO_Change模式。
Lauren的FPGA
2019/10/30
17.4K0
linux c程序中获取shell脚本输出
  Unix界有一句名言:“一行shell脚本胜过万行C程序”,虽然这句话有些夸张,但不可否认的是,借助脚本确实能够极大的简化一些编程工作。比如实现一个ping程序来测试网络的连通性,实现ping函数需要写上200~300行代码,为什么不能直接调用系统的ping命令呢?通常在程序中通过 system函数来调用shell命令。但是,system函数仅返回命令是否执行成功,而我们可能需要获得shell命令在控制台上输出的结果。例如,执行外部命令ping后,如果执行失败,我们希望得到ping的返回信息。
阳光岛主
2019/02/19
5.6K0
Android从ftp服务器获取文件
window搭建ftp服务器的步骤在这里,亲测可行: http://blog.sina.com.cn/s/blog_3f7e47f20100haur.html 主要留意一下绑定的ip地址,以后要用到
提莫队长
2019/02/21
1.5K0
获取HTML网页中option标签元素的值
在进行表单元素的操作时,难免会遇到对option元素的挑选,下面的示例代码能够很好的获取到你option元素选择的值,如果要传递给后端,可通过ajax或者其他方式传递即可。 示例代码
呆呆
2021/10/09
7.5K0
前端下载远程文件从后端获取文件名
前端基于远程二级制流下载文件的时候需要注意的前端需要在axios拦截器里面设置responseTypelei'x
李维亮
2023/03/11
2K0
从损坏的手机中获取数据
有时候,犯罪分子会故意损坏手机来破坏数据。比如粉碎、射击手机或是直接扔进水里,但取证专家仍然可以找到手机里的证据。
FB客服
2020/02/23
10.2K0
js中获取html元素之document.documentElement
Document.documentElement 是一个会返回文档对象(document)的根元素的只读属性(如HTML文档的 <html> 元素)。
全栈程序员站长
2022/09/09
6.9K0
js中获取html元素之document.documentElement
Linux Shell脚本中获取本机ip地址方法
倘若有多个网卡,可能会出现多个不同网段的IP,这个时候如果还是执行上述命令就会返回多个IP,如下:
小菠萝测试笔记
2020/06/09
27.4K0
Linux Shell脚本中获取本机ip地址方法
win10 uwp 从StorageFile获取文件大小 获取用户最近使用文件
在群里看到有大神问我就写出,虽然少,在没看到他们说之前没想到,九幽开发者:53078485
林德熙
2018/09/18
1.7K0
linux中编写同步文件的脚本
搭集群最麻烦的就是修改配置文件,如果只用修改一个机器上的配置文件,然后用一个脚本就可以把配置文件同步到其他机器上,岂不快哉!
孙晨c
2020/07/07
2.3K0

相似问题

Cheerio -只从html文件中获取文本

120

使用PHP只从PHP文件中获取HTML代码?

11

只从<head>获取HTML

23

只从shell脚本中的hdfs parquet文件中获取列名

11

从PHP脚本获取HTML文件的名称

22
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文