首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

是否有一个开源Python库用于清理HTML并删除所有Javascript?

是的,有一个名为Beautiful Soup的开源Python库,它可以用于清理HTML并删除所有JavaScript。Beautiful Soup是一个用于从HTML或XML文件中提取数据的Python库。它提供了一些方法来查找和操作文档中的元素,可以很容易地删除JavaScript代码。

以下是一个使用Beautiful Soup删除HTML中所有JavaScript代码的示例:

代码语言:python
代码运行次数:0
复制
from bs4 import BeautifulSoup

html = """
<html>
<head>
   <title>My Title</title>
   <script>alert('Hello, World!');</script>
</head>
<body>
    <p>Some text here.</p>
   <script>console.log('Hello, JavaScript!');</script>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

# 删除所有的script标签
for script in soup(['script']):
    script.decompose()

# 输出清理后的HTML
print(soup.prettify())

输出结果:

代码语言:html
复制
<html>
 <head>
 <title>
   My Title
  </title>
 </head>
 <body>
  <p>
   Some text here.
  </p>
 </body>
</html>

Beautiful Soup的官方网站是:https://www.crummy.com/software/BeautifulSoup/

推荐的腾讯云相关产品:

以上是关于Beautiful Soup的相关信息和推荐的腾讯云产品。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

领券