首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何只提取"https“包含的链接使用漂亮的汤?

要使用BeautifulSoup库从HTML文本中提取包含"https"的链接,您可以按照以下步骤操作:

  1. 首先,确保您已经安装了beautifulsoup4lxml这两个库。如果没有,请使用以下命令进行安装:
代码语言:javascript
复制
pip install beautifulsoup4 lxml
  1. 然后,导入所需的库并创建一个BeautifulSoup对象:
代码语言:javascript
复制
from bs4 import BeautifulSoup

html_text = '''<html>
                <body>
                    <a href="https://www.example.com">Example</a>
                    <a href="http://www.example.com">Example</a>
                    <a href="https://www.example2.com">Example2</a>
                </body>
              </html>'''

soup = BeautifulSoup(html_text, 'lxml')
  1. 接下来,查找所有包含"https"的链接:
代码语言:javascript
复制
https_links = soup.find_all('a', href=re.compile(r'https'))
  1. 最后,遍历并打印提取到的链接:
代码语言:javascript
复制
for link in https_links:
    print(link['href'])

这将输出以下结果:

代码语言:javascript
复制
https://www.example.com
https://www.example2.com
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

领券