我正在使用python来抓取网站上所有的"a“标签。在"a“标签中，我想挑选一些单词并存储它们

在一个列表中。我应该如何处理这个任务？

首先，你可以使用Python的requests库来获取网站的HTML内容。然后，你可以使用BeautifulSoup库来解析HTML，并找到所有的"a"标签。

以下是一个示例代码：

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求获取网页内容
url = "http://example.com"  # 替换为你要抓取的网站的URL
response = requests.get(url)
html_content = response.text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到所有的"a"标签
a_tags = soup.find_all('a')

# 提取并存储单词
words = []
for a_tag in a_tags:
    text = a_tag.text.strip()
    # 过滤掉空字符串和非单词字符
    if text and text.isalpha():
        words.append(text)

# 打印存储的单词列表
print(words)

这段代码首先使用requests库发送HTTP请求获取网页内容，然后使用BeautifulSoup库解析HTML。接着，通过调用find_all方法找到所有的"a"标签。最后，遍历每个"a"标签，提取其中的文本内容，并将符合条件的单词存储到一个列表中。

对于存储单词的问题，你可以选择使用Python的列表来存储提取到的单词。在示例代码中，我使用了一个名为words的列表来存储单词。你可以根据实际需求选择其他数据结构，如字典或集合。

这个任务的应用场景包括网页内容分析、文本挖掘、自然语言处理等。如果你想进一步处理这些单词，可以使用Python的各种文本处理库和算法。

腾讯云提供了多个与云计算相关的产品和服务，例如云服务器、云数据库、云存储等。你可以根据具体需求选择适合的产品。你可以访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于腾讯云的产品和服务。

页面内容是否对你有帮助？

有帮助

没帮助

我正在使用python来抓取网站上所有的"a“标签。在"a“标签中，我想挑选一些单词并存储它们

、

链接标签"a“具有以下文本：”迷你游戏公司(YC W11)正在蒙特利尔招聘高级工程师，QC (workable.com)“ 我想存储“米诺游戏”，“高级工程师”，“蒙特利尔”和"workable.com“在sqlite3。请建议，我该怎么做呢？

浏览 29提问于2019-05-27得票数 0

1回答

用于标签的Scala正则表达式

、、

我是IT新手，大多数事情我都能用谷歌搜索解决，但这次我不能成功，所以我决定寻求一些帮助，哈哈。我正在用scala编写代码，它使用twitter来挑选流行的标签。我已经设法解决了将每个单词分开，然后只挑选以#开头的单词的问题。，而我只想挑选那些使用英文字母和数字的标签。我尝试

浏览 35提问于2020-01-31得票数 1

5回答

使用Python自动从上下文中选择标记

、

如何使用Python从文章或用户的帖子中选择标记？删除一些常见的单词，并选择列表中的前10个单词作为标签。如果上面的方法是好的，什么库可以检测哪些词是常见的，比如“，if，you等”，以及哪些是描述性单词？

浏览 1提问于2009-11-21得票数 4

回答已采纳

2回答

用Python抓取网站，我怎么知道在html中引用哪里？

、、、

我是一个完全的初学者，只构建了基本的Python项目。现在，我正在用Python语言和bs4构建一个爬行器来帮助我从网站上读取成功的故事。这些成功的案例都在一个表中，所以我想我应该找到一个html标签来表示表，并包含整个表。但是，它只是<div和<span class，当我使用soup.find( "div“)或( "span”)时，它只返回一个<e

浏览 0提问于2021-03-19得票数 1

6回答

标签对导航有用吗(在Stack Overflow上或其他地方)？

、、、

我已经在上做了一些研究，但我想了解更多关于用户使用标签进行信息检索的其他方法。你会在Stack Overflow这样的网站上使用标签来导航吗？你认为它们是过滤器(缩小问题列表的范围)，还是分类(显示站点的组织方式)，还是其他什么？

浏览 1提问于2008-09-17得票数 2

回答已采纳

2回答

Facebook在404链接上请求{url}/no_facebook_preview_picture.jpg

、、

如果我在我的墙上张贴到我们网站的普通链接(设置为Only Me，这样我就可以测试)，我会在访问日志中得到以下条目 66.220.152.6 - - [05/Feb/2013:16:31:36 +0000我个人不经常使用Facebook，除了我的测试链接之外，所有的都是由其他用户创建/发布的，但我识别所有链接到我的Facebook帐户的应用程序，没有什么不寻常的，所以我不认为这是第三方应用程序(如果需要，<

浏览 12提问于2013-02-06得票数 10

3回答

如何制作像歌剧霓虹灯这样的气泡图标？

、

在歌剧霓虹灯中，一些网站有一个自定义的“气泡”图标。请参见图像。我想在我的网站上有这样的图标。它们与favicon或apple图标没有任何关系，我也检查了每个网站的首页，但我什么也找不到。谢谢!

浏览 1提问于2017-01-14得票数 1

3回答

仅从网页中提取有意义的文本

、、、

我得到了一个urls列表，并使用nltk对它们进行了抓取。我的最终结果是一个列表的形式，在一个列表中所有的单词在网页上。麻烦的是，我只是在寻找不是常用英语“糖”单词的关键词和短语，比如" as，and，to，am，for“等等。我知道我可以用所有普通的英语单词构建一个文件，然后简单地将它们从我

浏览 7提问于2014-04-03得票数 3

回答已采纳

2回答

在电子app中输入图片名称时，如何存储图片并显示图片？

、、、

我正在尝试做一个桌面应用程序，其中我有几个图像存储在应用程序中，每当我键入一些文本，文本应该被扫描，相应的图像应该在电子实时显示请帮帮我。

浏览 0提问于2017-11-17得票数 0

1回答

确保使用AWS CDK进行标记

、、、、

我正在寻找一种使用AWS CDK编写单元测试的方法，以确保我的堆栈中的所有资源都被正确标记。

浏览 16提问于2021-09-10得票数 0

2回答

Webscraping HTML-包括所有链接内的标记

、、、

我正在使用Python3.5的BeautifulSoup，并且我试图抓取所有h-tags的网站(所以所有的h1、h2..等等)。我的问题是让程序在网站上打开其他链接来抓取它们的标签。因此，假设我有一个网站，它有一个导航菜单，其中包含一些链接，这些链接贯穿整个网站，并且都包含某种类型的h标记。我该如何抓取

浏览 0提问于2016-04-19得票数 2

1回答

无法从LXML获取<a>标记

、

我正在用Python抓取城市字典中的顶级定义、示例、作者和喜欢/不喜欢的单词/短语。我使用lxml访问站点并提取xml数据。我继续调用对XPath数据的请求，并将其存储在树中。它跳过一些单词，即有标签的单词。我正在寻找它的返回值：The best thin

浏览 11提问于2021-05-02得票数 2

回答已采纳

5回答

PHP表单操作不重定向

、、

我开发了一个网络爬虫来搜索我公司网站上的某些标签，以确保它们是实时的，有谷歌分析，诸如此类。然而，我的公司有近百个网站，所以实际的抓取过程，实际上是一个抓取过程。所以我想创建一个表单，用户输入我们其中一家公司的网址，它只抓取一个网站。我不擅长表单，所以我基本上希望表单做的是存储用户输入的url，然后重定向到一个不同的页面，在那里url被提供给爬虫程序并</

浏览 1提问于2012-07-26得票数 1

回答已采纳

1回答

替换标签后<br>后的文本消失br

、、

我正在从网站上抓取一些数据，在使用BeautifulSoup (bs4)时遇到了问题。我需要获取一些元素的文本，由任何东西(逗号、空格等)分隔。这使我能够按显示顺序拆分文本。我无法区分OneTwo是一个单词/句子还是多个。我使用find_all查找所有的<br>标记，并用逗号,替换它们，

浏览 1提问于2016-08-04得票数 0

2回答

对NSString字符进行混洗并在块中排列

、、

我正在尝试开发一个益智游戏，我们在块中显示一个洗牌的单词，用户必须按正确的顺序点击才能形成单词。我有一个大约3k个单词的数组，我已经洗牌了数组并形成了一个杂乱的array.Now。我想最终挑选一个单词字符串，洗牌并在框中显示洗牌的排列，例如单词是板球，它应该出现在屏幕上的以下格式：下面是我<

浏览 3提问于2013-05-31得票数 0

回答已采纳

1回答

emacs中最具阳性的固定物

、、、

在检查emacs中的“最正数”变量时，它输出： most-positive-fixnum is a variable defined in ‘data.c’.

浏览 0提问于2019-05-27得票数 4

回答已采纳

1回答

迭代Jekyll中的子类别

、

在Jekyll中，一个帖子可以有多个类别。例如，意大利面的食谱可能有类别dinner和food。有没有可能--没有插件--迭代一个类别(食物)的其他类别(不同的晚餐时间)？例如，我想为类别food生成以下页面* Spaguetti* Cheerios* BLT

浏览 1提问于2013-10-27得票数 2

1回答

纯文本标签的背景颜色？

、、

我正在用Python中的Plotly显示一段模糊简化的单词嵌入。marker=dict( hoverinfo="skip") 我遇到的唯一问题是数据点的一些标签重叠是否有可能指定文字标签的背景颜色？我的df的前5行看起来是这样的，所有的数据都是这

浏览 3提问于2020-07-07得票数 5

2回答

需要两个同名的表-这种设计有什么问题？

、

我正在同时处理两个网站项目。然而，这两个网站将如此互联，以至于它们共享同一个数据库。对于第一个站点，我们将其称为汽车站点，我创建了一个名为" tag“的表，其中包含分配给条目的标签/标签/类别，非常类似于SO上的标签系统。现在，我需要另一个表来保存与汽车无关的不同类型条目的标签。举个例子，假设我想给衣服加标签。我已

浏览 1提问于2011-01-25得票数 0

回答已采纳

7回答

标签云有什么功能？

我总是看到它们，却总是忽略它们。有人能给我解释一下为什么它们变得如此流行吗？如果我使用的站点允许我通过标签来浏览它(例如，这个站点、del.icio.us等)这就是我要做的。为什么我需要一个标签的“云”来点击？我可以直接在搜索框中输入该标签。我遗漏了什么？

浏览 7提问于2008-09-13得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我正在使用python来抓取网站上所有的"a“标签。在"a“标签中，我想挑选一些单词并存储它们

相关·内容

我正在使用python来抓取网站上所有的"a“标签。在"a“标签中，我想挑选一些单词并存储它们

用于标签的Scala正则表达式

使用Python自动从上下文中选择标记

用Python抓取网站，我怎么知道在html中引用哪里？

标签对导航有用吗(在Stack Overflow上或其他地方)？

Facebook在404链接上请求{url}/no_facebook_preview_picture.jpg

如何制作像歌剧霓虹灯这样的气泡图标？

仅从网页中提取有意义的文本

在电子app中输入图片名称时，如何存储图片并显示图片？

确保使用AWS CDK进行标记

Webscraping HTML-包括所有链接内的标记

无法从LXML获取<a>标记

PHP表单操作不重定向

替换标签后<br>后的文本消失br

对NSString字符进行混洗并在块中排列

emacs中最具阳性的固定物

迭代Jekyll中的子类别

纯文本标签的背景颜色？

需要两个同名的表-这种设计有什么问题？

标签云有什么功能？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐